Sunteți pe pagina 1din 25

Cercetarea criminalistic a microurmelor

3 Rolul prelucrrii statistice i a asigurrii calitii n analiza urmelor/microurmelor din laboratorul


de criminalistic....................................................................................................................................1
3.1 Modaliti de prezentare a msurtorilor i de transformare a variabilelor................................2
3.1.1 arametri de nivel i mrimi pentru valorile medii.............................................................2
3.1.1.1 Media............................................................................................................................2
3.1.1.2 Mediana........................................................................................................................3
3.2 !radul de distribuie "parametri de dispersie#............................................................................3
3.2.1 $ariana i deviaia standard...............................................................................................3
3.2.2 %oeficientul de variaie........................................................................................................&
3.3 %oeficientul lui 'tudent n calculul statistic...............................................................................&
3.& rezentarea rezultatului final al unei analize i estimarea intervalelor de ncredere..................(
3.&.1 )*primarea rezultatului final al unei analize.......................................................................(
3.&.2 +ntervalele de ncredere, toleran, predicie.......................................................................-
3.( %ompararea seturilor de date prin teste statistice. .este de semnificativitate i apreciere a
e*actitii metodelor de analiz......................................................................................................../
3.(.1 Realizarea testelor de semnificativitate...............................................................................0
3.(.2 1precierea e*actitii metodelor de analiz prin testul t.....................................................2
3.(.3 %ompararea valorilor 2 i s2 "testul 3#............................................................................11
3.(.& %ompararea mediilor a dou seturi de probe.....................................................................12
3.(.( Modaliti de eliminare a rezultatelor ndoielnice "outlier#...............................................1&
3.(.(.1 %riteriul t "'tudent# n procesul de eliminare a valorilor ndoielnice.........................1(
3.(.(.2 %riteriul 4 n procesul de eliminare a valorilor ndoielnice "testul lui 5i*on#..........1(
3.- 3undamentul analizei statistice multivariante..........................................................................1-
3.-.1 Reprezentarea liniar simpl. %oeficientul de corelaie....................................................1-
3.-.2 Regresia liniar multipl pentru analiza multivariabilelor................................................12
3./ rocesarea multidimensional a datelor analitice.....................................................................21
3./.1 'tandardizarea i transformarea variabilelor.....................................................................21
3./.2 6rdinarea sau reducerea dimensiunilor.............................................................................22
3./.3 1naliza componentelor principale. 1naliza factorilor......................................................22
3./.& 1naliza clusterilor.............................................................................................................2(
3 Rolul prelucrrii statistice i a asigurrii calitii n analiza urmelor/microurmelor din
laboratorul de criminalistic
Parametrii statistici pot fi folosii n interpretarea rezultatelor obinute n urma unor analize (de
exemplu se folosesc la estimarea performanelor unei metode, aprecierea gradului de
reprezentativitate a unei valori numerice, sau la compararea caracteristicilor unor probe care
provin din locaii diferite). Mrimea parametrilor statistici depinde n general de tipul de informaii
valabile. Metodele statistice se aplic de obicei la interpretarea i concluzionarea rezultatelor
obinute n urma unui studiu care genereaz baze mari de date. Pentru o prob de un anumit tip,
deosebit de importante sunt mrimile caracteristice locaiei (parametri de nivel) i distribuia
parametrilor de interes (parametri de dispersie sau de distribuie). ele mai importante mrimi care
caracterizeaz locaia includ media i mediana. !radul de distribuie este reflectat prin varian
sau deviaia standard.
Pentru seturi numerice cu p"n la #$ valori pentru desemnarea parametrilor statistici se
folosesc notaiile n caractere romane n timp ce n cazul populaiilor cu mai mult de #$ valori
numerice, parametrii statistici caracteristici se redau prin simboluri (exemplu pentru medie, x i
%ector &r. Cecilia ARSENE 'otie curs $(
)
Cercetarea criminalistic a microurmelor
). *n alte cuvinte putem spune c x i s
#
sunt estimri aproximative ale mediei unei populaii de
valori numerice, , i a varianei acesteia,
#
.
3. !odaliti de prezentare a msurtorilor i de trans"ormare a #ariabilelor
3.. $arametri de ni#el i mrimi pentru #alorile medii
+alorile medii pot fi prezentate prin medie, moda, median, de,a anterior prezentate, dar i prin
medie geometric definit ca fiind rdcin de ordinul n din produsul valorilor individuale ale unei
populaii de subieci numerici-
n
n # )
....x x x
Media geometric este folosit pentru calcularea mediilor secvenelor la care subiecii intervin cu
un raport constant. &e menionat faptul c la transformarea logaritmic a unei variabile, media
aritmetic estimat pentru datele transformate devine ec.ivalent cu media geometric a valorilor
netransformate. ei mai importani parametri de nivel includ media i mediana.
3... !edia
Media este mrimea care se refer de obicei la media aritmetic a valorilor aceluiai parametru
dintr/un set de date. Pentru studii de monitorizare a calitii mediului ncon,urtor media reprezint
estimatorul tendinei centrale a unui ir de valori numerice (se estimeaz prin intermediul unei
simple medii aritmetice care satisface cel mai bine condiiile pe care trebuie s le ndeplineasc un
asemenea parametru). Media este o valoare teoretic care poate substitui cel mai probabil orice
valoare din ir. Pentru un parametru caracterizat de n determinri notate cu x), x#, ....., xn, media
care reflect statistic acest parametru, notat de obicei cu x , se calculeaz cu relaia
( )
+ + + +

n
) i
i n ( # )
x
n
)
x .... x x x
n
)
x
Pentru cazul n care pentru aceeai matrice exist dou sau mai multe probe de mrimi
diferite, n) i n#, caracterizate de mediile,
) x
i
# x
, atunci media global se calculeaz n baza
raportului dintre totalul pentru cele dou probe i numrul total de valori (n0n)1n#). Media global
se poate calcula cu relaia
( )
n
x n x n #
#
)
)
+
Media anterior prezentat adeseori este cunoscut i sub numele de media masic a dou
probe cu ponderi masice proporionale mrimii probelor. Media este un parametru de localizare a
repartiiei sau de nivel al valorilor pentru c indic implicit ordinul de mrime al valorilor variabilei.
Media nu este un parametru statistic robust deoarece i pierde stabilitatea n prezena unor valori
extreme (mari sau mici), cu alte cuvinte media este un parametru puternic afectat de valori foarte
mari sau foarte mici din irul de valori numerice.
%ector &r. Cecilia ARSENE 'otie curs $(
#
Cercetarea criminalistic a microurmelor
3...% !ediana
Mediana (M) se refer la valoarea localizat n centrul unui ir de valori atunci c"nd aceste valori
sunt aezate n ordine cresctoare. 2ste o mrime robust care poate servi n procesul de
verificare al mediei calculate.
Mediana este de fapt valoarea care mparte irul cresctor al valorilor unei serii n # pri egale.
&e exemplu, pentru o serie de msurtori care conine un numr par de valori, mediana va fi dat
de media celor dou valori din centrul irului. *n alte cuvinte dac irul de valori al unei probe are
un numr par de valori, #n, mediana este media aritmetic a valorilor de rang n i n1) iar dac
irul are numr impar de valori distincte, #n1), mediana este valoarea de rang n1). &e obicei,
pentru serii mari de valori, din valorile numerice ale irului 3$4 sunt mai mici i 3$4 sunt mai mari,
n valoare, dec"t mediana. Pentru unele situaii exist posibilitatea ca numrul valorilor mai mari
sau mai mici dec"t mediana s fie mai mic decat 3$4 datorit faptului c n seria de date pot
exista valori egale c.iar cu mediana.
Pentru un set mare de valori, mediana este mult mai reprezentativ dec"t media. +aloarea
medianei este mai puin sensibil n raport cu valorile extreme din seria de valori numerice (valori
foarte mari sau foarte mici n raport cu cele predominante) i nu ine seama de toi termenii
repartiiei. 5dugarea unei valori extrem de mari n seria de observaii va sc.imba doar rangul
intervalului mediu, pe c"nd media aritmetic va nregistra o sc.imbare ma,or. Media i mediana
vor furniza estimri similare a tendinei centrale c"nd toate datele din irul de valori numerice au
acelai ordin de mrime.
3.% &radul de distribuie 'parametri de dispersie(
&ispersia reprezint parametrul care vizeaz estimarea variabilitii rezultatelor obinute n urma
unor msurtori multiple pe un sistem individual. &ei dispersia se definete relativ la o msur
specific a tendinei centrale, mrimea acesteia este independent de valoarea central. &intre
parametrii de dispersie cei care opereaz cu ptratul valorilor numerice (variana, deviaia
standard) sunt de o importan deosebit.
3.%. )ariana i de#iaia standard
+ariana i deviaia standard reprezint o msur a gradului de distribuie a valorilor dintr/o serie
de observaii n raport cu media valorilor acelei serii. +ariana este definit ca i deviaia ptratic
medie fa de media seriei de valori iar deviaia standard este rdcina ptrat a varianei. &eviaia
ptratic medie reprezint raportul dintre suma ptratelor deviaiilor fa de valoarea medie i
numrul probelor (n). *n practic se folosete variana care se calculeaz ca raportul dintre suma
ptratelor deviaiilor fa de valoarea medie i (n/)) unde (n/)) poart numele de numrul gradelor
de libertate. 6e folosete (n/)) i nu n deoarece deviaia ptratic medie a probei tinde s
subestimeze variana setului de valori.
unoaterea numrului gradelor de libertate pentru probe i populaii permite estimarea unui
component n situaia n care acesta este necunoscut. *n general, dac proba conine n
%ector &r. Cecilia ARSENE 'otie curs $(
(
Cercetarea criminalistic a microurmelor
componente, valoarea componentului de ordinul n poate fi dedus din componentele n/) rmase
i din media componentelor probelor. &e exemplu, dac avem o prob cu 3 componente din care
se dau doar componentele ), #, ( i 7 i media probei care este (, cel de/al cincilea component al
probei se poate determina conform
( ) ( ) 3 7 ( # ) 3 ( x x x x n x
7 ( # )

+ariana poate fi estimat prin parametrul s
#
, care n cazul unei serii de observaii cu un set de
valori n, notate cu x), x#, x(, ...., xn, se determin n baza relaiei-
( )
( )

n
) i
#
i
#
x x
) n
)
s
Printr/o extragere de radical se obine un nou parametru al dispersiei denumit deviaie
standard care se noteaz cu s. &eviaia standard are ca estimator valoarea
#
s s .
&up obinerea deviaiei standard se poate calcula i o deviaie standard a mediei unui set de
valori, notat cu
8
s
, care de fapt este o msur a dispersiei n populaia de medii ce ar apare prin
extrageri repetate de n indivizi din populaie.
2stimarea deviaiei (erorii) standard a mediei se va face n baza relaiei
n
s
s
8

.
&eviaia standard a mediei este un parametru statistic foarte important care este folosit pentru
estimarea intervalului de ncredere a valorii medii a unui set numeric incluz"nd n valori.
3.%.% Coe"icientul de #ariaie
Pentru msurtori care nu pot lua valori negative, coeficientul de variaie (+, coefficient of
variation) este dat de raportul dintre deviaia standard i medie (mrime adimensional care d
informaii asupra dispersiei n raport cu media). oeficientul de variaie este dat de relaia-
x
s
&eviaia standard relativ se exprim procentual (96& 4, relative standard deviation) i se
obine n baza relaiei-
)$$
x
s
96&4
3.3 Coe"icientul lui Student n calculul statistic
5precierea mediei globale a unei serii cu numr redus de determinri (p"n n #$) se realizeaz
printr/un proces de selecie redus folosind testul t al lui 6tudent care are la baz compararea
mediei unei serii de valori cu distribuie normal a valorilor. &istribuia mrimii este dat de
coeficientul t cunoscut i sub numele de coeficient 6tudent-
%ector &r. Cecilia ARSENE 'otie curs $(
7
Cercetarea criminalistic a microurmelor
x
s
x x
t

&istribuia variabilei t funcie de frecvena de apariie a sa are loc dup funcia lui 6tudent care
are forma-
#
) '

#
'
'
t
) : f(t)
+

,
_

+
n care :' este o constant iar ' 0 n/) este numrul gradelor de libertate. &e obicei valoarea lui t
depinde de numrul gradelor de libertate i de probabilitatea aleas. Probabilitatea P este raportul
dintre numrul de cazuri favorabile i numrul total de cazuri posibile i se poate exprima
procentual. ;recvent nt"lnite sunt probabilitile de <3,7 i <<,=4. *n *abelul 3. sunt date valori
teoretice (t) ale coeficientului 6tudent pentru mai multe grade de libertate.
*abelul 3.+ +alori ale coeficientului 6tudent pentru c"teva grade de libertate i nivele de confidenialitate de
<3,7 i, respectiv, de <<,=4.
t ,-./0 ,,.10 t ,-./0 ,,.10
) )#,=) >(,>> )? #,)$ #,??
# 7,($ <,<# #$ #,$< #,?3
( (,)? 3,?7 #3 #,$> #,=<
7 #,=? 7,>$ ($ #,$7 #,=3
3 #,3= 7,$( (3 #,$( #,=#
> #,73 (,=) 7$ #,$# #,=$
= #,(= (,3$ 3$ #,$) #,>?
? #,() (,(> )$$ ),<? #,>#
< #,#> (,#3 #$$ ),<= #,>$
)$ #,#( (,)= ($$ ),<> #,3<
)# #,)? (,$> @ ),<> #,3=
)3 #,)( #,<3
6e observ c pentru un numr de msurtori mai mare ca #$ valorile lui t sunt aproximativ
aceleai ca i pentru un numr infinit de msurtori iar graficul curbei de distribuie a variabilei t
(6tudent) are de asemeni alura curbei !auss.
Pentru un numr redus de determinri (selecie redus) valoarea intervalului de o parte i alta
a mediei de selecie x n care se va gsi o determinare oarecare xi este de ts.
x / ts < x < x + ts.
3./ $rezentarea rezultatului "inal al unei analize i estimarea inter#alelor de ncredere
3./. E2primarea rezultatului "inal al unei analize
9ezultatul unei analize reprezint de fapt valoarea cea mai apropiat de valoarea adevrat. *n
practica analitic pentru un numr redus de determinri (n < #$), pentru exprimarea rezultatului
final al unei analize se utilizeaz relaia-
8
s t x + t
%ector &r. Cecilia ARSENE 'otie curs $(
3
Cercetarea criminalistic a microurmelor
3./.% 3nter#alele de ncredere. toleran. predicie
5ceste intervale sunt folosite n mod uzual pentru a investiga dac seturile de date sunt n
concordan cu seturi de date anterior obinute sau pentru a prezenta un rezultat final al unei
analize. &e exemplu, la compararea datelor obinute pentru un compus specific cu valorile
concentraiilor din bacAground se poate pune ntrebarea dac site/ul este nc necontaminat.
Bntervalele de ncredere pot fi pentru populaii i pentru probe. 2le sunt modaliti de raportare
a celor mai probabile valori ale mediilor unor populaii de msurtori. 9edau de fapt domeniul
rezultatelor din ,urul valorii medii care pot fi explicate prin erorile nt"mpltoare.
%a calcularea intervalelor de ncredere pentru populaii se poate folosi relaia
zC D x
i
t
unde z este factorul reprezentativ pentru intervalul de ncredere solicitat i este deviaia
standard.
Bntervalul de ncredere poate fi exprimat i n termeni de deviaie standard a populaiei i
valoarea unui singur termen din irul de observaii.
zC x D
i
t
Bntervalele de ncredere mai pot fi raportate folosind i media unui set de n msurtori dintr/o
populaie cu cunoscut.
n
C
C
x

*n aceste condiii intervalul de ncredere pentru media unei populaii este
n
zC
x D t
Pentru probe, intervalul
n
zC
x zC x D t t
devine de forma
n
ts
x D t
unde t este definit n aa fel nc"t t z la toate nivelele de ncredere.
*n *abelul 3.% sunt redate valorile intervalelor de ncredere pentru curbe de distribuie normale
cu limite cuprinse ntre
zC D t
.
*abelul 3.%+ Bntervale de ncredere.
z Bntervale de ncredere (4)
$,3$ (?,($
),$$ >?,#>
),3$ ?>,>7
),<> <3,$$
#,$$ <3,77
#,3$ <?,=>
(,$$ <<,=(
(,3$ <<,<3
%ector &r. Cecilia ARSENE 'otie curs $(
>
Cercetarea criminalistic a microurmelor
Mrimea intervalelor de ncredere asociate cu orice estimri statistice va depinde de-
/ mrimea probei- probelor mari le vor fi asociate valori de eroare mai miciE
/ variabilitatea datelor- deviaie standard mare nseamn precizie sczut a estimrilorE
/ intervalul de ncredere care urmeaz a fi estimate ar trebui s se afle n limitele celui calculat.
Bntervalul de ncredere BB (de siguran sau certitudine) poate fi raportat folosind media pentru o
prob de mrime n, extras dintr/o populaie cu deviaie standard cunoscut. 5cest interval
cuprinde domeniul valorilor ntre limita de ncredere inferioar i cea superioar. Media unei serii
de valori ar trebui s se gseasc cu un anumit grad de siguran n acest interval.
Probabilitatea (nivelul de confidenialitate) se red procentual (<3,74) n timp ce nivelul de
ncredere se red sub forma
$,$3
)$$
alitate confidenti de nivel
) F
'ivelul de ncredere reprezint i riscul acceptabil de apariie a unei erori. BB este intervalul de o
parte i de alta a mediei aritmetice de selecie x n care se gsete valoarea adevrat + i este
dat de relaia-
8
ts BB
6e poate scrie-
x
ts x
< + <
x
ts x +
sau
n
s
t x
< + <
n
s
t x +
respectiv-
BB x < + < BB x +
&iferena x G + este o msur a exactitii efectuate. Pentru creterea exactitii unui rezultat
final de obicei se crete numrul determinrilor. 5ceast creterea este proporional cu n i de
la un anumit numr de determinri creterea este nesemnificativ.
3.- Compararea seturilor de date prin teste statistice. *este de semni"icati#itate i apreciere
a e2actitii metodelor de analiz
Procesul prin care se determin probabilitatea existenei unei diferene semnificative dintre dou
probe poart numele de test de semnificativitate sau testarea ipotezelor. 5ceste teste se refer la
metode statistice de determinare a faptului dac datele sunt exacte i precise sau dac ntre serii
de msurtori populate de valori obinute pe aceeai prob sau pe probe diferite exist diferene
semnificative.
%ector &r. Cecilia ARSENE 'otie curs $(
=
Cercetarea criminalistic a microurmelor
3.-. Realizarea testelor de semni"icati#itate
Hn test de semnificativitate este conceput n aa fel nc"t s permit s se evidenieze dac
diferena dintre dou sau mai multe valori este prea mare pentru a fi explicat prin erorile
nedeterminate.
Primul pas n realizarea unui test de semnificativitate const n prezentarea problemei
experimentale ca o ntrebare cu rspuns de tip da sau nu. &e fapt, aa numitele ipoteza zero i
ipoteza alternativ furnizeaz un rspuns la ntrebare. Bpoteza zero I$, face presupunerea c
eroarea nedeterminat este suficient pentru a explica orice diferen dintre valorile comparate.
Bpoteza alternativ, I5, face presupunerea c diferena dintre dou valori nu poate fi explicat prin
intermediul erorilor nt"mpltoare. Hn test de semnificativitate ncepe de la ipoteza zero care poate
fi adevrat sau fals (caz n care este eliminat i se menine ipoteza alternativ). *nainte de a
face aprecierea validitii ipotezei zero sau alternative se alege pentru analiz un nivel de
semnificativitate care reprezint nivelul de ncredere pentru reinerea ipotezei nule sau n alte
cuvinte, probabilitatea ca ipoteza nul s fie incorect eliminat. *n primul caz nivelul de
semnificativitate este dat sub form procentual, n timp ce n al doilea caz este dat ca unde
este definit prin
)$$
incredere de interval
) F
Pentru un interval de ncredere de <3,74, este $,$3.
*este de semni"icati#itate uni4 sau bi4direcionale
6e poate considera situaia n care acurateea unei metode noi de analiz este evaluat prin
analiza unui material de referin standard cu un cunoscut. Practic se determin media probei n
urma analizei experimentale. Bpoteza zero este c media probei experimentale este egal cu .
D x - I
$

&ac se conduce un test de semnificativitate la un interval de ncredere de <3,74 ( 0 $,$3)
atunci ipoteza zero va fi reinut doar dac <3,74 din intervalul de ncredere din ,urul lui x
conine .
&ac ipoteza alternativ este
D x - I
5

atunci ipoteza zero va fi eliminat, i ipoteza alternativ acceptat dac se afl n aria .aurat,
la sf"ritul distribuiei de probabilitate a probelor conform 5igurii 3.3a. ;iecare din ariile .aurate
contribuie cu #,34 pentru aria de sub curba de distribuie a probabilitii. 5cest caz este numit test
de semnificativitate bi/direcional deoarece ipoteza zero este eliminat pentru valori ale lui la
oricare din extremitile curbei de distribuie a probabilitilor.
Bpoteza alternativ poate porni i de la una din situaiile
D x - I
5
>
%ector &r. Cecilia ARSENE 'otie curs $(
?
Cercetarea criminalistic a microurmelor
sau
D x - I
5
<
pentru care ipoteza zero este eliminat dac se afl n ariile .aurate din 5igurile 3.3b i 3.3c.

+alori

+alori

+alori
a b c
5igura 3.3+ Bnterpretarea grafic pentru ipoteza zero i alternativ.
*n fiecare din cazurile b i c, aria .aurat reprezint 34 din curba de distribuie a
probabilitilor. 2xemplele anterior prezentate se nscriu n cazul testelor de semnificativitate uni/
direcionale.
Pentru un nivel de ncredere fix, testele bi/direcionale sunt ntotdeauna cele mai conservative
teste deoarece necesit diferene mai mari ntre x i pentru a elimina ipoteza zero. Jestul de
semnificativitate bi/direcional reprezint alegerea potrivit mai ales n situaia n care nu exist
indicii asupra mrimii parametrilor comparai. Jestul uni/direcional se folosete mai ales c"nd se
ateapt ca un parametru s fie mai mare sau mai mic dec"t altul.
%a efectuarea testelor de semnificativitate este posibil s apar erori de ordinul B i erori de
ordinul BB. Jestele de semnificativitate se realizeaz la un nivel de ncredere , care definete
probabilitatea de eliminare a ipotezei zero care este adevrat. &e exemplu, c"nd un test de
semnificativitate este condus la 0 $,$3, exist o probabilitate de <3,74 ca ipoteza nul s fie
incorect eliminat. 5ceast situaie este cunoscut ca eroare de tipul B i riscul su este
ntotdeauna . 2rorile de tipul BB apar atunci c"nd ipoteza nul este reinut c.iar dac este fals.
3.-.% Aprecierea e2actitii metodelor de analiz prin testul t
*n procesul de validare al unei metode, cea mai bun aproximare const n analiza unei probe
standard de cantitate cunoscut n analit, . 5curateea metodei presupune s se efectueze
determinri pentru cantitatea de analit din c"teva probe dup care s se determine media
acestora, x . Jestele de semnificativitate sunt pentru a compara i x . Bpoteza zero const n
faptul c i x sunt egale i c orice diferen dintre cele dou valori poate fi explicat prin
intermediul erorilor nedeterminate, erori care afecteaz determinarea lui x . Bpoteza alternativ
const n presupunerea c diferena dintre i x este mult prea mare pentru a putea fi explicat
de erorile nedeterminate.
%ector &r. Cecilia ARSENE 'otie curs $(
<
Cercetarea criminalistic a microurmelor
2cuaia pentru testul statistic este derivat din intervalul de ncredere pentru
n
s t
x D
exp

t
9earan,area ecuaiei anterioare conduce la
s
n x D
t
exp

care d valoarea lui texp atunci c"nd este fie la dreapta fie la st"nga intervalului de ncredere
aparent (5igura 3./a). +aloarea lui texp este comparat cu o valoare critic t(,), care este
determinat prin selectarea unui nivel de ncredere , a numrului adecvat al gradelor de libertate
i al unui test de semnificativitate care poate fi uni/ sau bi/direcional. +alori pentru t(,) pot fi
extrase din tabele.
+alorile critice t(,) definesc intervalul de ncredere care poate fi explicat prin erori
nedeterminate. &ac texp K t(,) atunci intervalul de ncredere pentru date este mai larg dec"t cel
ateptat din erorile nedeterminate (b). *n acest caz ipoteza zero este eliminat i se accept
ipoteza alternativ. &ac texp L t(,) atunci intervalul de ncredere pentru date ar putea fi atribuit
erorilor nedeterminate i ipoteza zero reinut pentru nivelul de ncredere considerat.
*n cazul n care se gsesc evidene pentru erori determinate, sursele acestora se identific i
se corecteaz nainte de analiza altor probe. 'eeliminarea ipotezei zero nu nseamn neaprat c
metoda este acurat, ci poate indica faptul c nu exist dovezi suficiente pentru a demonstra
neacurateea metodei la intervalul de ncredere considerat.
Htilitatea testului t pentru i x poate fi mbuntit prin optimizarea condiiilor folosite n
determinarea lui x .
Jestul de semnificativitate t poate fi mbuntit prin creterea numrului de determinri sau
prin creterea preciziei analizei. Jestul t poate da rezultate utile doar dac deviaia standard a
analizei este rezonabil. &ac deviaia standard este cu mult mai mare dec"t cea ateptat, ,
intervalul de ncredere n ,urul lui x va fi at"t de mare nc"t o diferen semnificativ ntre i x
va putea fi cu greu demonstrat (se poate nt"mpla i reversul, caz n care s/ar identifica o
diferen ntre i x c.iar i atunci c"nd aceasta nu ar exista).
%ector &r. Cecilia ARSENE 'otie curs $(
)$
Cercetarea criminalistic a microurmelor

n
s t
x
exp

+
n
s t
x
exp

+alori


n
s t
x
exp

+

n
s t
x
exp


( )
n
s t
x
M F,

+

( )
n
s M F, t
x



n
s t
x
exp

+

n
s t
x
exp

( )
n
s t
x
M F,

+

( )
n
s M F, t
x

a b c
5igura 3./+ Jranspunerea grafic pentru aprecierea exactitii metodelor de analiz.
Not+ 5ceast apreciere permite stabilirea gradului de exactitate, respectiv, eventuala eroare
sistematic, a unei metode de analiz. 6e fac determinri pe probe cu un coninut cunoscut al
analitului. 6e calculeaz t conform formulei.
8
s
+ x
t

;uncie de nivelul de confidenialitate i numrul gradelor de libertate media aritmetic de


selecie este afectat de o eroare sistematic.
Pentru o probabilitate aleas,
+ x
poate fi egal cel mult cu
x
s t
nc"t, dac
+ x
>
x
s t
rezultatul x este afectat de o eroare sistematic iar metoda nu este suficient de exact.
3.-.3 Compararea #alorilor
%
i s
%
'testul 5(
%a analiza de rutin a unei probe este posibil s se determine valoarea ateptat, sau real a
varianei,
#
. 5naliza unui numr finit de replicate furnizeaz ceea ce este cunoscut sub numele de
varian simpl, s
#
. ompararea lui
#
cu s
#
reprezint un instrument puternic de determinare a
gradului de control statistic al metodei aplicate. Bpoteza zero presupune c
#
i s
#
sunt identice n
timp ce ipoteza alternativ presupune c acestea nu sunt identice. Jestul statistic de evaluare a
ipotezei zero n acest caz poart numele de testul ; i este dat de
#
#
exp
C
s
; dac s
#
>
#
i
#
#
exp
s
C
; dac s
#
<
#
&e menionat faptul c ;exp este definit n aa fel nc"t valoarea sa s fie ntotdeauna mai
mare sau egal cu ). &ac ipoteza zero este adevrat atunci se ateapt ca ;exp s fie egal cu )
(erorile nedeterminate au drept rezultat valori pentru ;exp K )). N valoare critic ;(,num,den) d
%ector &r. Cecilia ARSENE 'otie curs $(
))
Cercetarea criminalistic a microurmelor
cea mai mare valoare a lui ; care poate fi explicat de erorile nedeterminate. 6e alege pentru un
nivel de ncredere dat i numrul gradelor de libertate pentru numitor i numrtor. 'umrul
gradelor de libertate pentru s
#
este n/) unde n reprezint numrul de replicate folosit la
determinarea varianei probei.
Compararea #arianelor a dou probe
Jestul ; poate fi aplicat i la determinarea varianelor a dou seturi de probe 5 i :
#
:
#
5
exp
s
s
;
Hnde 5 i : sunt definite astfel ca
#
:
#
5
s s .
3.-./ Compararea mediilor a dou seturi de probe
*n general, rezultatul unei analize este influenat de ( factori- metoda, proba i analistul care
efectueaz determinarea. Bnfluena acestor factori poate fi studiat prin realizarea unor
experimente n care se modific un singur factor. &e exemplu, dou metode pot fi comparate dac
analistul este acelai i probele supuse analizei sunt aceleai. *n aceeai msur se pot compara
rezultatele de la doi analiti sau de la dou probe.
Jestele de semnificativitate pentru compararea a dou valori medii se mpart n dou categorii
funcie de natura datelor. &atele sunt numite neperec.e atunci c"nd fiecare medie este obinut
din analiza c"torva probe extrase de la aceeai surs. &atele perec.e sunt obinute atunci c"nd se
analizeaz o serie de probe extrase de la surse diferite.
Jestul t (6tudent) permite compararea mediilor a dou serii de date obinute prin aceeai
metod, pe acelai material, de doi c.imiti din acelai laborator sau din laboratoare diferite, ori de
acelai c.imist dar n laboratoare diferite. Prin acest test se pot obine informaii dac rezultatele
medii se deosebesc sau nu esenial (datorit unei erori sistematice sau nt"mpltoare). 6e pot
considera dou probe, pentru care valorile medii sunt
)
x
i
#
x
cu deviaiile standard s) i s#.
Bntervalele de ncredere pentru ) i # pot fi scrise ca fiind-
)
)
)
)
n
ts
x D t
i
#
#
#
#
n
ts
x D t
unde n) i n# reprezint numrul de ncercri conduse pentru probele luate n discuie.
6e poate face presupunerea c ) i # sunt egale
#
#
#
)
#
)
# )
#
#
#
)
#
)
# )
#
#
#
)
)
)
n
s
n
s
x x
t
n
s
n
s
t x x
n
ts
x
n
ts
x
+

+ t t
&eoarece variana nu se cunoate aceasta se determin n baza relaiei dictate de ponderea
masic
%ector &r. Cecilia ARSENE 'otie curs $(
)#
Cercetarea criminalistic a microurmelor
( ) ( ) [ ]
( ) # n n
s ) n s ) n
s
# )
#
#
#
#
)
)
#
p
+
+

oeficientul t se va estima n baza relaiei-

,
_

# )
#
p
# )
n
)
n
)
s
x x
t
i se va calcula cu formula-
# )
# )
p
# )
n n
n n
s
x x
t
+

n care sp poate fi exprimat i sub forma-


# n n
) x (x ) x (x
s
# )
#
n
) ,
#
#
,
)
n
) i
#
)
i
p
+
+


+aloarea lui s este o deviaie standard cumulat care utilizeaz ambele seturi de date. &up ce
se calculeaz t se compar cu t din tabele pentru n) + n# G # grade de libertate i probabilitatea
aleas. &ac t calculat este mai mare dec"t t din tabele, cele dou rezultate sunt semnificativ
diferite pentru probabilitatea aleas.
&ac s) i s# sunt semnificativ diferite t se estimeaz cu alt relaia i numrul gradelor de
libertate se deriv din expresia
( ) ( )
#
) n
n
s
) n
n
s
n
s
n
s
n
#
#
#
#
#
)
#
)
#
)
#
#
#
#
)
#
)

,
_

+
+

,
_

1
1
]
1

,
_

,
_

*nainte de compararea mediilor se verific dac varianele celor dou analize sunt sau nu
diferite semnificativ (folosind testul ;). sp poate fi calculat doar dac ipoteza zero este adevrat.
6ate perec7e+ n unele situaii variaiile dintre seturile de date care se compar sunt mult mai
semnificative dec"t diferena dintre mediile celor dou seturi de date. 5ceast problem intervine
mai ales n studiile clinice i de mediu, n care datele care se compar constau de obicei din seturi
de probe extrase de la pacieni diferii sau din medii diferite. &e exemplu, un studiu dezvoltat
pentru a investiga dou proceduri diferite pentru monitorizarea concentraiei de glucoz din s"nge
implic probe de s"nge extrase de la pacieni diferii. *n cazul n care variaia nivelelor de glucoz
din s"ngele pacienilor investigai este mai mare dec"t variaia anticipat dintre metode, atunci o
analiz n care datele sunt tratate ca fiind neperec.e nu va conduce la aflarea unei diferene
semnificative dintre metode. &atele perec.e sunt folosite mai ales atunci c"nd variaiile investigate
sunt mai mici dec"t alte surse poteniale de variaie.
%ector &r. Cecilia ARSENE 'otie curs $(
)(
Cercetarea criminalistic a microurmelor
*ntr/un studiu care implic date perec.e se calculeaz diferena dintre valorile perec.e, di.
&iferena medie, d , i deviaia standard a diferenei, sd se calculeaz de asemeni. Bpoteza zero
const n faptul c d 0$ i c nu exist o diferen semnificativ ntre rezultatele celor dou seturi
de valori. Bpoteza alternativ presupune existena unei diferene semnificative i a faptului c
$ d .
Jestul statistic texp este dedus dintr/un interval de ncredre n ,urul lui d
n
ts
d $
d
t
unde n este nurul datelor paired. *nlocuirea lui t cu texp i rearan,area ecuaiei conduce la
d
exp
s
n d
t
+aloarea lui texp se compar cu valoarea critic t
,
care este determinat prin alegerea unui nivel
de ncredere , a numrului gradelor de libertate, , i a testului de semnificativitate uni/ sau bi/
direcional. &ac texp K t
,
atunci ipoteza zero se elimin i se pstreaz ipoteza alternativ. &ac
texp L t
,
atunci ipoteza zero se pstreaz i ipoteza alternativ se elimin.
Hn test t poate fi folosit numai atunci c"nd diferenele individuale di aparin aceleai populaii.
5cest lucru va fi adevrat numai dac erorile determinate i nedeterminate care afecteaz
rezultatele sunt independente de concentraia analitului din proba analizat. &ac nu este aa, o
singur prob cu o eroare mai mare ar putea conduce la o valoare a lui di care s fie substanial
mai mare dec"t pentru probele rmase. &ac aceast prob s/ar include n estimarea mediei lui d
i a deviaiei standard atunci aceti parametri ar fi afectai de aa numitul proces de biass.
3.-.- !odaliti de eliminare a rezultatelor ndoielnice 'outlier(
%a determinarea unui analit pe aceeai prob prin msurtori n regim replicat o anumit valoare
obinut experimental (sau mai multe) poate fi diferit mult de celelalte. +aloarea care se abate
foarte mult n raport cu celelalte msurtori poart numele de outlier. 2liminarea sau nglobarea
acesteia n valoarea medie a rezultatului se face n baza unor calcule statistice. N valoare poate fi
eliminat ca fiind ndoielnic, dac se gsete n afara intervalului
7s x t
atunci c"nd x i s au fost calculate fr valoarea n discuie. &omeniul celor O7 sigmaP ( x t 7s)
include <<,<<4 dintre valori n cazul distribuiei normale.
Pentru eliminarea rezultatelor ndoielnice s/au propus mai multe criterii dintre care criteriile t i
Q sunt cele mai cunoscute.
%ector &r. Cecilia ARSENE 'otie curs $(
)7
Cercetarea criminalistic a microurmelor
3.-.-. Criteriul t 'Student( n procesul de eliminare a #alorilor ndoielnice
6e calculeaz valoarea lui t cu a,utorul relaiei-
) n
n
6
x x
t
u
) n


unde- xu G valoarea determinrii incerte
) n
x

/ media aritmetic calculat din n/) determinri (fr xu)
6e calculeaz 6 cu relaia-
( )
# n
x x
6
) n
) i
#
i ) n


&ac-
t > t din tabele, rezultatul incert (xu) se va elimina
t t din tabele, rezultatul incert (xu) nu se elimin i se nglobeaz n media aritmetic,
deosebindu/se nt"mpltor de celelalte
t se calculeaz cu formula de mai sus, iar tP se ia din tabele funcie de probabilitatea aleas P4 i
numrul gradelor de libertate (n/#).
3.-.-.% Criteriul 8 n procesul de eliminare a #alorilor ndoielnice 'testul lui 6i2on(
5cest test compar diferena dintre outlier i valorile numerice din imediata apropiere cu acesta. *n
acest test ipoteza zero const n presupunerea c outlier/ul provine din acelai set cu restul
datelor. Bpoteza alternativ presupune c oulier/ul provine de la o populaie diferit i de aceea ar
trebui exclus.
%a acest test se aeaz seria de valori obinute ntr/un ir cresctor i se calculeaz valoarea
lui Q cu relaia-
) n
) u u
x x
x x
Q


unde- xu G valoarea msurtorii incerte
xu/) / valoarea imediat mai mic dec"t valoarea incert
xn G valoarea cea mai mare din irul de msurtori
x) G valoarea cea mai mic din irul de msurtori
+aloarea determinat se compar cu o valoare dat n tabele funcie de numrul de
msurtori. 5ceast valoare tabelat a lui Q poart numele de valoare critic. *n cazul n care Q >
Q, xu va fi eliminat i dac Q Q, xu nu se elimin.
%a compararea rezultatelor se ine cont de faptul c Q este valoarea calculat cu formula de
mai sus, iar Q este valoarea tabelat. +alorile variabilei Q sunt tabelate (la fel ca i coeficientul t)
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; )3
Cercetarea criminalistic a microurmelor
n funcie de numrul de determinri i de confidenialitatea selectat. +alorile coeficientului Q
pentru nivelul de confidenialitate de <3,74 sunt redate n *abelul 3.3.
*abelul 3.3+ +alori tabelate ale coeficientului Q.
Numrul determinrilor ,-./0
( $,<7)
7 $,?()
3 $,=)=
> $,>#)
= $,3=$
? $,3#7
< $,7<#
)$ $,7>7
Jestul Q ar trebui aplicat cu precauie deoarece exist o probabilitate, egal cu , ca un oulier
identificat s nu fie de fapt un outlier. *n plus testul Q ar trebui evitat atunci c"nd prin eliminearea
unui outlier s/ar obine o precizie mai mic.
3.< 5undamentul analizei statistice multi#ariante
3.<. Reprezentarea liniar simpl. Coe"icientul de corelaie
*n diverse analize, adeseori, este necesar s se investig.eze dac ntre dou variabile distincte
exist sau nu o relaie de legtur semnificativ. 6e pot corela, de exemplu,
7 rezultatele de la dou metode diferite pentru un domeniu larg al concentraiei unui analit, n
vederea selectrii metodei adecvate pentru o analiz specificE
7 concentraiile a doi analii diferii, msurai n probe colectate la locaii diferite n vederea
identificrii surselor poteniale de poluare sau pentru investigarea unor procese de mediu.
oeficienii de corelaie se obin din analiza diagramelor de distribuie tip R0f(x), n care
punctele care caracterizeaz irurile de valori numerice pot prezenta un anumit grad de dispersie
n raport cu dreapta de regresie liniar.
oeficientul de corelaie Pearson, r, poate fi folosit n vederea testrii gradului de legtur ntre
dou variabile distincte. Poate lua valori cuprinse ntre /) i ). +alorile /) i ) indic o relaie de
legtur perfect ntre variabile (punctele din irurile de valori ale variabilelor x i R se vor situa pe
o linie perfect dreapt dintr/un grafic). +alorile pozitive pentru r, indic o relaie de legtur pozitiv
ntre x i R (la creterea valorilor lui x are loc i creterea valorilor lui R) n timp ce valori negative
ale lui r indic o relaie de legtur invers ntre cele dou variabile. +alori ale lui r c"t mai
apropiate de ) i /) indic o corelaie semnificativ ntre variabile n timp ce valori apropiate de $
indic prezena unor corelaii mai puin semnificative.
6e pot nt"lni situaii n care un numr redus de perec.i numerice ntre dou variabile sunt
caracterizate de valori mari pentru r ceea ce indic de fapt corelaii semnificative din punct de
vedere statistic. N alt posibilitate o reprezint situaia n care un numr foarte mare de perec.i
numerice este caracterizat de valori sczute pentru r, care va indica totui o relaie de legtur
semnificativ.
oeficientul de corelaie Pearson se poate estima n baza urmtoarei relaii-
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; )>
Cercetarea criminalistic a microurmelor
)S#
#
n
) i
n
) i
#
#
n
) i
n
) i
#
n
) i
n
) i
i
n
) i
i i i
i
i
i
i
R R n x x n
R x R x n
r

,
_

1
1
]
1

,
_


1
1
]
1

,
_



&eoarece procedura de calcul este foarte laborioas, pentru seturile mari de date numerice
corespunz"nd unor variabile multiple, se prefer folosirea programelor din Nffice (2xcel). +alori
critice pentru coeficientul r, pentru un numr n de perec.i numerice, sunt prezentate n *abelul
3./. +alorile critice pentru r prezentate n *abelul 3./ corespund la un nivel de ncredere 0$,$3.
&ac valoarea calculat a lui r este mai mare dec"t valoarea critic prezentat n *abelul 3./,
atunci exist o probabilitate destul de mare ca ntre variabilele x i R s existe o relaie de legtur
semnificativ (liniar). ontrariul este valabil pentru cazul n care r este mai mic dec"t valoarea
critic.
*abelul 3./+ +alori critice pentru distribuia 6tudent t i
coeficientul de corelaie Pearson, r, la la un nivel de ncredere
0$,$3.
&rade de libertate t r
) )#,=) $,<<=
# 7,($( $,<3$
( (,)?# $,?=?
7 #,==> $.?))
3 #,3=) $,=37
> #,77= $,=$=
= #,(>3 $,>>>
? #,($> $,>(#
< #,#># $,>$#
)$ #,##? $,3=>
)) #,#$) $,33(
)# #,)=< $,3(#
)( #,)>$ $,3)7
)7 #,)73 $,7<=
)3 #,)() $,7?#
)> #,)#$ $,7>?
)= #,))$ $,73>
)? #,)$) $,777
)< #,$<( $,7((
#$ #,$?> $,7#(
Not+ 'umrul gradelor de libertate la investigarea coeficienilor
de corelaie dintre dou variabile distincte se ia ca fiind n/#.
*n cazul n care ntre dou variabile se observ o relaie de legtur semnificativ, fie pe cale
vizual fie prin calculul coeficientului de corelaie, adeseori este necesar s se estimeze funcia
care guverneaz dependena i care s treac prin toate punctele. ;uncia trebuie s fie descris
de o ecuaie care s redea dependena dintre cele dou variabile. 5proximarea metodei celor mai
mici ptrate urmrete minimizarea incertitudinilor din regresia liniar investigat.
erina descrierii dependenei dintre # variabile printr/o ecuaie liniar de ordinul B, apare mai
ales n cazul n care se realizeaz o simpl corelaie. &reapta de regresie nu trece neaprat prin
origine, ca urmare a erorilor nedeterminate care afecteaz variabila R. &eviaia cumulativ a
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; )=
Cercetarea criminalistic a microurmelor
datelor de la linia de regresie este folosit pentru estimarea incertitudinii datorit erorilor
nedeterminate. 5ceasta este denumit deviaia standard a regresiei, sr, dat de relaia-
( )
# n
R
T
R
s
n
) i
#
i i
r


unde Ri este valoarea experimental i i
i
R
T
este valoarea prezis prin dreapta de regresie de
forma-
i ) $ i
x b b R
T
+
6e observ c, ntre relaia pentru sr, anterior prezentat, i cea pentru deviaia standard exist
o similaritate concret except"nd faptul c ptratul sumei este determinat relativ la
i
R
T
i nu la
R
,
iar numitorul este de forma n/# i nu n/). n/# indic faptul c analiza prin regresie liniar are doar
n/# grade de libertate, deoarece doi parametri de interes, panta i interceptul, sunt folosii pentru a
calcula valorile lui
i
R
T
.
N reprezentare mult mai corect a incertitudinii n acest caz, poate rezulta prin considerarea
erorilor nedeterminate asupra pantei i interceptului care au fost prezise. &eviaiile standard ale
pantei i interceputului sunt date de relaiile-
( )
( )

#
i
#
r
#
i
#
i
#
r
)
b
x x
s
x x n
ns
s
( )
( )

#
i
#
i
#
r
#
i
#
i
#
i
#
r
$
b
x x n
x s
x x n
x s
s
&eviaia standard poate fi folosit pentru a stabili intervalul de ncredere pentru valorile
adevrate ale pantelor i interceptului-
)0b)1tsb)
$0b$1tsb$
unde t este ales pentru nivelul de ncredere i n/# grade de libertate. Jermenii tsb) i tsb$ nu
conin factorul ( )
)
n

deoarece intervalul de ncredere se bazeaz pe o singur dreapt de
regresie.
%a realizarea unei etalonri, pentru a micora efectul incertitudinilor n valorile prezise ale
pantei i interceptului, curbele de calibrare, de obicei, se pregtesc prin selectarea unui numr de
standarde, uniform distribuite peste un domeniu larg de concentraii sau cantiti de analit. Pentru
cazul n care se investig.eaz corelaia unor rezultate obinute la msurarea unui analit prin dou
te.nici diferite de analiz, acest lucru nu mai este posibil.
*n orice caz, pentru exemplul anterior prezentat, at"t sb$ c"t i sb) pot fi micorate prin creterea
valorilor termenilor ( )
#
i i
x
T
x , care este prezent la numitor n ambele ecuaii. 5stfel, prin
creterea domeniului de concentraie folosit n prepararea standardelor, scad foarte mult
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; )?
Cercetarea criminalistic a microurmelor
incertitudinile pantei i a interceptului cu axa R. Bncertitudinile asociate interceptului cu axa R se
diminueaz odat cu scderea valorii asociate lui
#
i
x .
Ndat ce ecuaia de regresie este cunoscut, aceasta poate fi folosit n determinarea
concentraiei analitului din prob. 5tunci c"nd se folosete o curb de calibrare normal cu
standarde externe sau o curb de calibrare cu standarde interne, este posibil s se msoare
semnalul mediu al probei
x
U
care poate fi folosit pentru calcularea valorii lui x-
)
$
b
b U
x

&eviaia standard pentru valoarea calculat a lui x este dat de relaia-


( )
( )

+ +
#
i
#
)
#
x
)
r
x
x x b
R U
n
)
m
)
b
s
s
unde m reprezint numrul replicatelor folosite la determinarea lui
x
U
, n reprezint numrul
standardelor de calibrare,
R
este semnalul mediu al standardelor i xi i x sunt concentraiile
individuale, respectiv media concentraiilor standardelor. Ndat ce sx este cunoscut, se poate
proceda la calcularea intervalului de ncredere al concentraiei analitului dup relaia-
8 0 x1tsx
unde V8 este valoarea ateptat a lui x n absena erorilor determinate i valoarea lui t este
determinat la nivelul de ncredere solicitat pentru n/# grade de libertate.
*n adiia de standard, concentraia analitului este determinat prin extrapolarea curbei de
calibrarea pentru a gsi interceptul cu axa x. *n acest caz valoarea lui x este determinat de-
)
$
b
b
x axa intercept x


i deviaia standard n x este-
( )
( )
+
#
i
#
)
#
)
r
x
x x b
R
n
)
b
s
s
unde n este numrul de standarde folosite la trasarea curbei de calibrare prin adiie de standard
(incluz"nd proba fr standard adugat), i
R
este semnalul mediu pentru n standarde. &eoarece
concentraia analitului este determinat prin extrapolare i nu prin interpolare, sx pentru metoda
adiiei de standard este, n general, mai mare dec"t valoarea estimat cu a,utorul unei funcii de
calibrare normale.
3.<.% Regresia liniar multipl pentru analiza multi#ariabilelor
9egresia liniar multipl presupune raportarea n regim liniar a unei singure variabile dependente
de dou sau mai multe variabile explanatorii. Pentru p variabile explanatorii de interes, forma
general a modelului de regresie multipl este-
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; )<
Cercetarea criminalistic a microurmelor
R 0 $ 1 )x# 1 ....1 pxp
unde R este variabila de interes (dependent sau variabil funcie de rspuns), xi este variabila
explanatorie de ordinul i, $ este intereceptul i i este panta asociat variabilei explanatorii de
ordinul i. Modelul este flexibil dup cum variabilele explanatorii potSsau nu, s fie transformate
naintea analizei.
&e exemplu, dac variabilele explanatorii sunt pI, azot (') i fosfor (P) total (PJ), atunci
urmtoarele modele pot constitui exemple de modele de regresie multipl-
0 $ 1 )pI 1 #'1 (PJ
0 $ 1 )' 1 #'
#
1 ('
(
0 $ 1 )log' 1 #logPJ
unde $, ), #, ( sunt parametri n model.
Pentru cazul determinrii unor variabile multiple, la investigarea corelaiei dintre variabile se
obine aa numita matrice a corelaiilor care se poate prezenta ca n *abelul 3.-. +alorile
evideniate pot fi considerate indicatori ai aceleai surse pentru dou variabile distincte sau
posibile asocieri ntre dou variabile (specii) diferite.
*n regresia liniar multipl, un model este bun dac estimeaz parametri semnificativi, dac
explic o mare parte din varian, dac este caracterizat de varian sczut i dac are capacitate
de a prezice valori credibile.
*abelul 3.-+ Matricea corelaiei la analiza unor variabile c.imice multiple din precipitaii (n 0 )>7
evenimente). 9ezultate obinute Win cadrul unui proiect de cercetare bilateral 9om"nia/!recia.
l
/
6N7
#/
'N(
/
IN(
/
5c Nx 'a
1
'I7
1
X
1
Mg
#1
a
#1
l
/
).$$
6N7
#/
$.#3 ).$$
'N(
/
$.3$ $.37 ).$$
IN(
/
=.<3 =.</ =.>1 ).$$
5c $.3) $.(( =.<< =.<< ).$$
Nx $.77 $.($ =.>< =.1- $.3< ).$$
'a
1
=.1% $.7$ =.1 =.< $.37 $.37 ).$$
'I7
1
$.73 =.11 =.>, =.>= $.3= =.<< =.<- ).$$
X
1
$.)< $.(? $.#$ $.#3 $.)3 $.)$ $.)$ $.#= ).$$
Mg
#1
=.< $.7= =.,= =.>< =.<1 =.>< =.<> =.1- $.## ).$$
a
#1
=.</ =.<- =.>- .== =.<< =.1% =.</ =.>= $.#3 =.>3 ).$$
Not+ ;o / IN#
/
E 5c / #I(N#
/
E Nx / #N7
#/
.
Modelul regresiei multiple a celor mai mici ptrate, este folositor mai ales n cazul analizei
seturilor de date n care valorile nu sunt continue i a cror proprieti statistice, nu deviaz foarte
mult de la un model normal. *n cazul n care datele nu sunt continue dar sunt normale,
transformrile furnizeaz adeseori ci care permit folosirea cu succes a metodelor.
*n aplicaii ale regresiei liniare multiple, adeseori, se pot efectua diferite teste pentru
investigarea nivelului de semnificativitate a unui parametru. 6e pot aplica teste de investigare a
rapoartelor probabile, testul t, testul z sau testul c.i ptratic (
#
) denumit i test de scor.
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; #$
Cercetarea criminalistic a microurmelor
Jestul t, de exemplu, const n efectuarea rapoartelor dintre estimatori i deviaiile lor standard.
Pentru modelele liniare generalizate mai degrab se folosete testul z dec"t testul t. Jestul z,
denumit i testul Yald, se aplic seturilor mari de valori numerice.
Jestul
#
este de fapt ptratul lui z statistic-
#
#
#
estimata varianta
estimator
z
3.1 $rocesarea multidimensional a datelor analitice
Msurarea simultan a mai multor caracteristici (variabile, msurtori, caractere, atribute)
genereaz sisteme multidimensionale n care numrul variabilelor definete dimensiunea spaiului
caracteristic. 5naliza datelor multidimensionale implic de obicei un numr extrem de mare de
valori. Bnterpretarea datelor obinute la monitorizri ale unor parametri pentru perioade foarte mari
de timp i la locaii diferite este extrem de laborioas, greoaie i deficitar printr/o simpl
introspecie a unor tabele imense de valori numerice. Je.nicile multidimensionale de investigare a
determinrilor analitice, furnizeaz simultan informaii pentru toate variabilele din set i relaii de
legtur ale variabilelor din ntreg setul de date.
3.1. Standardizarea i trans"ormarea #ariabilelor
Je.nicile de analiz a variabilelor multiple, prin definiie, implic procesarea mai multor variabile
care pot avea factori de scalare diferii ai msurtorilor. 9ezultatele i interpretarea unei analize n
care se opereaz cu variabile multiple, depind in mod critic de aceti factori.
Hneori, prin necesitate, variabilele sunt msurate n uniti complet diferite (uniti de pI i
concentraia unui analit n eZ %
/)
). &e obicei, n analize, este imperios necesar ca fiecare
variabil, cel puin potenial, s contribuie n mod egal la valoarea total a rezultatului analizei.
Pentru atingerea acestui scop, fiecare variabil se standardizeaz prin scderea valorii medii din
fiecare observaie n parte, rezultatul obinut fiind mprit la deviaia standard a seriei de
msurtori. Procesul mai poart numele i de normalizarea datelor.
Procesul de normalizare a datelor este necesar, mai ales, n cazul n care valorile pentru o
serie de msurtori a unei variabile au o distribuie asimetric, seria de valori fiind caracterizat de
prezena c"torva valori extrem de mari (outliers).
2ste foarte probabil ca valorile extrem de mari s aib o influen dominant asupra variaiei
totale a acelei variabile. &eci, n cazul fiecrei analize este posibil ca aceasta s aib tendina de a
explica mai ales observaiile extreme i aceast problem este deosebit de important atunci c"nd
se folosesc te.nici de analiz care presupun normalitate mutivariabil. *n astfel de situaii, cel mai
bine este s se lucreze cu variabile transformate n prealabil. &e exemplu, o distribuie care
consider rdcina ptrat sau logaritmul zecimal al valorilor numerice, poate mbunti n mod
semnificativ proprietile de distribuie. *n orice caz, trebuie reinut faptul c, de multe ori,
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; #)
Cercetarea criminalistic a microurmelor
transformarea variabilelor poate conduce la o interpretare mult mai dificil a analizelor deoarece
rezultatele vor fi exprimate n termeni de variabile transformate i nu de msurtori originale.
3.1.% 9rdinarea sau reducerea dimensiunilor
*n general, analiza oricrui set de date ncepe printr/o examinare (introspecie) vizual a datelor,
care furnizeaz o prim impresie asupra distribuiei datelor. *n cazul seturilor de date cu variabile
multiple, fiecare variabil poate fi examinat separat i, prin diagrame de distribuie punctuale
(scatter plots) se poate verifica gradului de corelaie dintre perec.ile de variabile de interes. 6e pot
obine c.iar digrame de distribuie tridimensionale iar interpretarea diagramelor de distribuie cu
mai mult de ( variabile nu este tocmai simpl.
&in punct de vedere matematic, analiza dintr/un alt ung.i a unei distribuii dintre dou variabile
este ec.ivalent cu calcularea unei noi variabile care este o combinare a variabilelor iniiale i
transformarea sau scalarea fie a variabilelor originale sau a celor derivate. 5deseori acest proces
poart numele de ordinare iar variabilele noi de axe ordinatoare.
alculul variabilelor ordinatoare are la baz urmtorul raionament-
)) pentru un singur set Z de variabile originale de la x), x#, ...., xZ, variabila derivat se calculeaz
n baza relaiei-
+ 0 b)x) 1 b#x# 1 .... 1 bZxZ
care este o combinaie liniar de variabile originale.
#) coeficienii b), b#, ...., bZ sunt valori numerice astfel alese nc"t + s aib valoarea dorit funcie
de tipul analizei.
() dac variabilele originale sunt transformate n variabilele noi derivate n baza relaiei-
+ 0 b)log(x)) 1 b#log(x#) 1 ....1 bZlog(xZ)
atunci rezultatul obinut este o combinaie neliniar de variabile originale.
Nrdinarea este un proces care permite vizualizarea cu o mai mare uurin a relaiei de
legtur ntre locaii, probe, specii diferite.
3.1.3 Analiza componentelor principale. Analiza "actorilor
5naliza componentelor principale (P5, principal component analRsis) face parte din categoria
primelor te.nici de ordinare i, n acelai timp, din categoria celor mai des folosite. *n P5 sunt
create combinaii liniare ale variabilelor originale care explic n cea mai mare msur variana
datelor.
Prima variabil nou, sau axa componentelor principale, se alege n aa fel nc"t s acopere
cantitatea maxim a varianei posibile dintr/o singur variabil, iar axele secundare ale
componentelor principale se aleg n aa fel nc"t s explice c"t mai mult posibil din variana
rezidual. omponenta nou va fi calculat p"n c"nd se explic ntreaga cantitate a varianei
originale iar numrul maxim de componente posibile va fi acelai cu numrul de variabile originale.
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; ##
Cercetarea criminalistic a microurmelor
6etul complet al componentelor principale este format n baza unui set de variabile noi, care
acoper n mod succesiv proporii mai mici din variabilitatea total original.
*n analiza componentelor principale de obicei se urmrete s se extrag componentele care
contribuie cel mai mult la variana sistemului. 5ceste componente ar trebui s reprezinte i cele
mai importante informaii din setul de date n aa fel nc"t cele rmase s poat fi ignorate (se
reduce numrul de variabile care urmeaz a fi ulterior analizate).
omponentele principale se extrag fie din date neprelucrate (prin matricea covarianelor) fie din
date normalizate (matricea corelaiei). ;olosirea datelor normalizate confer tuturor variabilelor
importan egal, indiferent de scala unitilor de msur. Prin folosirea datelor nenormalizate n
P5, se confer mai mare importan variabilelor caracterizate de variana cea mai mare.
2xaminarea coeficienilor componentelor principale individuale poate conferi o idee asupra a
ceea ce componenta principal reprezint. +ariabilele caracterizate de valori mari ale coeficienilor,
indic de fapt contribuii importante ale variabilelor respective la componenta principal individual
iar semnul coeficienilor arat care dintre variabile au efecte similare. Bnterpretarea coeficienilor
este simpl mai ales n cazul folosirii datelor normalizate.
*n timp ce P5 explicSreproduce variana unui sistem, analiza factorilor (;5, factor analRsis)
este direct legat de matricea de corelaie. Bndiferent de noiunile de baz ale conceptului, at"t
P5 c"t i ;5 au scopul de a simplifica descrierea cantitativ a unui sistem prin determinarea unui
numr minim de variabile noi care pot reproduce diferite proprieti ale sistemului.
5t"t pentru analiza componentelor principale c"t i pentru analiza factorilor, important este
obinerea vectorilor ortogonali caracteristici spaiului multidimensional al datelor. P5 utilizeaz
vectorii ortogonali aa cum se obin, iar ;5 utilizeaz te.nici de rotaie a vectorilor, care modific
ponderile variabilelor contributive pentru fiecare vector individual. omponentele principale sunt
organizate n funcie de descreterea varianei.
9otaia factorilor conduce la valori numerice care permit interpretarea ponderilor factorilor.
Matricea factorilor este de obicei rotit astfel nc"t s mreasc numrul valorilor care sunt
apropiate fie de zero, fie de unitate. 9otaiile pot fi aplicate la nivel oblic sau ortogonal. el mai des
folosite sunt rotaiile ortogonale, la care metoda +arimax este cel mai des folosit.
&e exemplu, n *abelul 3.< sunt redate ponderile factorilor extrai n urma aplicrii rotaiei
ortogonale, normalizate, tip +arimax, la un set de date obinute la analiza unor variabile dintr/o
matrice tip aerosoli. &e obicei, dup aplicarea rotaiei +arimax, factorii cu valori mai mari dec"t )
se consider a fi semnificativi pentru interpretarea rezultatelor obinute.
Pentru exemplul prezentat n *abel 3.< doar =(,>4 din variana total este explicat printr/un
numr de 7 factori extrai. &e exemplu factorul ;), care explic #<,34 din varian, cuprinde
factori de ncrcare mari pentru acele componente asociate cu particule de sol sau de aerosoli
(origine natural), (IN(
/
, a
#1
, Mg
#1
) dar i pentru specii de origine antropogen, (6N7
#/
, 'N(
/
),
care poate de fapt indica existena unui proces de absorbie a precursorilor lor gazoi ce poate
interveni n medii alcaline. *n mod similar i ponderile celorlali factori pot fi interpretate.
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; #(
Cercetarea criminalistic a microurmelor
*abelul 3.<+ Ponderile factorilor extrai n urma aplicrii rotaiei ortogonale,
normalizate, tip +arimax, la un set de date obinut n urma analizei aerosolilor.
9ezultate obinute n cadrul unui proiect bilateral 9om"nia/!recia.
5actor 5 5% 53 5/
+ariana
(4)
#<.7? )<.?$ )(.73 )$.?<
l
/
0.50 /$.$) =.>= $.$>
6N7
#/
=.>1 /$.$> $.#7 $.$=
'N(
/
0.65 $.(? $.)? $.#3
PN7
(/
$.(7 /$.$( $.$$ =.>%
IN(
/
=.,3 $.)) $.)3 $.)(
;o $.)$ =.13 /$.)> $.$3
5c $.$> 0.59 $.#> /$.#?
Nx $.)3 $.73 $.73 0.54
Pr /$.$7 =.>= $.$) $.)$
M6 $.)< =.1- /$.$7 $.)3
PR $.$? =.>= $.)> /$.$7
'a
1
$.(# $.$7 =.>, $.$?
'I7
1
0.61 $.#$ $.)$ $.7(
X
1
0.61 /$.$> $.(> 0.55
Mg
#1
=.13 $.#$ $.(> $.#>
a
#1
=.,% $.)$ $.)= $.))
;o / IN#
/
E 5c / #I(N#
/
E Nx / #N7
#/
E Pr / (I3N#
/
E M6 / I(6N(
/
E PR / (I(N(
/
.
&atele din *abelul 3.1 sugereaz faptul c dinamica i complexitatea sistemului pot controla
nivelul de acoperire din variana total (diferene semnificative n comportament ntre un mediu
ncrcat i mai puin expus factorului de poluare).
*abel 3.1+ Ponderile factorilor extrai n urma aplicrii rotaiei ortogonale, normalizate, tip +arimax la seturi
de date obinute n urma analizei matricii tip aer. 9ezultate obinute Win cadrul proiectului ;P>/#$$3/#$$=
(2BJ5M5).
%ocaie
+ariana
total (4)
;actorul extras
'MIs
; Preponderena
Hrban <#
) 7#
acetilenaE n/butanE butenE i/pentanE
n/pentanE penteneE di/metil/butanE
ciclo/.exanE #/metil/pentan
# ##
etenE propenE i/butanE cRclo.exanE
benzenE toluen
( <
),(/butadienE (/metil/pentanE n/
.exanE n/octan
7 ? etanE propan
3 7 izoprenE n/.exan
> = etil/benzenE xileni
Marine =3
) #)
etenE propenE i/pentanE n/pentanE
(m1p)/xileni
# #$
etanE propanE acetilenE n/butanE n/
pentanE benzen
( )) izopren
7 = ciclo.exan
3 = ciclo/pentanE ),(/butadien
> < i/butanE etil/benzen
*n general, dependena ntre ponderile factorilor extrai se poate vizualiza mai bine prin
diagrame bi/ sau tri/dimensionale. *n 5igura 3.- este redat distribuia tridimensional a trei factori
extrai n urma rotaiei +arimax, normalizat la analiza unui set de date cuprinz"nd variabile
msurate n probe de aer.
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; #7
Cercetarea criminalistic a microurmelor
&in analiza distribuiei din 5igura 3.- reiese foarte clar faptul c metodele factoriale de
prelucrare a sistemelor multidimensionale pot fi folosite pentru identificarea contribuiilor aduse de
la diferite surse de poluani atmosferici (consider"nd multitudinea de surse posibile de poluani
atmosferici i dinamica acestor poluani).
*n cazul analizei componentelor principale i a altor ordinatori, este adeseori posibil ca
dependena ntre aceste variabile s fie redat prin diagrame bidimensionale definite ca
reprezentri nsoitoare ale valorilor de pe r"ndurile i coloanele unei matrici a datelor. *n practica
uzual, datele de pe diferite r"nduri ale matricii sunt reprezentate ca puncte, n timp ce coloanele
sau variabilele (speciile) sunt reprezentate prin vectori. %ungimea vectorilor indic variabilitatea
asociat variabilei de interes iar cosinusul ung.iului dintre vectori reflect gradul de corelaie dintre
variabile.
stationary sources
combustion sources
5
automoti#e e27aust
natural gas
li?ui"ied petroleum gas
5/
5%
5actor %
5actor /
5actor
5igura 3.-+ &istribuia tridimensional a trei factori extrai n urma rotaiei +arimax normalizate, aplicat la
analiza unui set de date care cuprind variabile msurate n probe de aer.
3.1./ Analiza clusterilor
5naliza clusterilor (5, cluster analRsis) reprezint metoda de extragere a grupurilor de variabile
similare dintr/un spaiu multi/dimensional. Prin 5, datele sunt mprite n subseturi (clusteri)
astfel nc"t similaritatea ntre variabile n oricare subset va depi similaritatea altor subseturi.
*n 5 cel mai bine se opereaz cu termeni geometrici (pentru uurina interpretrii). *ntr/un
spaiu multi/dimensional, fiecare variabil este reprezentat printr/un punct. 5naliza clusterilor
urmrete s determine care puncte (variabile) sunt suficient de apropiate unele de altele (datorit
proprietilor lor), pentru a forma un grup sau un cluster. &istana ntre puncte este asociat cu
similaritatea. ea mai important msur cantitativ pentru distana dintre puncte este distana
2uclidian anterior prezentat. &istribuia unor clusteri se poate prezenta ca n 5igura 3.<. N astfel
de distribuie poart i numele de dendogram.

5igura 3.<+ 2xemplu de dendogram. 9ezultate obinute n cadrul proiectului bilateral 9om"nia/!recia.
'otie curs $(
onf. &r. Romeo 3ulian 9:AR3; #3