Sunteți pe pagina 1din 21

CURSUL III -

TESTE NEPARAMETRICE
DREAPTA DE REGRESIE

2.6. Teste neparametrice


Testul t pentru compararea mediilor depinde, n special pentru seleciile de
volum mic, de ipoteza c cele dou populaii sunt distribuite aproximativ normal i c
dispersiile sunt practic egale.
De regul, tehnicile statistice care se ocup de variabilele continue se bazeaz
pe ipoteza c variabila aleatoare are o distribuie normal de baz. Ipoteza nu este att
de restrictiv, deoarece de multe ori este posibil s o modificm astfel nct s
obinem alta, aproximativ normal distribuit. Suplimentar, dac vom considera
mediile, n concordan cu teorema limit central, distribuia mediei probelor se
aproprie cu att mai mult de distribuia normal, cu ct crete volumul probelor.
i astfel, ca o concluzie practic, erorile se datoreaz mai curnd lipsei de
constan a dispersiei sau lipsei de independen a variabilelor dect deviaiilor de la
normalitate.
Pentru cazurile cnd nu stim distribuia variabilei, o cale alternativ este s
aplicm teste care nu necesit ipoteze despre tipul de distributie.
Testele independente de distributie, numite i teste de rang, nlocuiesc valorile
variabilei cantitative observate cu rangurile lor. Testele neparametrice sunt valabile i
pentru variabile normal distribuite, dar sunt mai puin eficiente, pentru acelai prag de
semnificaie fiind necesare eantioane mai mari dect pentru testele parametrice.
In acelasi timp este de retinut ca testele neparametrice nu sunt un paraceu
universal: aplicarea lor este posibila atunci cand sunt continue si independente.
2.6.1. Media i dispersia eantioanelor dintr-o populaie finit.
S considerm o populaie finit de N elemente, la care asociem numerele
x1 , x 2 ,..., x N . Dac presupunem c toate elementele au aceeai probabilitate

putem calcula media i dispersia populaiei:


(1)
i
(2)

E X 1 xi pi
N

1
N

xi

2 D X E X 2 E X 1 xi2 p i
2

xi pi

2
1
1
N 2
N
x

i
i
1
N 1
N2
1
N
2
N 1 N 2
2
1

2 1 xi2 2 xi x j
xi 2
2 1
N i j
N
N
N N

x x
i j

Multimea tuturor seleciilor posibile de mrimea n din populaie va include:


x1 , x 2 ,..., x n 1 , x n
x1 , x 2 ,..., x n 1 , x n 1
.
.
.
x N n 1 , x N n 2 ,..., x N

1
,
N

Aceste probe sunt formate prin alegerea a n elemente din N. Exist C N ci de


a alege o astfel de prob. nc o dat, presupunem c fiecare prob are aceeai
1
probabilitate de a fi selectat, n .
CN
1 n
S considerm media seleciei j: X j x ji i s considerm variabila
n i 1

aleatoare X X j

j 1, C Nn

Valoarea medie a variabilei X este

C Nn

C Nn

1
E X X j pj n X j
CN j1
j 1
1
1

1 n x1 x2 . . xn1 xn n x1 x2 . . xn1 xn1


n

CN 1

xN n1 xN n2 . . xN

n
Acum s considerm de cte ori intr n sum orice xi particular, s spunem
x1 . Probele care conin x1 se obin prin selectarea a (n-1) alte elemente din
populaia disponibil de (N-1) elemente i, aceasta se poate face n C Nn 11 moduri.
n 1
Vor fi deci C N 1 probe coninnd x1 i la fel se aplic pentru fiecare xi .
C Nn

N 1! N C n 1
N!
N

N 1
n! N n ! n n 1! N n ! n

n consecin
1 1 n 1 N
1
N
(3) E X n C N 1 1 xi 1 xi
CN n
N

ceea ce nseamn c media mediei probei este egal cu media populaiei.


Pentru calcularea dispersiei folosim identitatea
(4) D X E X E X

S considerm E X

C Nn

1
X pj n
CN
j 1
2
j

C Nn

2
j

j 1

Mai departe
C Nn

2
1

X j x1 x2 ... xn 1 xn ... xN n 1 xN n 2 ... xN

j 1
2
Cnd ridicm la ptrat fiecare termen, fiecare x i va deveni xi i, dup cum
vedem, fiecare x i apare de C Nn 11 ori. Astfel

C Nn

1 n 1 2 2
C x x 2 ... x N2 ...
2 N 1 1
n

(5) X j
j 1

Ridicarea la ptrat a sumei d deasemenea termeni de forma xi x j i fiecare


termen va apare de C Nn 22 .
n consecin, putem scrie

1
(6) n
CN

C Nn

2
j

j 1

Pentru a nlocui n (4) punem


(7)

E X

1 1 n 1 2 2
2

C N 1 x1 x2 ... xN2 2 C Nn 22 x1 x2 ... xN 1 xN


n
2
CN n
n

E X

1
x1 x2 ... x N 1 x N

n forma:

x12 x 22 ... x n2 2 x1 x 2 ... x N 1 x N

N2
N2

Substituind (6) i (7) n (4) , obinem:

1 1
1
D X n 2 C Nn 11 2 x12 x 22 ... x N2
N
CN n
(8)
1 2
2
n 2 C Nn 22 2 x1 x 2 ... x N 1 x N
N
CN n

2
2
2
Coeficientul lui x1 x 2 ... x N se poate scrie ca
1 1 n 1 1
1
1 n 1 1
1
1
N n
C N 1 2
CN 1 2
2

n
2
2
2
CN n
N
N
nN
N
nN
n 1 N n
C N 1
n
N n N 1

n N 1 N 2

i coeficientul lui x1 x 2 ... x N 1 x N este


1
2 n2
2
2 n 1
2
2 N n
C N 2 2
2 2
2
N N 1 n
nN N 1 N
N
N n N 1
C Nn 22
n n 1
Apoi substituind aceste rezultate n (8), obinem:

N n

n N 1

N 1 2
2

x1 x22 ... xN2 2 x1 x2 ... xN 1 xN


2
N
N

Partea din
este exact , astfel nct

(9) D X

2 N n 2
n 1

n N 1 n
N 1
Observam ca avem aparent o contradictie cu regula:
xi
1
n 2 2
D X D

D
x

i
n2
n2
n
n

(10) D X

In fapt, in aceasta regula X este media unui experiment repetat de n ori, de


exemplu, extragerea consecutive, una cate una a n bile, pe cand X de mai sus
semnifica extragerea a n bile dintr-odata.
De exemplu, selectia 1,1, ... ,1 nu este posibila in cazul nostru si altfel
nici o repetare, toate elementele selectate fiind distincte.
Este de notat c dac N , atunci dispersia lui X

2
, forma ei obinuit
n

pentru o populaie infinit, sau pentru experimentul de tip extracie din urn cu
ntoarcerea bilelor extrase n urn.
2.6.2. Testul de rang Wilcoxon
Testul de rang Wilcoxon1 este un test cu ipoteza nul c dou populaii sunt
identice, fat de ipoteza alternativ c ele difer printr-o translaie linear. Testul
nlocuiete observaiile prin rangurile lor. Rangurile sunt repartizate la valorile din
selecii n ordinea creterii mrimii fr s in cont de probele crora le aparin.
S presupunem c o prob este de mrime n i alta de mrime N-n. Testul
presupune c orice combinaie de ranguri n aceste dou grupuri este egal probabil.
Numrul total de moduri de grupare a rangurilor este C Nn .
Consideram urmatorul exemplu
Nivelele plasmatice maxime ale ionului EDTA 4 dup administrare i.m.
Voluntar
Prima zi
rangurile
a-3-a zi
rangurile

Tabelul 3.
CE
33,3
9
25,4
4

IA
25,1
3
31,2
6

BL
22,8
1
28,4
5

PM
32,4
7
39,2
10

MC
23,7
2

DP
48,33
11

SL
33,04
8

Privind rezultatele n a treia zi de tratament la proba de mrime n, suma


rangurilor este 4+6+5+10=25. Combinaiile de ranguri pentru care putem obine o
sum a rangurilor mai mic dect aceasta, pentru un n = 4 dat sunt
1+2+3+4=10, 1+2+3+5=11, 1+2+3+6=13, 1+2+3+7=14, 1+2+3+8=15 etc.
Dup cum se poate vedea nu este uor s calculm toate posibilitile, astfel
nct vom folosi faptul c media rangurilor unei probe este distribuit aproximativ
normal cu parametri care sunt calculati n continuare.
Sunt disponibile tabelele care dau limitele de acceptare a ipotezei H 0 pentru
suma obinut, ca o funcie de n, N i riscul asumat. Pentru exemplul nostru gsim n
tabele, pentru 0,05 , n1 4 i n2 7 intervalul 11 25.
Fie R suma rangurilor i R media rangurilor probei de mrime n. Conform
(1), valoarea medie a lui R este E R

1
N

xi .In cazul nostru x i sunt rangurile de

N valori nsemnnd numerele 1,2,.,N. n consecin


1 N
1
1 N N 1
N 1
E R 1 xi 1 2 ... N
ER
N
N
N
2
2
2
Calculul lui d:

F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947

2 D X E X 2 E X 2

1
N

i2

1
N2

i
N

1
N

xi2

1
N2

x
N

1 N N 1 2 N 1
1 N N 1
2

N
6
2
N

n (10)
1 N n N 1 N n

N 2 1
12

Dispersia lui R se obine prin nlocuirea lui

(11) D R


n 1
N
1

n
N 1
12n
2

N 1

n concluzie, variabila aleatoare

12n


D R

RE R

N 1
2
N 1 N n va fi repartizat
12n
R

aproximativ N 0,1 .
Intr o notatie alternativa N poate fi notat cu n1 n2 , n cu n1 si Nn cu n2
obtinandu-se:
n n 1
R 1 2
2
z
n1 n2 1 n2
12n1

Se mai utilizeaza si alta forma a formulei. Se amplifica cu n1 , se obtine


n n n 1
R 1 1 2
2
Rn1 R si z
n1 n2 1 n1n2
12
Kruskal si Wallis2 au observat ca aproximaia este mbuntit cnd valoarea
este mai mare de 0,02 prin aducerea lui R mai aproape de media lui cu

1
.
2n

n literatura medical i biologic testul se mai numete Mann Whitney i se


utilizeaz notaiile n n1 i N n n2 ( n1 n 2 ).
Cnd cel puin unul din numerele n1 i n 2 sunt mai mici dect 10, distribuia
de probabilitate a sumei rangurilor positive R se poate calcula direct. Intervalele de
ncredere cu diverse probabiliti (0,95; 0,99; etc.) pentru R se gsesc n tabele.
In exemplul nostru n = 4, N = 11, R = 25, R

25
6,25 i
4

N 1
11 1
6,25
0,25
2
2
z

0,19
N 1 N n
11 111 4
7
12n
12 * 4
4
Valoarea obinut ne asigur c nu apare o acumulare a EDTA la orice nivel de
risc din cele uzual utilizate.
Dac facem corecia pentru continuitate
R

W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat.
Assoc.,47,583-621,1952

N 1 1
11 1 1

6,25

2
2
n
2
8 0,375 0,285
z

N 1 N n
11 111 4
7
12n
12 * 4
4
concluzia nu se schimba.
2.6.3. Ajustarea pentru valori egale n testul Wilcoxon
Dac apar egaliti, o alternativ pentru neglijarea lor este de a repartiza la
aceste observaii media rangurilor pe care le-ar fi primit dac nu erau egale.
S considerm un grup de k egaliti. Numerele ntregi m+1, m+2, , m+k
sunt nlocuite cu media lor.
k k 1
m 1 m 2 ... m k km 2 m k 1
k
k
2
2
2
2
Suma ptratelor x1 x 2 ... x N este astfel redus prin
R

m 1 2 m 2 2 ... m k 2 k

k 1
2

km 2 21 2 ... k m 12 22 ... k 2 km 2 km k 1
k k 1
k k 1 2k 1
k k 1
2
m
k k 1 m
2
6
4
k k 1

k 1 k k 1 T
4k 2 3k 3

12
12
12

rangurilor rmne neschimbat.


Astfel
2

1
N

xi2

1
N2

x
N

k k 1

4
2

1 N N 1 2 N 1 T
1 N N 1
2

N
6
12
N
2

Suma

2 N N 1 2 N 1 T 3 N N 1

12 N
N N 1 4 N 2 3 N 3 T
N N 2 1 T

12 N
12 N
2

DR

N N2 1 T N n
12nN
n 1

2.6.4. Teste referitoare la perechi de observaii


a) Testul semnelor
S considerm nivelele plasmatice maxime xi ale unui medicament dup o prim
administrare la un numr de n voluntari sntoi i y i nivelele plasmatice maxime
dup trei zile de tratament. Fie x, y probabilitatea de apariie a valorilor x i y.
Dac medicamentul nu se acumuleaz n organism, cele dou seturi de concentraii
sunt selecii ale aceleiai populaii i xi , y i y i , xi pentru toate perechile.
Aceasta implic simetria lui x, y fa de linia y x 0 .
S definim variabila aleatoare z y x .

Avem c

1
P y x P y x
2

departe echivalent cu

sau

1
P z 0 P z 0
2

1
P y x 0 P y x 0
2

care este mai

. Astfel z va avea o median zero.

Mai departe definim variabilele z i dup cum urmeaz


z i 1 pentru

z i 0

i z i 0 pentru

zi 0

Presupunem continuitatea distribuiei de grup original x, y , z va fi


deasemenea continu, i interseciile (cazurile xi y i ) vor avea probabilitatea
zero.
z i sunt independente, astfel nct suntem n situaia binomial de a face n
ncercri independente, probabilitatea de success z i 1 fiind
Astfel,

z i are o distribuie binomial cu parametrii p

1
la fiecare ncercare.
2

1
i n.
2

Distribuia de grup x, y poate fi diferit n fiecare ncercare, ns de fiecare


dat P z i 1

1
i astfel distribuia lui
2

z i va fi neschimbat.

Alternativa ipotezei nule este ca n locul lui x i s avem xi xi d i , ceea ce


nseamn c fiecare xi descrete cu o cantitate d i , unde

nu va mai fi simetric, ci deplasat spre stnga i

Astfel,

P z i 0

d i 0 . n acest caz x, y

P z i 0 P y i x i 0 P y i xi
2

nu va mai fi n mod necesar constant i distribuia lui

va mai fi o distribuie binomial.


Testul semnelor, d pentru probabilitatea a k diferene pozitive

z i nu

n
k
1
1
1
P 1 zi , p zi Cni 1
n
2
2

2
ik
n
nk
1
1
n Cnn i n Cnj
2 i k
2 j 0
n

n i

1
2n

C
i k

i
n

n cazurile simple, pentru k i n mici, aceast probabilitate se poate calcula direct.


Pentru valori mai mari, se poate folosi aproximaia normal.
Sa lum n considerare valorile nivelelor plasmatice ale ionului EDTA 4
(Tabelul3) dup administrarea i.m. la patru voluntari sntoi.
Tabelul nr. 4:
Voluntar
Prima zi
a-3-a zi

zi

CE
33,3
25,4
-7,9

IA
25,1
31,2
+6,1

BL
22,8
28,4
+5,6

PM
32,4
39,2
+6,8

zi

Avem

4 3 1 1 4 4 j 1 0 1
P zi , p 4 C4 4 C4 4 0,06
1 4 2 2 j 0 2 2
ceea ce nseamn c putem accepta ipoteza nul privind egalitatea constantei de
eliminare n prima zi cu cea din ziua a treia.
Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a
distributiei binomiale:
1 1
P
2 2n
z
unde z este proportia diferentelor pozitive.
1 1
n* *
2 2
b) Testul Wilcoxon pentru observaii perechi
Wilcoxon a propus deasemenea un test pentru determinri pare n care rangurile
sunt atribuite mrimii absolute a diferenelor i apoi se d rangurilor semnul
diferenelor.
Ipoteza nul este c distribuia diferenelor este simetric fa de zero, astfel orice
rang este pozitiv sau negativ cu aceiai probabilitate. Valorile egale primesc ca rang
media rangurilor grupului.
Numrul total de moduri de sume de ranguri ce se pot obine este 2 N .
S atam rangurilor i variabilele aleatoare d i ce iau valorile di=1 cnd i este
pozitiv i di=0 cnd i este negativ, se foloseste insa cea mai mica valoare dintre suma
rangurilor pozitive si a celor negative.
S considerm suma rangurilor positive s d i i .
Media ei va fi E s E
1
2

Dar E d i 1 0

d i iE d
N

N N 1
N 1
1 1
i E s 1 i
2 2
2
4

E s2 E

id i

i di2 2 ijd i d j
i j

N 2
1

1 i E di2 2 ijE di d j
N 2

i j

2
2
2
ns E d i 1 0

Edi d j

1
1 1
si
2
2 2
1
1
1
1 1
0 0 0 1 * 1 * 0 * 1 *1 *
4
4
4
4 4

n consecin

E s2

1 N 2 1
1 N
1
i 2ij 1 i 2

1
2
4 i j
2
4

i
N

1 i 2
N

Acum putem calcula dispersia lui s


2
N
1 N 2
1 N 2 1 N
2
2
2
D s E s E s 1 i i i i
2
4 1
1
4 1
1 N
N N 1 2 N 1
i2
4 1
24
k 1 k k 1
n cazul n care apar egaliti,
trebuie s fie sczut pentru fiecare
48
grup de egalitati. O alternativ este de a scoate toate valorile egale din prob.
S considerm acum observaiile pare din experimentul ce a dus la datele din
tabelul 5.

Tabelul 5. Nivelele plasmatice maxime ale


Voluntar
CE
IA
Prima zi
33,3
25,1
a-3-a zi
25,4
31,2
Diferena
-7,9
+6,1
di
0
1
Rangul
-4
2

EDTA 4 dup administrarea i.m.


BL
22,8
28,4
+5,6
1
1

PM
32,4
39,2
+6,8
1
3

S=3+2+1=6

N N 1
s E s
4

n acest caz avem N=4 si z


D s
N N 1 2 N 1
24
care este foarte apropiat de valorile obinute anterior.
s

65
4*5*9
24

0,27

c)
Testul H, Krusskal Wallis, de analiza a variatiei pe o cale aplicata
rangurilor
Testul H, sau testul Kruskal Wallis3 este o generalizare a testului Wilcoxon n
cazul a k probe,

k 2 . La fel ca i n testul Wilcoxon, observaiile primesc ranguri, i

media rangurilor Ri se calculeaz pentru fiecare grup.


3

W.H.Kruskal, W.A.Wallis; Use of ranks in the one criterion analysis of variance,


J.Am.Stat.Assoc.,47,583-621,1952

E Ri

Raportul

N 1 N ni
N 1
2
i D Ri
2
12ni


N 0,1 , conform teoremei limita centrala.
R va fi repartizat

Ri E Ri
2

D
i
Kruskal i Wallis au artat c suma ptratelor lor, cu un factor de ponderare
n
1 i are aproximativ distribuia 2 k 1
N

N 1
2
N 1 N ni
12ni

Ri

i 1

1 ni 2 k 1

N

12 ni Ri R
N ni 12 ni Ri R
H

N 1 N ni N
N N 1
deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor si media
totala, testul este in esenta un fel de ANOVA pe o cale si se aplica si atunci cand
datele nu sunt normal repartizate, cu dispersii egale.
Am folosit,
ur 2
2
2
2
Ri2
ni Ri R ni Ri 2R Ri ni N R n N R
i

Ri2
N 1

N
ni
4

12
In final H se mai poate scrie: H
N N 1

Ri2
n 3 N 1
i

Dac apar valori egale, H trebuie s fie mprit la factorul 1

N3 N

unde

T k 1 k k 1 k 3 k este calculat pentru fiecare grup de legturi.


Pentru probe mici aproximaia nu este prea bun i Kruskal i Wallis au dat tabele
pentru k=3 i ni 5.
S aplicm testul pentru acelai experiment, considernd dou grupuri de
observaii dup prima administrare i un grup de observaii dup a 5- a administrare:
Nivelele plasmatice maxime ale ionului EDTA 4 dup administrarea i.m. sunt n
tabelul3.
R1

9 3 1 7
2 11 8
4 6 5 10
5 , R2
7 si R3
6,25
4
3
4

N 1
Ri
2
N 1 N ni
12ni

1 ni

N

11 1
5
2
11 111 4
12 * 4

4
1
11

11 1
11 1
6,25

4
2
2
1 3
1

11 11 111 4
11
11 111 3

12 * 3
12 * 4

4 7 3 8 6,25 * 4 7 9,5

0,86
7 11 8 11
7 11 11
2
Dat fiindc 2;0 , 05 0,103 valoarea obinut pentru test aparine zonei de

acceptare, ipoteza ca grupurile sunt selectate din aceiai populaie este acceptat.
2.6.5. Alegerea ntre testele laplaciene i testele neparametrice
Testele nonparametrice au o putere mai mic dect cele clasice, deoarece
nlocuirea valorilor cu rangurile lor semnific pierderea a o parte din informaie. De
exemplu am spune ca doi boxeri sunt de aceiasi valoare deoarece fiecare a ctigat
cte 5 meciuri din 10 ntlniri dintre ei. n condiia n care n ultima ntlnire A l-a
omort pe B, concluzia trebuie schimbat, deoarece diferena de valoare ntre ei la
ultimul meci a fost cu mult mai mare dect celelate diferene.
Aceast pierdere de informaie este real n cazul testelor neparametrice atunci
cnd efectiv variabilele aleatoare sunt repartizate normal i au dispersiile egale. n caz
contrar se poate ntmpla ca un test neparametric s fie chiar mai eficient dect cele
parametrice.
In alt ordine de idei, aplicarea testelor neparametrice n cazul seleciilor de
volume mari, este foarte laborioas. Ca urmare, conduita de urmat n alegerea unui tip
sau altul de test ar fi dup cum urmeaz:
1. n cazul eantioanelor mici sunt de preferat testele neparametrice deoarece
calculele sunt mai rapide i eficiena este comparabil cu cea a testelor clasice.
2. Cnd se tie c seleciile aparin la populaii repartizate normal i cu dispersii
egale, testele clasice sunt mai eficiente.
3. Cnd nu se cunosc repartiiile variabilelor, alegerea i concluziile se vor face
n funcie de alte informatii privitoare la experiment.
4. Cnd se tie c variabilele aleatoare testate nu sunt repartizate normal sau este
vorba de variabile care se bazeaz pe o scal arbitrar (scoruri) sau clasificri pe
criterii preponderant calitative (de exemplu ameliorarea strii subiecilor tratai) se
apeleaz la testele neparametrice.
2.6.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman4
Consideram compararea a k esantioane de aceeasi marime, ni k .
In acest caz datele se inscriu intr- o matrice. Daca rangurile le stabilim pe
fiecare linie, de exemplu,
Tabelul nr. 6
subiect
1
4

Valoarea masurata a dozei


A
B
C
1
2
3

Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973

2
3
4
5

Ri

2
1
1
1
6

1
2
3
3
11

3
3
2
2
13

Putem testa daca se produce o crestere semnificativa a valorilor masurate (de


exemplu cmax ) o data cu cresterea dozei, aplicam testul Friedman
12
c21
Ri2 3l c 1

lc c 1
unde l este numarul de linii si c este numarul de coloane.
2.7. Regresia liniar
Dac reprezentarea grafic a dou mrimi ce sunt observate simultan
sugereaz o dependen liniar, ajungem la problema determinrii dreptei ce descrie
cel mai bine aceast dependen. Cazurile din farmacie cele mai frecvente in acest
sens privesc chimia analitica, unde semnalul este proportional, intre anumite limite,
cu concentratia, legea Lambert-Beer fiind cel mai cunoscut exemplu. In acelasi timp,
se incearca sa se simplifice lucrurile prin liniarizare in studiile de stabilitate ale
medicamentelor. In terapie, o intrebare obligatorie la care trebuie sa raspunda
prezentarea oricarui medicamente se refera la liniaritatea farmacocineticii.
Dup cum s-a discutat la capitolul privind extremele funciilor de mai multe
variabile, o soluie a acestei probleme o constituie dreapta prin cele mai mici
ptrate, dreapta pentru care suma ptratelor distantelor de la ea la punctele
experimentale este minim. Aceast soluie consider punctele ca fiind exacte.
Problema capt cu totul alt nfiare atunci cnd punctele experimentale sunt
considerate valori ale unor variabile aleatoare, devenind o problem de statistic
matematic i analiz numeric n acelai timp.

Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile.
a. dependenta este efectiv liniara dar datele sunt afectate de erori,
b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara
In general, chiar daca nu constientizam acest fapt, de fiecare data cand incercam
sa gasim o dependenta liniara intre doua variabile, facem implicit urmatoarele ipoteze:

1.
Variabila X este masurata fara eroare. Desi nu este totdeauna adevarat, cel
mai adesea X este masurat cu erori relativ mici, si in aceste conditii presupunerea
poate fi considerata adevarata. In cazul unor teste privind un medicament administrat
in mai multe doze, X este doza nominala care se considera ca a fost administrata.
Eroarea in dozare este foarte mica.Un alt exemplu de variabila X care este adesea
folosit este timpul care poate fi masurat cu suficienta precizie si acuratete.
2.
Pentru fiecare X, y ete independent si normal distribuit. Adesea vom folosi
notatia Y.x pentru arata ca valoarea lui Y este o functie de X.
3.
Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca variatia lui y nu
este constanta, dar este fie cunoscuta, fie asemanatoare cu cea a lui X intr-un anume
fel, sunt alte metode pentru a estima panta si ordonata dreaptei .
4.
Intre X si Y exista o relatie de liniaritate. Y= A+BX, unde A si B sunt
parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive sa credem ca
X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care aproximeaza cel mai
bine dependenta intre cele doua variabile nu corespunde legii reale care guverneaza
fenomenul, cel mai bine nefiind de fapt bine.
In cazul studiilor de stabilitate, dependenta concentratiei substantei active de timp
este, in cel mai bun caz o exponentiala
c(t ) c0e kt

Dar , pentru valori mici ale lui t exponentiala este aproximata de o dreapta
c (t ) c0e kt c0 (1 kt )

Ca parametri esentiali ai cineticii de degradare se folosesc, in locul constantei


de viteza k , timpul de injumatatire si timpul de siguranta sau timpul la care
concentratia scade la 90 % din valoare sa initiala.
Examinm n continuare aspectele matematice pentru cazul cel mai simplu
cnd valorile variabilei x (care n cele mai multe cazuri corespunde timpului) nu sunt
afectate de erori i, pentru fiecare valoare a lui x corespund un numr de valori y,
determinate ntr-un singur experiment printr-o metod afectat de erori ntmpltoare:
y11 , y12 ,..., y1n1 , pentru x1
.
.
y i1 , y i 2 ,..., y in , pentru xi , i=1,2,,k
Cazul cnd pentru orice i avem ni 1 este relativ mai simplu, dar este de
subliniat c i n cazul cnd acetia sunt diferii de 1 poate fi tratat n aceiai manier
admitnd c ntre perechile xi , y i s fie i perechi cu acelai xi .
S admitem c pentru un x fixat, valoarea msurat y este o variabil aleatoare
cu urmatoarea structur:
(1) y x
distribuit normal cu dispersia 2 i media x
Problema care ne-o punem este aceea ca, din datele experimentale y i , s
obinem nite estimri a, b i s2 pentru , si 2, i s determinm distribuiile acestor
estimaii.
Estimarea ecuaiei de regresie o notam :
(2) Y a bx
Metoda celor mai mici ptrate d valorile a i b care minimizeaz suma
ptratelor deviaiilor (erorilor) ntre valorile observate y i i cele prezise de ecuaia de
regresie (2):
i

2
2
(3) SS E y i Yi y i a bxi
Metoda este n principal datorat lui Gauss. Pentru aflarea parametrilor a i b,
nu este necesar ipoteza privind distribuia normal a erorilor, dar aceasta este
necesar pentru construirea unor intervale de ncredere i pentru testarea unor ipoteze
privind aceiai estimatori. Metoda celor mai mici ptrate ofer avantajul c estimatorii
pe care i d sunt deplasai i au o dispersie minim n clasa estimatorilor nedeplasai.
Valorile lui a i b care minimizeaz suma ptratelor erorilor sunt soluiile
sistemului

SS
SS
0 i
0
a
b
SS
2 y i a bxi 0
a

SS
2 y i a bxi xi 0
b

ceea ce este echivalent cu


(4) na b xi y i i

a xi b xi2 x i y i

Rezolvnd sistemul prin regula lui Cramer se obin ca estimatori pentru i :


2
n xi y i x i y i
Yi xi xi xi y i
a
i b
2
2
2
n xi2 xi
n xi xi

Numrtorul expresiei lui b poate fi scris i n forma


x

n x i y i x i y i n x i y i i y i n x i x y i
n

Deoarece xi x 0 i y xi x 0 , mai putem scrie

xi x y i x i x y i y xi x xi x y i y

Similar, dup cum se poate uor verifica, avem:

n xi2 xi n xi x
2

n consecin, o form alternativ pentru b este b

xi x y i y

.
xi y
Putem verifica uor c b este un estimator nedeplasat pentru . Presupunem
valoarea ateptat y i dat de ecuaia xi , pentru un x xi . Atunci:
xi x E y i x i x x i
E b

2
2
xi x
xi x

xi x

xi x

xi x x i
i

1
xi 2
n
0

2
x

x
i
Dispersiile lui a i b pot fi obinute direct, deoarece sunt funcii liniare de y i ,
care valori sunt presupuse independente i distribuite normal, cu dispersia 2 :
2
x x y
2
xi x D y i
i
i

D b D

2
2
2 2
xi x
xi x
xi x
2
xi

Din prima ecuaie a sistemului (4) avem: a

Y bX

2
2
1
2
yi
x D b 2 D y i x
n
n
xi x

D a D

2
xi

xi 2 xi 2

n2
n2
2
n xi x

x
2

2
n
xi x

2
2
2
xi
xi

D b
n x x 2
n
2

2
i

Deci, S a

Sb2

2.7.1. Estimaii i ipoteze asupra coeficientului b


Coeficientul b are o importan deosebit i prin aceea c el reprezint o
msur a corelrii ntre x i y.
1. Coeficientul b este, dup cum s-a artat, repartizat normal cu media i
2
dispersia
2

xi x

yi sunt punctele experimentale, iar Yi estimrile lor teoretice,


Yi a bxi , suma ptratelor erorilor va fi SS E yi Yi 2 . Vom arta c:

2. Dac

SS E
2

n2

Pentru a demonstra aceasta relaie plecm de la definiia sumei erorilor


2
SS E y i a bxi


y y a b x a bx
y b x x y y 2b x x y y b x
x x y y
Dar b
x x
2

y i y y a bxi

i putem nlocui xi x y i y b xi x .
2

Deci avem SS E y i y b 2 xi x A B
Calculm separat E A i E B .
2

E A E y i y

E y

2
i

ny

E y nE y
2
i

n continuare, folosind identitatea D Y E Y 2 E Y 2 i faptul c

i D y

obinem
n
2

2
2
E A x i 2 n X

n

2
n 2
n 2
2 xi x n 1 2 2 xi x
n

Mai departe,

E y x

E B xi x E b 2 xi x

2
xi x

i deci,

x X
i

D b E b

E SS E n 1 2 2 xi X 2 xi X 2 n 2 2
2

3. Variabila aleatoare

SS E
este repatizat 2 n 2 .
2

Pe baza acestor trei proprieti putem estima intervalele de ncredere pentru i verifica
ipoteze asupra valorilor sale.
a) Cazul dispersiilor cunoscute
2
n cazul n care se cunoate dispersia erorilor de msurare D i D y i
z

se folosete faptul c variabila aleatoare

D b

xi x

N 0,1 .

1
2

este repartizat

b) Cazul dispersiilor necunoscute


n acest caz se nlocuiete dispersia lui b: b

xi x

SS E
y i Yi
n2
dispersia de selecie: S
n2
b
2
xi x
xi x
Variabila aleatoare

cu estimatorul numit

SS E

1
2

n 2 xi x
2

b
b

SS E

2
n 2

1
2

.
2

2 n2
n2

este repartizat Student cu n-2 grade de libertate.


Ca urmare putem determina intervalele n care se afl cu diverse
probabiliti sau verifica ipoteze privind valoarea lui, exact cum este utilizat testul t
pentru testarea ipotezei privind media necunoscut.

Intervalul de ncredere pentru este

b t Sb b t Sb
n2,1

n2,1

2.7.2. Estimarea dispersiei punctelor dreptei de regresie

Considerm un punct x 0 fixat i punctul corespunztor lui: y 0 , pe dreapta de


regresie y
y x a bx

Y a bx
y 0 a bx 0 Y b x bx0

y 0 Y b x 0 x estimatia lui y 0 este o variabil aleatoare distribuit normal.

Estimnd valoarea lui 2 prin s


Variabila aleatoare T

2
2

n
xi x
2
1
x0 x
.
s
2
n xi x

2
2
2
Avem E Y0 Y0 x 0 i D y 0 y0 y b x0 x

SS E
2
avem s y
n2

y0 x0
este repartizat Student cu n-2 grade de
s y0

libertate i permite calculul intervalelor de ncredere pentru x0 .

y 0 t , n 2 S Y . x

x x

x x


, y 0 t , n 2 S Y . x
2
N

x x


2
N

x x

Dispersia sY depinde de distana ntre x 0 i x , iar limitele de incredere ale


lui Y pentru valori specifice ale lui x depind de dispersie, numarul gradelor de
libertate, numarul de puncte utilizate pentru determinarea dreptei si valoarea sa este
minim atunci cnd x0 x . n acest caz, y0 Y i s y 0 s y .
Facem observaia c dispersia determinat n punctul y 0 este dispersia
datorat regresiei. Valorile experimentale nu sunt ns valori ale regresiei
y 0 Y b x 0 x , estimate de drepta de regresie. n acest caz, valoarea individual
determinat difer fa de valoarea Y0 printr-o eroare , a crei dispersie este egal
cu 2 , variabilitatea datelor individuale fa de valorile corespunztoare regresie Y.
Ca urmare, valorile individuale vor avea dispersia:
0

y20 2

x0 x
2
2
n
xi x

ceea ce , pentru valorile de selecie devine s


Fig. 3

2
y0

x x
1
s 1 0
n x x

i
2

In cazul studiilor de stabilitate observam in fig.2 ca avem doua tipuri de


probleme. Pentru o concentratie data, de exemplu 90 % din cea initiala, in afara
timpul de pe dreapta de regresie cand se atinge acest prag, ne intereseaza si marginea
inferioara a intervalului de timp , deci timpul pentru care suntem siguri ca nu a scazut
concentratia sub 90 % . Din punct de vedere al sigurantei pacientilor , este mai bine sa
contam pe acest timp.
FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un interval de
incredere unilateral decat unul bilateral pentru a estima data de expirare. Pentru cele
mai multe produse, continutul in substanta activa poate doar sa descreasca in timp, si
numai marginea inferioara a intervalului de incredere vs. curba timpului pot fi
considerata relevanta. (o exceptie poate fi in cazul produselor lichide unde evaporarea
solventului duce la cresterea concentratiei substantei active).
Pentru a obtine acest domeniu de valori pentru X (timpul pentru continutul de
minim 90%) folosind metoda estimatiei grafice asa cum este descrisa mai sus,
presupune calcularea bandei de incredere pentru un domeniu sufucuent de intins
pentru X. Estimarea grafica este relativ incorecta. Intervalul de incredere pentru X
cand se da Y poate fi calculat direct desi formula este mai complexa decat cea folosita
pentru calcularea intervalului de incredere pentru Y . Raportul are o distributie mai
complicata decat cea a combinatiei liniare de variabile cum ar fi in cazul Y = a + bX.
Calcularea intervalului de incredere pentru un X la o valoare specifica lui Y
este

( X g X ) [t ( S y ) / b]

t S
2

unde

2
y

(1 g ) / N X X

/ X X

1 g

b2 X X

2.7.3. Regresia ponderata


Una din presupunerile implicite in aplicarea inferentei statistice este acela ca
variatia lui y este aceeasi la fiecare valoare a lui X. Apar multe situatii in practica
atunci cand aceasta presupunere nu este respectata. Un caz frecvent este acela cand
variatia lui y este proportionala cu X. Aceasta apare cand y are un coeficient constant
al variatiei (CV) si y este proportional cu X (y = BX), observat de obicei in metodele
de analiza instrumentala in chimia analitica.
Doua din abordarile posibile in rezolvarea acestei probleme sunt:
a) O transformare a lui y pentru a face variatia omogena, cum ar fi transformarea
logaritmica .
b) O analiza de regresie ponderata.
O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi este inversul
1

patratutului acesteia X 2 . Deci, in formulele pentru calculul coeficientilor A si B


i
valorile yi se vor inlocui cu valorile wi y i

yi
X i2

2.7.4. Analiza reziduala


Se numesc reziduuri diferentele intre valorile calculate prin regresie si cele
experimentale ( ceea ce , in alt context, numeam ca erori)
Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau nonlinieritatea.

Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate sunt
valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-ar trebui sa
apara nici o tendinta.
Figura 4 arata un grafic al reziduurilor ca functie de X. Faptul ca reziduurile
prezinta o forma de palnie, marindu-se pe masura ce X creste, sugereaza folosirea
unei transformari logaritmice sau utilizarea unor ponderi pentru a reduce
heterogeneitatea variatiei.

a
b
Fig. 4
Figura 4b arata reziduurile dupa logaritmarea (ln) lui X si a lui Y. Mare parte din
heterogenitatea variatiei a fost inlaturata.
2.7.5. Stabilitatea dreptei de regresie
In bioanalitica si in chimia analitica in general, pentru fiecare concentratie, la
stabilirea dreptei de etalonare se fac mai multe determinari. Se calculeaza apoi
acuratetea sau exactitatea acestor determinari, cuantificata prin distanta valorii
calculate prin regresie
Fig. 5

Fata de concentratia nominala, concentratia care s-a preparat efectiv ( pe


care o consideram ca nu este afectata de erori). In momentul in care media
determinarilor efective la una din aceste concentratii se modifica, si dreapta de
regresie se va modifica si deasemena si distantele tuturor punctelor experimentale la
aceasta dreapta.
Este de dorit o dependenta stabila a acuratetei punctelor de acuratetea datelor
de intrare, in sensul ca o eroare mica in preparare sau in masurare, sa afecteze putin
acuratetea dreptei.
In mod concret , consideram datele experimentale de la determinarea dreptei
de etalonare a piroxicamului in probe de plasma (fig. 5). Orice eroare in preparare sau
masurare schimba dreapta.

Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 % la limita


de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de cuantificare.
Acuratetea punctelor dupa o schimbare de 10% a conc. experimentale la
diferite limite de cuantificare
Tabelul nr. 7
Limita inferioara de
Con
Conc
c
A/SI
exp
0.1 0.0240 0.083
0.25 0.0818 0.259
0.5
0.1570 0.487
1
0.3396 1.041
2.5
0.7903 2.409
5
1.6711 5.083
10
3.2840 9.978

cuantificare
Acc
Acc
initial
83.3
90.014
103.4 102.841
97.4
97.070
104.1 103.991
96.4
96.321
101.7 101.643
99.8
99.786

Limita superioara de cuantificare


Conc
Acc
Conc A/SI
exp
Acc
initial
0.1
0.0267 0.164
164.1 90.01
0.25
0.0818 0.318
127.1 102.84
0.5
0.1570 0.527
105.5 97.07
1
0.3396 1.037
103.7 103.99
2.5
0.7903 2.294
91.8
96.32
5
1.6711 4.752
95.0
101.643
10
3.6124 10.168 101.7 99.786

Se observa ca efectul erorilor la concentratii mici asupra celorlalte


concentratii este neglijabil, in timp ce efectul erorilor la valori mari asupra acuratetei
concentratiilor mici este critic , transformandu-le pe acestea in valori discordante.

S-ar putea să vă placă și