TESTE NEPARAMETRICE
DREAPTA DE REGRESIE
E X 1 xi pi
N
1
N
xi
2 D X E X 2 E X 1 xi2 p i
2
xi pi
2
1
1
N 2
N
x
i
i
1
N 1
N2
1
N
2
N 1 N 2
2
1
2 1 xi2 2 xi x j
xi 2
2 1
N i j
N
N
N N
x x
i j
1
,
N
aleatoare X X j
j 1, C Nn
C Nn
C Nn
1
E X X j pj n X j
CN j1
j 1
1
1
CN 1
xN n1 xN n2 . . xN
n
Acum s considerm de cte ori intr n sum orice xi particular, s spunem
x1 . Probele care conin x1 se obin prin selectarea a (n-1) alte elemente din
populaia disponibil de (N-1) elemente i, aceasta se poate face n C Nn 11 moduri.
n 1
Vor fi deci C N 1 probe coninnd x1 i la fel se aplic pentru fiecare xi .
C Nn
N 1! N C n 1
N!
N
N 1
n! N n ! n n 1! N n ! n
n consecin
1 1 n 1 N
1
N
(3) E X n C N 1 1 xi 1 xi
CN n
N
S considerm E X
C Nn
1
X pj n
CN
j 1
2
j
C Nn
2
j
j 1
Mai departe
C Nn
2
1
j 1
2
Cnd ridicm la ptrat fiecare termen, fiecare x i va deveni xi i, dup cum
vedem, fiecare x i apare de C Nn 11 ori. Astfel
C Nn
1 n 1 2 2
C x x 2 ... x N2 ...
2 N 1 1
n
(5) X j
j 1
1
(6) n
CN
C Nn
2
j
j 1
E X
1 1 n 1 2 2
2
E X
1
x1 x2 ... x N 1 x N
n forma:
N2
N2
1 1
1
D X n 2 C Nn 11 2 x12 x 22 ... x N2
N
CN n
(8)
1 2
2
n 2 C Nn 22 2 x1 x 2 ... x N 1 x N
N
CN n
2
2
2
Coeficientul lui x1 x 2 ... x N se poate scrie ca
1 1 n 1 1
1
1 n 1 1
1
1
N n
C N 1 2
CN 1 2
2
n
2
2
2
CN n
N
N
nN
N
nN
n 1 N n
C N 1
n
N n N 1
n N 1 N 2
N n
n N 1
N 1 2
2
Partea din
este exact , astfel nct
(9) D X
2 N n 2
n 1
n N 1 n
N 1
Observam ca avem aparent o contradictie cu regula:
xi
1
n 2 2
D X D
D
x
i
n2
n2
n
n
(10) D X
2
, forma ei obinuit
n
pentru o populaie infinit, sau pentru experimentul de tip extracie din urn cu
ntoarcerea bilelor extrase n urn.
2.6.2. Testul de rang Wilcoxon
Testul de rang Wilcoxon1 este un test cu ipoteza nul c dou populaii sunt
identice, fat de ipoteza alternativ c ele difer printr-o translaie linear. Testul
nlocuiete observaiile prin rangurile lor. Rangurile sunt repartizate la valorile din
selecii n ordinea creterii mrimii fr s in cont de probele crora le aparin.
S presupunem c o prob este de mrime n i alta de mrime N-n. Testul
presupune c orice combinaie de ranguri n aceste dou grupuri este egal probabil.
Numrul total de moduri de grupare a rangurilor este C Nn .
Consideram urmatorul exemplu
Nivelele plasmatice maxime ale ionului EDTA 4 dup administrare i.m.
Voluntar
Prima zi
rangurile
a-3-a zi
rangurile
Tabelul 3.
CE
33,3
9
25,4
4
IA
25,1
3
31,2
6
BL
22,8
1
28,4
5
PM
32,4
7
39,2
10
MC
23,7
2
DP
48,33
11
SL
33,04
8
1
N
2 D X E X 2 E X 2
1
N
i2
1
N2
i
N
1
N
xi2
1
N2
x
N
1 N N 1 2 N 1
1 N N 1
2
N
6
2
N
n (10)
1 N n N 1 N n
N 2 1
12
(11) D R
n 1
N
1
n
N 1
12n
2
N 1
12n
D R
RE R
N 1
2
N 1 N n va fi repartizat
12n
R
aproximativ N 0,1 .
Intr o notatie alternativa N poate fi notat cu n1 n2 , n cu n1 si Nn cu n2
obtinandu-se:
n n 1
R 1 2
2
z
n1 n2 1 n2
12n1
1
.
2n
25
6,25 i
4
N 1
11 1
6,25
0,25
2
2
z
0,19
N 1 N n
11 111 4
7
12n
12 * 4
4
Valoarea obinut ne asigur c nu apare o acumulare a EDTA la orice nivel de
risc din cele uzual utilizate.
Dac facem corecia pentru continuitate
R
W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat.
Assoc.,47,583-621,1952
N 1 1
11 1 1
6,25
2
2
n
2
8 0,375 0,285
z
N 1 N n
11 111 4
7
12n
12 * 4
4
concluzia nu se schimba.
2.6.3. Ajustarea pentru valori egale n testul Wilcoxon
Dac apar egaliti, o alternativ pentru neglijarea lor este de a repartiza la
aceste observaii media rangurilor pe care le-ar fi primit dac nu erau egale.
S considerm un grup de k egaliti. Numerele ntregi m+1, m+2, , m+k
sunt nlocuite cu media lor.
k k 1
m 1 m 2 ... m k km 2 m k 1
k
k
2
2
2
2
Suma ptratelor x1 x 2 ... x N este astfel redus prin
R
m 1 2 m 2 2 ... m k 2 k
k 1
2
km 2 21 2 ... k m 12 22 ... k 2 km 2 km k 1
k k 1
k k 1 2k 1
k k 1
2
m
k k 1 m
2
6
4
k k 1
k 1 k k 1 T
4k 2 3k 3
12
12
12
1
N
xi2
1
N2
x
N
k k 1
4
2
1 N N 1 2 N 1 T
1 N N 1
2
N
6
12
N
2
Suma
2 N N 1 2 N 1 T 3 N N 1
12 N
N N 1 4 N 2 3 N 3 T
N N 2 1 T
12 N
12 N
2
DR
N N2 1 T N n
12nN
n 1
Avem c
1
P y x P y x
2
departe echivalent cu
sau
1
P z 0 P z 0
2
1
P y x 0 P y x 0
2
z i 0
i z i 0 pentru
zi 0
1
la fiecare ncercare.
2
1
i n.
2
1
i astfel distribuia lui
2
z i va fi neschimbat.
Astfel,
P z i 0
d i 0 . n acest caz x, y
P z i 0 P y i x i 0 P y i xi
2
z i nu
n
k
1
1
1
P 1 zi , p zi Cni 1
n
2
2
2
ik
n
nk
1
1
n Cnn i n Cnj
2 i k
2 j 0
n
n i
1
2n
C
i k
i
n
zi
CE
33,3
25,4
-7,9
IA
25,1
31,2
+6,1
BL
22,8
28,4
+5,6
PM
32,4
39,2
+6,8
zi
Avem
4 3 1 1 4 4 j 1 0 1
P zi , p 4 C4 4 C4 4 0,06
1 4 2 2 j 0 2 2
ceea ce nseamn c putem accepta ipoteza nul privind egalitatea constantei de
eliminare n prima zi cu cea din ziua a treia.
Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a
distributiei binomiale:
1 1
P
2 2n
z
unde z este proportia diferentelor pozitive.
1 1
n* *
2 2
b) Testul Wilcoxon pentru observaii perechi
Wilcoxon a propus deasemenea un test pentru determinri pare n care rangurile
sunt atribuite mrimii absolute a diferenelor i apoi se d rangurilor semnul
diferenelor.
Ipoteza nul este c distribuia diferenelor este simetric fa de zero, astfel orice
rang este pozitiv sau negativ cu aceiai probabilitate. Valorile egale primesc ca rang
media rangurilor grupului.
Numrul total de moduri de sume de ranguri ce se pot obine este 2 N .
S atam rangurilor i variabilele aleatoare d i ce iau valorile di=1 cnd i este
pozitiv i di=0 cnd i este negativ, se foloseste insa cea mai mica valoare dintre suma
rangurilor pozitive si a celor negative.
S considerm suma rangurilor positive s d i i .
Media ei va fi E s E
1
2
Dar E d i 1 0
d i iE d
N
N N 1
N 1
1 1
i E s 1 i
2 2
2
4
E s2 E
id i
i di2 2 ijd i d j
i j
N 2
1
1 i E di2 2 ijE di d j
N 2
i j
2
2
2
ns E d i 1 0
Edi d j
1
1 1
si
2
2 2
1
1
1
1 1
0 0 0 1 * 1 * 0 * 1 *1 *
4
4
4
4 4
n consecin
E s2
1 N 2 1
1 N
1
i 2ij 1 i 2
1
2
4 i j
2
4
i
N
1 i 2
N
PM
32,4
39,2
+6,8
1
3
S=3+2+1=6
N N 1
s E s
4
65
4*5*9
24
0,27
c)
Testul H, Krusskal Wallis, de analiza a variatiei pe o cale aplicata
rangurilor
Testul H, sau testul Kruskal Wallis3 este o generalizare a testului Wilcoxon n
cazul a k probe,
E Ri
Raportul
N 1 N ni
N 1
2
i D Ri
2
12ni
N 0,1 , conform teoremei limita centrala.
R va fi repartizat
Ri E Ri
2
D
i
Kruskal i Wallis au artat c suma ptratelor lor, cu un factor de ponderare
n
1 i are aproximativ distribuia 2 k 1
N
N 1
2
N 1 N ni
12ni
Ri
i 1
1 ni 2 k 1
N
12 ni Ri R
N ni 12 ni Ri R
H
N 1 N ni N
N N 1
deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor si media
totala, testul este in esenta un fel de ANOVA pe o cale si se aplica si atunci cand
datele nu sunt normal repartizate, cu dispersii egale.
Am folosit,
ur 2
2
2
2
Ri2
ni Ri R ni Ri 2R Ri ni N R n N R
i
Ri2
N 1
N
ni
4
12
In final H se mai poate scrie: H
N N 1
Ri2
n 3 N 1
i
N3 N
unde
9 3 1 7
2 11 8
4 6 5 10
5 , R2
7 si R3
6,25
4
3
4
N 1
Ri
2
N 1 N ni
12ni
1 ni
N
11 1
5
2
11 111 4
12 * 4
4
1
11
11 1
11 1
6,25
4
2
2
1 3
1
11 11 111 4
11
11 111 3
12 * 3
12 * 4
4 7 3 8 6,25 * 4 7 9,5
0,86
7 11 8 11
7 11 11
2
Dat fiindc 2;0 , 05 0,103 valoarea obinut pentru test aparine zonei de
acceptare, ipoteza ca grupurile sunt selectate din aceiai populaie este acceptat.
2.6.5. Alegerea ntre testele laplaciene i testele neparametrice
Testele nonparametrice au o putere mai mic dect cele clasice, deoarece
nlocuirea valorilor cu rangurile lor semnific pierderea a o parte din informaie. De
exemplu am spune ca doi boxeri sunt de aceiasi valoare deoarece fiecare a ctigat
cte 5 meciuri din 10 ntlniri dintre ei. n condiia n care n ultima ntlnire A l-a
omort pe B, concluzia trebuie schimbat, deoarece diferena de valoare ntre ei la
ultimul meci a fost cu mult mai mare dect celelate diferene.
Aceast pierdere de informaie este real n cazul testelor neparametrice atunci
cnd efectiv variabilele aleatoare sunt repartizate normal i au dispersiile egale. n caz
contrar se poate ntmpla ca un test neparametric s fie chiar mai eficient dect cele
parametrice.
In alt ordine de idei, aplicarea testelor neparametrice n cazul seleciilor de
volume mari, este foarte laborioas. Ca urmare, conduita de urmat n alegerea unui tip
sau altul de test ar fi dup cum urmeaz:
1. n cazul eantioanelor mici sunt de preferat testele neparametrice deoarece
calculele sunt mai rapide i eficiena este comparabil cu cea a testelor clasice.
2. Cnd se tie c seleciile aparin la populaii repartizate normal i cu dispersii
egale, testele clasice sunt mai eficiente.
3. Cnd nu se cunosc repartiiile variabilelor, alegerea i concluziile se vor face
n funcie de alte informatii privitoare la experiment.
4. Cnd se tie c variabilele aleatoare testate nu sunt repartizate normal sau este
vorba de variabile care se bazeaz pe o scal arbitrar (scoruri) sau clasificri pe
criterii preponderant calitative (de exemplu ameliorarea strii subiecilor tratai) se
apeleaz la testele neparametrice.
2.6.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman4
Consideram compararea a k esantioane de aceeasi marime, ni k .
In acest caz datele se inscriu intr- o matrice. Daca rangurile le stabilim pe
fiecare linie, de exemplu,
Tabelul nr. 6
subiect
1
4
Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973
2
3
4
5
Ri
2
1
1
1
6
1
2
3
3
11
3
3
2
2
13
lc c 1
unde l este numarul de linii si c este numarul de coloane.
2.7. Regresia liniar
Dac reprezentarea grafic a dou mrimi ce sunt observate simultan
sugereaz o dependen liniar, ajungem la problema determinrii dreptei ce descrie
cel mai bine aceast dependen. Cazurile din farmacie cele mai frecvente in acest
sens privesc chimia analitica, unde semnalul este proportional, intre anumite limite,
cu concentratia, legea Lambert-Beer fiind cel mai cunoscut exemplu. In acelasi timp,
se incearca sa se simplifice lucrurile prin liniarizare in studiile de stabilitate ale
medicamentelor. In terapie, o intrebare obligatorie la care trebuie sa raspunda
prezentarea oricarui medicamente se refera la liniaritatea farmacocineticii.
Dup cum s-a discutat la capitolul privind extremele funciilor de mai multe
variabile, o soluie a acestei probleme o constituie dreapta prin cele mai mici
ptrate, dreapta pentru care suma ptratelor distantelor de la ea la punctele
experimentale este minim. Aceast soluie consider punctele ca fiind exacte.
Problema capt cu totul alt nfiare atunci cnd punctele experimentale sunt
considerate valori ale unor variabile aleatoare, devenind o problem de statistic
matematic i analiz numeric n acelai timp.
Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile.
a. dependenta este efectiv liniara dar datele sunt afectate de erori,
b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara
In general, chiar daca nu constientizam acest fapt, de fiecare data cand incercam
sa gasim o dependenta liniara intre doua variabile, facem implicit urmatoarele ipoteze:
1.
Variabila X este masurata fara eroare. Desi nu este totdeauna adevarat, cel
mai adesea X este masurat cu erori relativ mici, si in aceste conditii presupunerea
poate fi considerata adevarata. In cazul unor teste privind un medicament administrat
in mai multe doze, X este doza nominala care se considera ca a fost administrata.
Eroarea in dozare este foarte mica.Un alt exemplu de variabila X care este adesea
folosit este timpul care poate fi masurat cu suficienta precizie si acuratete.
2.
Pentru fiecare X, y ete independent si normal distribuit. Adesea vom folosi
notatia Y.x pentru arata ca valoarea lui Y este o functie de X.
3.
Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca variatia lui y nu
este constanta, dar este fie cunoscuta, fie asemanatoare cu cea a lui X intr-un anume
fel, sunt alte metode pentru a estima panta si ordonata dreaptei .
4.
Intre X si Y exista o relatie de liniaritate. Y= A+BX, unde A si B sunt
parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive sa credem ca
X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care aproximeaza cel mai
bine dependenta intre cele doua variabile nu corespunde legii reale care guverneaza
fenomenul, cel mai bine nefiind de fapt bine.
In cazul studiilor de stabilitate, dependenta concentratiei substantei active de timp
este, in cel mai bun caz o exponentiala
c(t ) c0e kt
Dar , pentru valori mici ale lui t exponentiala este aproximata de o dreapta
c (t ) c0e kt c0 (1 kt )
2
2
(3) SS E y i Yi y i a bxi
Metoda este n principal datorat lui Gauss. Pentru aflarea parametrilor a i b,
nu este necesar ipoteza privind distribuia normal a erorilor, dar aceasta este
necesar pentru construirea unor intervale de ncredere i pentru testarea unor ipoteze
privind aceiai estimatori. Metoda celor mai mici ptrate ofer avantajul c estimatorii
pe care i d sunt deplasai i au o dispersie minim n clasa estimatorilor nedeplasai.
Valorile lui a i b care minimizeaz suma ptratelor erorilor sunt soluiile
sistemului
SS
SS
0 i
0
a
b
SS
2 y i a bxi 0
a
SS
2 y i a bxi xi 0
b
a xi b xi2 x i y i
n x i y i x i y i n x i y i i y i n x i x y i
n
xi x y i x i x y i y xi x xi x y i y
n xi2 xi n xi x
2
xi x y i y
.
xi y
Putem verifica uor c b este un estimator nedeplasat pentru . Presupunem
valoarea ateptat y i dat de ecuaia xi , pentru un x xi . Atunci:
xi x E y i x i x x i
E b
2
2
xi x
xi x
xi x
xi x
xi x x i
i
1
xi 2
n
0
2
x
x
i
Dispersiile lui a i b pot fi obinute direct, deoarece sunt funcii liniare de y i ,
care valori sunt presupuse independente i distribuite normal, cu dispersia 2 :
2
x x y
2
xi x D y i
i
i
D b D
2
2
2 2
xi x
xi x
xi x
2
xi
Y bX
2
2
1
2
yi
x D b 2 D y i x
n
n
xi x
D a D
2
xi
xi 2 xi 2
n2
n2
2
n xi x
x
2
2
n
xi x
2
2
2
xi
xi
D b
n x x 2
n
2
2
i
Deci, S a
Sb2
xi x
2. Dac
SS E
2
n2
y y a b x a bx
y b x x y y 2b x x y y b x
x x y y
Dar b
x x
2
y i y y a bxi
i putem nlocui xi x y i y b xi x .
2
Deci avem SS E y i y b 2 xi x A B
Calculm separat E A i E B .
2
E A E y i y
E y
2
i
ny
E y nE y
2
i
i D y
obinem
n
2
2
2
E A x i 2 n X
n
2
n 2
n 2
2 xi x n 1 2 2 xi x
n
Mai departe,
E y x
E B xi x E b 2 xi x
2
xi x
i deci,
x X
i
D b E b
E SS E n 1 2 2 xi X 2 xi X 2 n 2 2
2
3. Variabila aleatoare
SS E
este repatizat 2 n 2 .
2
Pe baza acestor trei proprieti putem estima intervalele de ncredere pentru i verifica
ipoteze asupra valorilor sale.
a) Cazul dispersiilor cunoscute
2
n cazul n care se cunoate dispersia erorilor de msurare D i D y i
z
D b
xi x
N 0,1 .
1
2
este repartizat
xi x
SS E
y i Yi
n2
dispersia de selecie: S
n2
b
2
xi x
xi x
Variabila aleatoare
cu estimatorul numit
SS E
1
2
n 2 xi x
2
b
b
SS E
2
n 2
1
2
.
2
2 n2
n2
b t Sb b t Sb
n2,1
n2,1
Y a bx
y 0 a bx 0 Y b x bx0
2
2
n
xi x
2
1
x0 x
.
s
2
n xi x
2
2
2
Avem E Y0 Y0 x 0 i D y 0 y0 y b x0 x
SS E
2
avem s y
n2
y0 x0
este repartizat Student cu n-2 grade de
s y0
y 0 t , n 2 S Y . x
x x
x x
, y 0 t , n 2 S Y . x
2
N
x x
2
N
x x
y20 2
x0 x
2
2
n
xi x
2
y0
x x
1
s 1 0
n x x
i
2
( X g X ) [t ( S y ) / b]
t S
2
unde
2
y
(1 g ) / N X X
/ X X
1 g
b2 X X
yi
X i2
Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate sunt
valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-ar trebui sa
apara nici o tendinta.
Figura 4 arata un grafic al reziduurilor ca functie de X. Faptul ca reziduurile
prezinta o forma de palnie, marindu-se pe masura ce X creste, sugereaza folosirea
unei transformari logaritmice sau utilizarea unor ponderi pentru a reduce
heterogeneitatea variatiei.
a
b
Fig. 4
Figura 4b arata reziduurile dupa logaritmarea (ln) lui X si a lui Y. Mare parte din
heterogenitatea variatiei a fost inlaturata.
2.7.5. Stabilitatea dreptei de regresie
In bioanalitica si in chimia analitica in general, pentru fiecare concentratie, la
stabilirea dreptei de etalonare se fac mai multe determinari. Se calculeaza apoi
acuratetea sau exactitatea acestor determinari, cuantificata prin distanta valorii
calculate prin regresie
Fig. 5
cuantificare
Acc
Acc
initial
83.3
90.014
103.4 102.841
97.4
97.070
104.1 103.991
96.4
96.321
101.7 101.643
99.8
99.786