Sunteți pe pagina 1din 253

Constantin Mircioiu Roxana Colette Sandulovici

STATISTICA APLICATA
IN
FARMACIE SI STUDII CLINICE

Editia a II a








EDITURA UNIVERSITARA CAROL DAVILA
BUCURESTI, 2009
Prof. dr. farm., mat. CONSTANTIN MIRCIOIU
Dr. farm., mat. ROXANA COLETTE SANDULOVICI






STATISTICA APLICATA
IN
FARMACIE SI STUDII CLINICE

Editia a II - a

pentru


cursul de biostatistica
Facultatea de Farmacie, Universitatea de Medicina si Farmacie
Carol Davila, Bucuresti

cursul de biostatistica doctoranzi
Universitatea de Medicina si Farmacie Carol Davila, Bucuresti


cursul de biostatistica si farmacocinetica
Masterul de Biostatistica
Facultatea de Matematica, Universitatea Bucuresti



EDITURA UNIVERSITARA CAROL DAVILA
BUCURESTI, 2009
PREFATA

La numai un an dupa prima aparitie a cartii de fata, conceput initial
ca un curs pentru studentii din anul IV ai facultatii de farmacie, contextul
stiintific si didactic s-a schimbat semnificativ statistic. In urma experientei
cursurilor si seminariilor din cadrul facultatilor de farmacie si facultatilor de
matematica a aparut necesitatea de a revizui o parte din material in scopul
cresterii ponderii exemplelor din cadrul cercetarilor experimentale si
studiilor clinice, mai dificile de urmarit decat exemplele ideale, dar mai
ilustrative in ceea ce priveste modul de rezolvare a unor probleme reale,
complexe.
S-au adaugat in primul rand cateva capitole noi de biostatistica
reala:
estimarea bioechivalentei prin metode non-parametrice, problema
amplu dezbatuta in acesti ani in contextul propunerii de a schimba regulile
americane si europene de evaluare a bioechivalentei,
estimarea retrospectiva a factorilor de risc in cazul bolilor rare,
relatia intre evaluarea bioechivalentei si a echivalentei terapeutice,
aplicarea ANOVA in estimarea modelelor liniare.
Necesitatea acestor din urma capitole au aparut, in primul rand, in
cadrul masteratului de Biostatistica organizat de Facultatea de Matematica
in colaborare cu Facultatea de Farmacie si au facut obiectul unor dezbateri
multidisciplinare la care au participat matematicieni, medici, farmacisti,
chimisti si biologi in cadrul seminariilor de biostatistica aplicata la studiile
clinice.
O alta directie a dezvoltarii a privit evaluarea statistica a datelor
clinice in cadrul unor studii clinice concrete analizate la cursurile si
seminariile de biostatistica la scoala doctorala de pe langa Universitatea de
Medicina si Farmacie Carol Davila.
In final, dincolo de insusirea unor reguli de baza privind evaluarile
statistice in capitolele mentionate s-a incercat sa se acrediteze conceptul
fundamental privind validarea in spirala: validarea rezultatelor prin analiza
statistica, validarea rezultatelor statistice prin evaluarea fenomenologica,
remodelarea fenomenelor, extrapolarea experimentului, evaluarea statistica,
s.a.m.d.
Rezumand intr-o singura fraza bunele intentii ale autorilor - acestia
au vrut sa transmita ideea ca aplicarea in analiza datelor clinice numai a
bunului simt sau numai a regulilor formale de calcul te pot rataci si uneori
chiar sminti.
Autorii Bucuresti, 2009
I. Elemente de teoria probabilitatilor Campuri de probabilitate

1
1.1. CMPURI DE PROBABILITATE

Teoria matematic a probabilitilor pornete de la faptul c fiecrui
rezultat posibil al unui experiment aleator, rezultat pe care l vom denumi
eveniment, i se asociaz o valoare numeric, numit probabilitatea
evenimentului respectiv. Aceast valoare este o caracteristic obiectiv a
evenimentului n condiiile experimentului dat.
S efectum, de exemplu, un experiment de m ori. Dac n cele m
experiene un eveniment A s-a produs de k ori, atunci 0 k m, de unde
rezult pentru frecvena relativ:
0 1
k
m

adic frecvena relativ a unui eveniment este ntotdeauna un numr cuprins
ntre 0 i 1.
innd cont c frecvena relativ oscileaz n jurul probabilitii
evenimentului considerat i c probabilitate este acea caracteristic a
evenimentului care ne indic n ce proporii se produce evenimentul n cazul
repetrii experimentului de un numr foarte mare de ori, rezult c i
probalitatea este tot un numr ntre 0 i 1.
Din definiia probabilitii ca generalizare a conceptului de frecven
relativ, rezult c probabilitatea unui eveniment imposibil este 0, iar
probabilitatea unui eveniment sigur este 1.
Evenimentele pot fi simple, n sensul c nu se pot descompune mai
departe, sau compuse din alte evenimente ce se petrec simultan. n acest
context putem considera dou operaii ntre evenimente.
Scriem AB i nelegem prin aceasta un eveniment care const n
producerea evenimentelor A i B, simultan. Scriem A B pentru cazul cnd
se produce cel puin unul din cele dou evenimente.

Fiind date dou rezultate A i B ale unui experiment efectuat de n


ori, s presupunem c A s-a obinut de ori i B de ori. Evenimentul
A B, deci obinerea unui eveniment din cele dou rezultate, s-a obinut ca
atare, de
1
k
2
k

1 2 1 2
k k k k
n n
+
n
= + ori, ceea ce sugereaz o regul de tipul
Probabilitate (AB) = Probabilitate (A) + Probabilitate (B)
n cele ce urmeaz vom introduce o prezentare axiomatic a
conceptului de probabilitate, dup Kolmogorov
1
.

1
Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din
Moscova, a avut contribuii deosebite n analiza matematic, analiza funcional i teoria
I. Elemente de teoria probabilitatilor Campuri de probabilitate

2
1.1.1. Corp borelian

1.1.1.1. Definiie:

Fie E o mulime i K o familie nevid de pri ale lui E, K (E)
cu proprietile:
1. A K CA K
2. K

K ( )
N i
i A

1
i A
3. E K
Deci, este nchis la operaiile de complementare i reuniune.
Se spune, n acest caz, c familia K, mpreun cu operaiile
menionate, formeaz un corp bolerian. Denumirea de borelian vine de la
matematicianul Emil Borel, unul dintre fondatorii teoriei probabilitilor.

1.1.1.2. Consecin:

Un corp borelian este o familie nchis fa de operaiunea de
intersecie, indiferent de numrul elementelor sale pe care le intersectm:
K ( )
N i
i A
i
A K
Demonstraia se face imediat folosind faptul c i
proprietile 1 i 2.
i i
i i
A C A

=




1.1.1.3. Propoziie:

Fiind dat o familie de corpuri boreliene ( ) I i i K , intersecia lor este
tot un corp borelian.
Demonstratia se face imediat, folosind proprietile corpului borelian
i ale operaiilor de intersecie, reuniune i complementare.

1.1.1.4. Definiie:


probabilitilor. Cartea sa Grundbegriffe der Wahrscheinlichketetsrechnung, Berlin,
1933, a nsemnat o revoluie n teoria probabilitilor, artnd c, formal, aceast teorie
se poate trata ca un caz particular de teorie a integralei (sau teoria msurii).

I. Elemente de teoria probabilitatilor Campuri de probabilitate

3
Fie H o familie oarecare de pri ale unei mulimi E . H poate fi
completat la un corp borelian, numit corpul generat de , dac i se adaug
E i toate mulimile ce se formeaz prin reuniune, intersecie i
complementare pornind de la elementele H .
Dac lum pe dreapt, mulimea intervalelor deschise de forma
, , corpul borelian generat se numete simplu borelianul pe
dreapta i constituie baza teoriei probabilitilor, aa cum va fi ea abordat
n prezenta lucrare.
( )
, a a R
Deoarece orice interval nchis se poate obine prin operaiile
meionate din intervale deschise i invers, orice interval deschis poate fi
generat pornind de la intervale nchise, borelianul pe dreapta este n acelai
timp generat de mulimea intervalelor nchise.
ntr-adevr, se poate scrie:

[ ] b a, =

+
1
1
,
1
n
n
b
n
a i ( )

+ =
1
1
,
1
,
n
n
b
n
a b a

1.1.1.5. Definiie:

O familie ( ) I i i A se numete desfacere a lui E dac:
1. I este cel mult numrabil;
2. = j i A A j i,
3. E Ai =


1.1.2. Spaii msurabile

1.1.2.1.1. Definiie
O mulime E mpreun cu un corp borelian K formeaz un spaiu
msurabil (E,K). Elementele lui K se numesc mulimi msurabile.

1.1.2.2. Definiie
Fiind date (E,K) si (F,L) spaii msurabile, o funcie f: (E,K) (F,L)
se numete funcie msurabil dac ndeplinete condiia:

A, ALf
-1
(A)K sau, altfel spus: f
-1
(L) K

1.1.2.3. Proprieti
a) Dac f i g sunt msurabile, atunci f g, f +g i f*g sunt msurabile.
I. Elemente de teoria probabilitatilor Campuri de probabilitate

4
b) Dac f este continu, atunci f este borelian msurabil.

1.1.2.4. Observaie
Se poate face un paralelism ntre spaiile topologice i spaiile
msurabile, ntre funciile continue i funciile msurabile. Astfel, o funcie
este continu dac preimaginea oricrei mulimi deschise este o mulime
deschis iar msurabil este atunci cnd preimaginea oricrei mulimi
msurabile este msurabil. Deasemenea, dac f i g sunt dou funcii
continue, atunci f + g i f*g sunt continue.

1.1.2.5. Definiie
Se numete msur orice funcie pozitiv definit pe corpul
mulimilor msurabile, : K R
+
, aditiv pe orice familie ( )
numrabil de mulimi msurabile disjuncte:
I i i A
( ) ( )


= =
1 1
, , n n m n A A A A m n



1.1.2.6. Consecine
a) ( ) 0 =
ntr-adevr, dac lum A A = 1 , = 2 A
( ) ( ) ( ) ( )
2 0 = = =
b) Fie un ir de mulimi i fie ... 2 1 A A n A A = , atunci ( ) (A An )
Demonstraie:
Fie \ . Mulimile sunt disjuncte i 1 + = n n A B n A n B n n B B B A ... 2 1 = .
Din aditivitatea lui rezult ( ) ( ) n
n
i
i
n
i
i n s B B A = =

=

= = 1 1


( ) ( ) ( ) A A B s s
n
n
i
i n = = =

=

=

1 1

n A A = i ( ) i A < ( ) n A < ( ) A
Altfel, { } ,... 1 , + = n n An , dar

= n A ( ) = n A

1.1.2.7. Exemple
a) Fie definit dup cum urmeaz:
( ) = A dac Aeste infinit i
( ) = A numrul elementelor din A, dac A este finit.
Aceast msur se numete n mod natural msura de numrare.
b) Fie un punct exterior E x
0
fixat. Definim:
I. Elemente de teoria probabilitatilor Campuri de probabilitate

5
( ) 1
0
= A
x
dac A x 0 i
( ) A
x
0
= 0 dac 0 x A
Msura este utilizat n mecanica cuantic i se numete msura lui Dirac.


1.1.3. Probabilitate
Vom defini probabilitatea ca o msur particular.

1.1.3.1. Definiie:
Fiind dat un spaiu msurbil ( ) K E, . O funcie P: cu
proprietile:
[ 1 , 0 K ]
a) P msur i
b) P( ) E =1
se numete probabilitate.
Deci, probabilitatea ar fi o msur normat.

1.1.3.2. Proprieti:
Pe baza proprietilor msurii i a faptului c P( ) E =1, se pot
demonstra cu uurin urmtoarele proprieti:
1. ( ) ( ) ( ) B P A P B A P B A = /
2. , ( ) n ( ) = + n n n A P A A 1 ( ) n n A P lim
3. , ( ) n ( ) ( ) n n n n n A P A P A A + = lim 1
4. ( ) ( ) ( ) ( ) B A P B P A P B A P + =
5. ( ) ( )

n n A P A P

, numit subaditivitate numrabil


6. ( ) 0 = P
7. ( ) ( ) A P CA P =1
n contextul teoriei probabilitilor, mulimile msurabile devin
evenimente, spaiul msurabil devine cmp de evenimente, iar E devine
evenimentul total.

1.1.3.3. Definiie:
Un cmp de evenimente ( ) K E, nzestrat cu probabilitatea P, se
numete cmp de probabilitate.

1.1.3.4. Definiie:
Un eveniment care nu mai poate fi inclus n alt eveniment
I. Elemente de teoria probabilitatilor Campuri de probabilitate

6
B A K B K A , , sau = B A
se numete eveniment elementar sau atom.
1.1.3.5. Observaii
Prezentarea axiomelor teoriei probabilitilor n contexul mai larg al
teoriei msurii, dincolo de formalismul simplu i rigoare, ofer i avantajul
unor interpretri fenomenologice i picturale pentru unele formule.
Astfel, dac probabilitatea este o msur, la fel ca aria pentru figurile plane
(Fig. 1), formula:
( ) ( ) ( ) ( ) B A P B P A P B A P + =
se poate citi ca:
( ) ( ) ( ) ( )
aria A B aria A aria B aria A B = +
ceea ce pare ca evident.

Fig. 1.
Definiia clasic elementar a probabilitii deriv n mod natural din
noiunea de frecven, despre care am vorbit mai sus.
Dac un eveniment A se poate realiza n m feluri diferite dintr-un
numr total n de evoluii posibile( )
n j
j
e
, 1 =
, egal probabile, atunci :
a)
( )
1
j
P e
n
= i b)
( )
m
P A
n
=
1.1.3.6. Exemplu
Exemplul clasic de cmp de probabilitate finit l constituie
evenimentele ce pot aprea atunci cnd, dintr-o urn n care se afl bile albe
i negre se extrag n bile. Dac proporia bilelor albe n urn este p, i deci a
celor negre este 1 q p = , probabilitatea evenimentului A, ca din n bile
extrase, k s fie albe, conform definiiei clasice definite mai sus, se
calculeaz imediat i este:
( )
k k n k
n
P A C p q

=
De exemplu, evenimentul ca din trei bile extrase, dou s fie albe -
- i una s fie neagr - - se poate descompune n felul urmtor : a n
( ) ( ) ( )
A a a n a n a n a a =

i
I. Elemente de teoria probabilitatilor Campuri de probabilitate

7
( ) ( ) ( ) ( )
2 2 2 2 2 2 3
3
3 P A P a a n P a n a P n a a p q p q p q p q C p q

= + + = + + = =
2

1.1.4. Probabilitate condiionat
Fie B un eveniment a crei probabilitate este diferit de 0.
Probabilitatea unui eveniment A, reprezint proporia n care ne ateptm s
se realizeze A n cadrul tuturor evenimentelor cmpului de probabilitate la
care aparine A
Probabilitatea lui A se mai poate analiza ns i n contextul n care
tim c s-a produs anterior evenimentul B. Probabilitatea evenimentului A
condiionat de B se noteaz, n acest caz, cu: P(A/B) sau P
B
(A).
Dac s-a constatat experimental o frecven de apariie k
A
i,
respectiv k
B
, pentru A i B, frecvena relativ de apariie a lui A, cnd deja
a aprut B, va fi:
( )
( )
B P
B A P
n
k
n
k
k
k
B
AB
B
AB

=
n acest context apare natural definiia probabilitii evenimentului
A, condiionat de B, prin formula:
( )
( )
( )
B P
B A P
A P
B

=
Un caz special l constituie acela n care probabilitatea de apariie a
evenimentului A este aceiai, indiferent dac s-a produs sau nu evenimentul
B:
P(A) = P
B
(A)
Spunem, n acest caz, c evenimentele A i B sunt evenimente
independente.
Observm c, rescriind formula anterioar
( )
( )
( )
B P
B A P
A PB

= ( ) ( ) ( ) ( ) (B P A P B P A P B A P B * * ) = =
se poate lua ca definiie c dou evenimente sunt independente atunci cnd:
( ) ( ) ( ) B P A P B A P * =

1.1.5. Formula probabilitii cauzelor (Bayes)
Fie A
1
, A
2
,, A
n
o desfacere a lui E pe care, n contextul teoriei
probabilitilor, o numim sistem complet de evenimente. Ea reprezint n
acelai timp o desfacere pentru E ct i pentru orice eveniment E X .

j A E =
( )

X A X i =
I. Elemente de teoria probabilitatilor Campuri de probabilitate

8
Dat fiind c evenimentele sunt disjuncte, avem X Ai
( ) ( )

= X A P X P i .
S presupunem c ( ) 0 , i A P i . n aceste condiii avem urmtoarea
teorem:


1.1.5.1. Teorema probabilitii cauzelor

Probabilitatea producerii oricrui eveniment X, este egal cu suma
probabilitilor de producere a lui X, condiionate de evenimentele complete
ale sistemului ( ) n i i A , 1 = i
( )
( ) ( )
( ) ( )

=
X P A P
X P A P
A P
i
j
A i
A j
j X
Demonstraie:

Din definiie avem P
X
(A
j
) =
( )
( )
X P
A X P j

deci, P
X
(A
j
) =
( )
( )

i
i
j
X A P
A X P

=
( )
( )
( )
( )
( )
( )

i
i
i
i
j
j
j
A P
A P
X A P
A P
A P
A X P

=
( ) ( )
( ) ( )

X P A P
X P A P
I
j
A i
A j


P
X
(A
j
) poate fi interpretat ca fiind probabilitatea ca X s aib cauza
A
j
. n acest caz, formula calculeaz probabilitatea lui X n funcie de
probabilitile cauzelor care ar fi putut determina evenimentul X.
Probabilitile P(A
k
) se numesc apriorice, pentru c ele se cunosc
nainte de eveniment. Probabilitile P
X
(A
j
) sunt probabilitile acelorai
cauze, dar dup ce s-a ntmplat evenimentul X, i se numesc din acest
motiv, probabiliti aposteriorice.
Exemplu, cnd un pacient intoxicat este adus la urgen el prezint
anumite simptome i medicul, folosind experiena sa, rezultatele
determinrilor n snge i un sistem computerizat elaboreaz o list cu
probabilitile ca intoxicaia s se fi fcut cu o anumit substan.
n fizica statistic parametrii termodinamici sau cuantici ai unui
sistem rezult din nsumarea unui numr foarte mare de evenimente.
Probabilitatea de trecere de la o stare iniial la o stare final este dat de
suma probabilitilor de trecere pe anumite ci A
i
ponderate fiecare cu
I. Elemente de teoria probabilitatilor Campuri de probabilitate

9
probabilitatea, sau altfel spus ponderea lor, p(A
i
). Deoarece numrul cilor
poate fi de puterea continuului, n locul sumelor apar integrale.
Sau, dac s-ar produce o crim, aposteriori, ne punem problema
ierarhizrii suspiciunilor privind potenialii criminali.
Problema nu este de loc teoretic dac suntem de exemplu o
societate de asigurri sau dac testul este un test de malignitate.
Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor
din lumea aceasta i legtura lor cu cauza final Dumnezeu.
Formula probabilitii cauzelor ne arat cum se transform
probabilitile apriorice n probabiliti aposteriorice, dup apariia
evenimentului X.
De exemplu, tiind c un medicament se absoarbe n, i se elimin
din snge pe mai mult ci, cu diferite probabiliti date de considerente
fizico-chimice i fiziologice, n funcie de rezultatul unor determinri a
concentraiei ale acestora n sngele unui pacient, ne putem pune problema
stabilirii ponderilor efective ale acestor ci, n scopul individualizrii
tratamentului.

1.1.5.2. Observaie:
Putem deasemenea s considerm cazul particular al desfacerii
evenimentului total n dou evenimente A i complementul su CA.
Formula lui Bayes devine n acest caz:
P
X
(A) =
( ) ( )
( ) ( ) ( ) ( ) CA P X P A P X P
A P X P
CA A
A
+


1.1.5.3. Aplicaie:
Dac, de exemplu, P(B) este proporia (probabilitatea) unei boli n
populaie i cunoscnd proporia n care un test diagnostic este pozitiv la
bolnavi P
B
(+) i la sntoi P
NB
(+) putem calcula probabilitatea ca un
pacient la care rezultatul testului este pozitiv s fie bolnav:
( )
( ) ( )
( ) ( ) ( ) ( )
B
B NB
P P B
P B
P P B P P NB
+
+
=
+ + +

unde:
( )
B P + este probabilitatea ca un bolnav s fie catalogat pozitiv de
ctre test i se numete sensibilitatea testului.
( )
NB
P este probabilitatea ca un sntos s fie catalogat negativ de
ctre test i se numete specificitatea testului.
I. Elemente de teoria probabilitatilor Campuri de probabilitate

10
Problema devine teribil de important dac, de exemplu, este vorba
de un test de depistare a cancerului
I. Elemente de teoria probabilitatilor Variabile aleatoare

11
1.2.VARIABILE ALEATOARE

1.2.1. Definiii:
a) Se numete variabil aleatoare (ntmpltoare sau statistic) o
funcie real f definit pe mulimea K a evenimentelor, cu proprietatea c,
oricare ar fi numrul real a, mulimea x K pentru care
( )
f x a este un
eveniment din K .
n termeni de teoria msurii, o variabil aleatoare este o funcie
( ) ( )
: , , , f E K P R B , msurabil.
Practic vorbind avem definit probabilitatea ca variabila s aib valori
mai mici dect orice numr dat a.

b) O variabil aleatoare se numete variabil aleatoare simpl dac ia
un numr finit de valori:
: f E R ,
( )
f E finit i
( ) ( ) ( ) ( )
1
i i
P f x x P f x p

i
= = =

c) Vom lucra, n cele ce urmeaz, ca regul, cu variabile aleatoare
independente, adic variabile ce iau valori independente una de cealalt:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
j i j i
y y g P x x f P y y g x x f P = = = = = * ,
j i
y x ,

1.2.2. Operatii cu variabile aleatoare:
Se poate verifica uor c variabilele aleatoare formeaz o algebr, adic
suma, i produsul a dou variabile aleatoare este tot o variabil aleatoare;
mai mult compunerea a dou variabile aleatoare este tot o variabil
aleatoare.
Trebuie n acest context s fim ateni la independena sau
nonindependena variabilelor aleatoare implicate n operaie.
De exemplu putem citi X+X unde X este o variabil aleatoare n dou
feluri. Putem, de exemplu, s considerm un experiment repetat de dou ori
rezultatele fiind independente

4
1
2
1
4 3
4
1
2
2
1
2
1
2 1
2
1
2
1
2 1
,
n timp ce, dac considerm c X i X nu iau valori independent, atunci
2 4
2
1 1
2 2
X X X


+ = =



I. Elemente de teoria probabilitatilor Variabile aleatoare

12
Putem reprezenta grafic aceste probabiliti.
De exemplu,
1 2 3
1 1 1
4 2 4
X

apare sub forma



Fig. 2 Reprezentarea grafica a
probabilitatilor
Fig. 3

Curba cumulativ a distribuiei


1.2.3. Functia de repartitie
Funcia de repartiie asociat lui f este funcia
( )
F x ,
[ ]
: 0, F 1
definit de formula:
( ) ( ) ( ) ( )
1
, F x P f x P f x

= =
Importana acestei funcii const n faptul c, dac
( )
F x este dat se
poate determina probabilitatea ca f s ia valori ntr-un interval I ,
oricare ar fi acel interval.
n cazul n care f ia un numr finit de valori, de exemplu { } 3 , 2 , 1 , cnd
cunoatem ( ) 3 , 2 , 1 = k k f P , cunoatem practic i ( ) 3 , 2 , 1 = = k k f P .
ntr-adevr, ( ) ( ) 2 1 = = f P f P
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 * 3 2 * 3 2 3 2 = = = = f P f P f P f P f f P f P
( ) ( ) ( ) 2 1 1 3 = = = = f P f P f P
Ca regul general:
( ) ( ) ( )
1 1 P f k P f k P f k = = +
Deci am determinat o distribuie de probabilitate care poate fi
reprezentat sub forma unei matrici:
( )

= =
3 2 1
3 2 1
p p p
k f P

I. Elemente de teoria probabilitatilor Variabile aleatoare

13
1.2.3.1.Proprieti
Funcia de repartiie are urmtoarele proprieti:
a)
( ) ( )
a b F a F b b) ( )
lim 0
a
F a

=
c) ( )
lim 1
a
F a
+
=
d) este continu la stnga. F


1.2.3.2. Dac este continu spunem c F f este variabil aleatoare
continu.
n acest caz, probabilitatea ca f s ia orice valoare particular este 0

( ) ( )
, 0 P f x = =

1.2.3.3. Exemplu :
Dac ne punem problema probabilitii ca temperatura n camer s fie t
=20,347562 aceasta este evident zero i de fapt problema nici nu are sens
n msura n care temperatura este o valoare medie n jurul creia avem
fluctuaii continue. Dac ne punem problema ca temperatura s fie ntr-un
anumit interval noiunea de funcie de repartiie capt un coninut concret.


1.2.4. Densitatea de repartitie
Fie funcia de repartiie a unei variabile aleatoare . Dac exist o
funcie
( )
F x
( )
x , integrabil pe intervalul ( ) + , , cu proprietatea c pentru
orice este verificat egalitatea: x
( )
F
x
x


atunci,
( )
x se numete densitatea de repartiie sau densitatea de
probabilitate a variabilei aleatoare ,
n acest caz, probabilitatea ca variabila aleatoare s ia valori ntr-un
interval
(
este dat de formula:
)
t

, a
( ) ( ) ( ) ( )
a
P x a F a t d

= =

i respectiv:
( ) ( ) ( ) ( ) ( ) ( ) ( )
a b a
b
P b x a F a F b t dt t dt t dt

= = =





I. Elemente de teoria probabilitatilor Variabile aleatoare

14
1.2.5. Valoarea medie
Se numete valoare medie (sau speran matematic) a unei valori
aleatoare f, numrul
( )
i i M f x =

p , atunci cnd este o variabil aleatoare simpl i,


respectiv
( ) ( )
M f x x
+

dx , atunci cnd este o variabil aleatoare continu,


cu densitatea de probabilitate .
n literatur, operatorul de medie se mai noteaz i cu E, de la
expectation speran n englez.
n cazul variabilelor simple se observ c valoarea medie a variabilei f
este media ponderat a valorilor sale x
i
, cu ponderile p
i
, care reprezint
frecvenele de apariie ale valorilor respective.

1.2.5.1.Proprieti ale mediei:
Dac f i g sunt independente, atunci avem:
a)
( ) ( )
M af aM f =
b)
( ) ( ) ( )
M f g M f M g + = +
c)
( ) ( ) ( )
* * M f g M f M g =
Vom schia o demonstraie a proprietii b):
( ) ( )( )
( )
( )
( )
( )
,
k l k l
k l
k l k k l
k l l k
M f g P F G x x
P F G x P F G x
+ = + =
= + l



Dar, pe de alt parte, folosind proprietile interseciilor i
reuniunilor de mulimi, respectiv distributivitatea interseciei fa de
reuniune i a interseciei fa de reuniune, i faptul c l
l
G E =

avem
( )
( ) ( )
( )
k l l
k k
l l
P F G P F G P F = =




i similar,
( ) ( )
k l l
k
P F G P G =


Deci,
( ) ( ) ( ) ( ) ( )
k l
k l
k l
M f g P F x P G x M f M g + = + = +






I. Elemente de teoria probabilitatilor Variabile aleatoare

15
1.2.5.2. Definitie:
a) Noiunea de medie se generalizeaz, definindu-se momentul de ordin k al
unei variabile aleatoare:

i i
( )
k
k
M f = x p

, atunci cnd este o variabil aleatoare simpl i


respectiv,
( ) ( )
k
k
M f x x dx , atunci cnd este o variabil aleatoare
continu.
+

b) Se numete moment centrat de ordin k al variabilei aleatoare f momentul


de ordinul k al abaterii sale fa de medie.
( ) ( )
i
k
f i
c
k
p x f M

=
i respectiv, ,n cazul unei variabile aleatoare
continue.
( ) [ ] ( )dx x f M x
k
c
k


+

=
Dispersia de selecie, sau varianta unui ir de rezultate numerice ale
unui experiment este media aritmetic a ptratelor abaterilor acestor valori
fa de media lor aritmetic X .
Dac
1 2
, ,...,
n
x x x sunt cele valori ale seriei, dispersia de selecie a
acestora, , este:
n
2
X
s
( )
2
2
i
X
x X
s
n

=


Dup cum vom vedea mai departe la statistic, o formul mai util
pentru dispersia de selecie este:
( )
2
2
1
i
X
x X
s
n

=


Dispersia de selectie este indicatorul principal al mprtierii datelor
unui experiment.
Dispersia unei variabile aleatoare este conceptul ce generalizeaz
dispersia de selecie.








I. Elemente de teoria probabilitatilor Variabile aleatoare

16
1.2.6. Dispersia
Dispersia variabilei aleatoare X se noteaz cu
( )
D X sau
2
i este, n
particular, momentul centrat de ordinul doi:
, atunci
cnd variabila aleatoare este continua, i respectiv
( ) ( ) ( ) ( ) ( ) ( )
2
2
2
D X M X M X x M X x dx
+


= = =



i
( ) ( ) ( )
2 2
2
i X
M X M X x

= =


p , atunci cnd variabila
aleatoare este discret.
Rdcina ptrat a dispersiei, , se numete abaterea medie ptratic a
variabilei X, iar s
x
abaterea standard.

1.2.6.1.Proprieti
a) Pentru orice variabil aleatoare X i orice constante a i b
( ) ( )
2
D aX b a D X + =
b) Dac X, Y sunt dou variabile aleatoare independente
( ) ( ) ( )
D X Y D X D Y + = +
Demonstraie:
Pentru orice dou variabile aleatoare X i , cu mediile Y
X
i
respectiv
Y
, avem
( ) ( ) ( ) ( )
( )( ) ( ) ( ) ( )( )
2 2
2 2
X Y X Y
X Y X
D X Y M X Y M X M Y
M X Y D X D Y M X Y


+ = + = + +
+ = + +

2
Y

Dar, atunci cnd X i Y sunt independente
( )
X Y
M XY = ,
( )( ) ( )
0
X Y Y X X Y
X Y X Y X Y X Y
M X Y M XY X Y

= +

= + =
=

( )( )
0
X Y
M X Y

= i deci
( ) ( ) ( )
D X Y D X D Y + = +

c) ntre dispersie, valoarea medie i momentul de ordinul doi exist
relaia:
( ) ( ) ( ) ( )
2
2
D f M f M f =
Demonstraie:
I. Elemente de teoria probabilitatilor Variabile aleatoare

17
=
( ) ( )
( ) ( ) ( ) ( )
2
2 2
2
2 2 2 2
2
2
i X i i i i X i X i
X X
D X x p x p x p p
M f M f M f


= = +
= + =



1.2.6.2.Observaie
Dac numim
( )
2
M f media ptratului si
( ) ( )
2
M f ptratul
mediei formula capt o formulare uor de reinut:Dispersia este egal cu
media ptratului, minus ptratul mediei.
Relaia se mai poate scrie sub forma
( )
2 2
X
M X
2
X
= + i am putea
s-o numim teorema lui Pitagora n probabilitate.

1.2.6.3.Exemplu
n modelul clasic al urnei cu bile pe care l-am prezentat mai sus,
probabilitatea evenimentului din n bile extrase, k sunt albe era
k n k k
n k
q p C p

= .
Media variabilei aleatore X care da numrul de bile albe din bile
extrase va fi, prin definiie,
n
( )
k k n k
n
M X kC p q

=


Pentru a calcula aceast sum considerm urmtoarea identitate
( )
n
k k k n k
n
pt q C p t q

+ =

, pe care o derivm n raport cu t


( )
( )
( )
n
k k k n k
n
pt q C p t q


+ =


( )
1
1
n
k k k n k
n
np pt q C p kt q


+ =

i apoi facem
1 t =
k k n k
n
np C p kq

=


Am obinut, deci,
( )
M X np =
Folosind aceiai identitate, dar derivnd de dou ori se arat c:
( )
D X np = q.
Cunoaterea mediei i dispersiei unei variabile aleatoare d o
indicaie asupra intervalului n care se afl valorile variabilei, cu cea mai
mare probabilitate. Mai exact, dup cum arat teorema urmtoare, cu ct ne
ndeprtm mai mult de valoarea medie, cu att valorile respective sunt mai
puin probabile ca valori ale variabilei date.


I. Elemente de teoria probabilitatilor Variabile aleatoare

18
1.2.7. Inegalitatea lui Cebev

Dac
2
este dispersia variabilei aleatoare X , probabilitatea ca
modulul abaterii sale de la valoarea medie s ia valori mai mari dect un
numr 0 este mai mic dect
2
2

.
( )
2
2
P x m



Demonstraie:
Pornim de la definiia dispersiei ( ) [ ] ( )
i i i
p m x m x M
2
2
2

= =
i mprim suma n doi termeni: unul corespunztor valorilor pentru care
i
x
m x
i
i unul corespunztor valorilor lui pentru care
i
x
i
x m .

( ) ( ) ( )
2 2
2
i i
i i i i i i
x m x m
2
x m p x m p x m p


= = +


Dac neglijm primul termen al sumei i minorm m x
i

nlocuindu-l cu n al doilea termen, se obine
( )
n
i
k k k
m x
i
p p p p + + + =


...
2 1
2 2 2

,
cu
n
k k k
p p p + + + ...
2 1
suma probabilitilor valorilor pentru care
i
k
x
m x
i
k
.
Dar
( )
1 2
...
n
k k k
p p p P x m + + + = i deci am obinut
( )
2 2
P x m ceea ce implic urmtoarea relaie:
( )
2
2
P x m

.
Deoarece suma ntre probabilitatea unui eveniment A i
probabilitatea evenimentului contrar CA este 1, avem
( ) (
1 P CA P A =
)
i
inegalitatea se mai poate scrie sub forma
( )
2
2
1
i
P x m





I. Elemente de teoria probabilitatilor Variabile aleatoare

19
1.2.7.1.Exemplu:

Fie 3 = , atunci inegalitatea Cebev d:
( ) 88 . 0
9
8
9
1
1 3 = = = m x P
i

Exprimat n cuvinte, aceast inegalitate aparent banal, spune din
punct de vedere fenomenologic, enorm de mult:

Probabilitatea ca orice variabil aleatoare s ia valori mai
ndeprtate de valoarea sa medie dect de trei valori standard, este mai
mic dect 0,12.

Vom vedea mai departe c, n cazul n care variabila aleatoare are
suplimentar unele proprieti de regularitate, aceast probabilitate este chiar
mult mai mic.
Aceiai inegalitate ne permite nelegerea legturii ntre frecvena i
probabilitate, legtura care exprim nsi fundamentarea statisticii pe teoria
probabilitilor.
S considerm variabila aleatoare care d numrul de bile albe ntr-o
extracie de n bile din urn. Pentru aceast variabil avem urmtoarea
teorem, care se generalizeaz n teoria probabilitilor n forme care
depesc ns cadrul acestei lucrri.


1.2.8. Teorema lui Bernoulli (legea numerelor mari):

Dac se noteaz cu p probabilitatea ca un eveniment A (de exemplu
apariia bilei albe) s se realizeze ntr-un experiment i
n
k
f
n
= este
frecvena cu care se realizeaz evenimentul A n n experimente identice
consecutive, irul
( )
n
f converge ctre n probabilitate. p
Altfel spus:

Frecvena experimentala tinde n probabilitate la probabilitatea teoretic.





I. Elemente de teoria probabilitatilor Variabile aleatoare

20
Demonstraie:
( ) ( ) ( ) n k M k P n np k P p
n
k
P
n n n
= =



lim lim lim
Dar, aplicnd inegalitatea lui Cebev: ( ) ( )
2 2
2

n
n k M k P i deci
0 lim lim
2 2
2
=

n
p
n
k
P
n n

Teorema lui Bernoulli afirm numai c inegalitatea p f
n
nu
are ansa s fie realizat sau c inegalitatea
n
f p are anse mari s fie
ndeplinit dac n este suficient de mare
I. Elemente de teoria probabilitatilor Distributii de probabilitate

21
1.3. DISTRIBUII DE PROBABILITATE

1.3.1. Distribuia normal
Spunem c o variabil aleatoare este normal repartizat ( )
2
, m N ,
atunci cnd densitatea sa de probabilitate este data de formula:
( )
( )
2
2
2
2
1
, ,



m x
e m x

=
O prim condiie ca ( ) x s fie distribuie de probabilitate este aceea
c
( ) ( ) ( ) 1 = + =

+

t f P dx x
Pentru a verifica aceast condiie, vom demonstra mai intai, folosind
integrala dubl, ca:
2
2
2
=

dx e
x

Fie
2 2
2 2
0 0
x y
I e dx e dy
+ +
= =

,
2 2 2 2
2
2 2 2
0 0
*
x y x y
D
I e dx e dy e dxdy
+
+ +
= =


Facem schimabarea de variabila: cos x = si sin y = unde
( )
0 , si 0 ,
2



.
Vom obtine:
2 2 2
2
2 2 2 2
0 0 0
0 2 2
I e d d e d e

2


+ + +
= = =

=
Am obtinut ca
2
2
I

=
2
2 2
I

= =
Dar,
2 2
2 2
0
2
2* 2* 2* 2
2
x x
e dx e dx I


+ +

= = = =


n cazul nostru, dac facem schimbarea de variabil

m x
u

= avem
( )
( )
1
2
1
2
1
2 2
2
2
2
= = =

+

+

+

du e dx e dx x
u m x



I. Elemente de teoria probabilitatilor Distributii de probabilitate

22
Vom arta n continuare c o variabil aleatoare normal repartizat
are media m i dispersia .
2

S calculm mai nti media:


[ ]
( )
( )
( )
( )
m m m du ue m dx e
m x
dx e m m x dx xe X M
u
m x
m x m x
= + = + = +

=
= + = =


+

+

0
2
1
2
1
2
1
2
1
2
2
2
1
2 2
2
2
2
2
2
2



Integrala este nul deoarece funcia de integrat este impar.
Pentru calculul dispersiei ne folosim de identitatea:
( ) ( ) ( ) ( )
2 2
2
D X M X M X M X M X = =


( )
( )
( ) = + = =
+

+


du e u m dx e x X M
u
m x


2
2
2
2 2
2
2
2
2
1
2
1

=

+ + =

+


du e u e u m e m
u u u
2
2 2
2 2
2
2 2 2
2
2
1


2
2 2 2
2
1
2
2
u
m u e


= +


du

Calculm separat integrala rmas i obinem:
2 2 2 2
2
2 2 2 2
1* 2
u u u u
u e du u ue du ue e du
+

+ + +


= = =





unde am integrat prin pri, lund = u i =

2
2
u
ue
Deci am obinut ( ) ( )

2 2
2
1
2 2 2
+ = m X M i nlocuind n
expresia lui ( ) X D obinem:
( ) ( )
2 2 2 2
2 2
2
1

= + = m m X D
Pornind de la proprietile operatorilor de medie i dispersie
( ) ( ) m X M m X M =
( ) ( ) X D m X D = i
I. Elemente de teoria probabilitatilor Distributii de probabilitate

23
( ) X D
a a
X
D
2
1
=


se obine c, dac o variabil aleatoare este normal repartizat ( ) , m N ,
variabila aleatoare redus

m X
este repartizat ( ) 1 , 0 N , deci cu distribuia
de probabilitate
( )
2
2
x
e x

=
Funcia de repartiie asociat este funcia ( ) dx e t
t
x

=
2
2
numit
funcia lui Laplace i ale crei valori se gsesc n tabelele din practic toate
crile de statistic i probabiliti.




1.3.2. Distribuie binomial
Distribuia binomial apare, aa cum s-a artat mai sus, la descrierea
evenimentelor asociate extraciilor dintr-o urn cu bile albe i bile negre.
Distribuia variabilei aleatoare numrul de bile albe din n bile
extrase se poate reprezenta i sub form matricial:

=
0 1 1 1 0 0
... ...
1 0
q p C
n
q p C
k
q p C q p C
X
n k
n
k n k k
n
n
n
n
n

Dup cum am artat media i dispersia unei variabile aleatoare
repartizate binomial sunt np M = si npq D =

Repartiia binomial apare ntotdeauna atunci cnd un experiment cu
numai dou rspunsuri posibile se repet de n ori. Un caz particular l
prezint experimentele care se repet de un numr foarte mare de ori, iar
evenimentul n a crui apariie suntem interesai are o probabilitate foarte
mic, categorisit uzual ca eveniment rar.

La limit, cnd n , , dar rmne constant, 0 p np = np ,
se obine distribuia Poisson.



I. Elemente de teoria probabilitatilor Distributii de probabilitate

24
1.3.3. Distribuia POISSON
Considerm deci c = np i trecem la limit dup n

( ) ( )
=


+
=


k n
k
k
n
k n k k
n n
n n k
k n n n
q p C

1
!
1 ... 1
lim lim
( ) ( )
1 ... 1
1
*lim lim 1
!
n k
k
n n
k
n n n k
k n


+

=



dar
( ) ( )
1
1 ... 1
lim =
+

k
n
n
k n n n
i
( )

e
n n
n
k n
n
n
k n
n
1 lim 1 lim i deci,



= e
k
q p C
k
k n k k
n n
!
lim
Deci, distribuia Poisson este dat de matricea

=


e
n
n
e
k
k
e e
X
n k
!
...
!
...
! 1
1 0

Calculnd, dup definiie, media i dispersia unei variabile aleatoare
distribuite Poisson i innd cont c

e
k
k
k
=

0
!
,

e
k
k
k
k
=

0
!
, ( )

e
k
k k
k
k
2
2
!
1 =

e
k
k
k
k
=

1
!
se obine

( )
( ) ( )

= =

= =


1
1
1 0
! 1 ! 1 !
k
k
k
k
k
k
e e
k
e
k
e
k
e
k X M

( )
( )
( ) [ ] ( )
( )





= + =
=

+ =

+ =
=

+ =



2 2
2
2 1 1
2
0 0 0
2
2
0
2
! !
1
!
1
! !
2
! !
e e e
k
k
k
k k e e
k
k k k e
k k
k
k
k
e
k
k
e X D
k k
k k
k
k
k k k
k k k
k
k

I. Elemente de teoria probabilitatilor Distributii de probabilitate

25
1.3.3.1. Exemplu:
Numrul evenimentelor adverse la un medicament dat este repartizat
Poisson.
Cel mai mult este utilizat distribuia Poisson n fizica statistic.


1.3.4. Aproximarea normal a distribuiei binomiale
Ca o regul general, dac np i nq sunt mai mari sau egale cu 5,
poate fi folosit aproximarea normal. Pentru distribuiile binomiale n care
p<0,5 aproximarea este bun pentru valori ale lui np i nq mai mici dect 5.
n aceste condiii,
n
pq
p
n
k
npq
np k

=

este aproximativ normal distribuit cu


media 0 i deviaia standard 1.
Aceast transformare nlesnete de obicei calculul probabilitilor
binomiale.

1.3.5. Repartitia
2
Helmert - Pearson
Se consider n observaii independente x
1
, x
2
, , x
n
(variabile
aleatoare independente) normal distribuite
( )
2
, N m .

Variabilele standard
i
i
x m
u

= , n i , 1 = sunt de asemenea
independente, iar suma ptratelor lor va avea o distributie ce poate fi
determinat.
Se definete

=
n
i
u X
1
2
.
Distribuia variabilei X rezultate se noteaz
2
(n) i este diferit
pentru fiecare valoare a lui n, iar parametru n se definete ca numrul de
gradelor de libertate.
Vom determina n continuare parametrii (media i dispersia) unei
variabile distribuite
2
.
Pentru a afla media distributiei
2
este necesar aflarea lui [ ]
2
i
u M .
Deoarece [ ] 0 =
i
u M ,
( ) ( ) ( ) [ ]
2
2 2
1
i i i i
M u M u M u D u = =

=
Ca urmare ( )
2 2 2
1 1
*1
n n
i i
M n M u M u n

n = = =



=
Dispersia va fi:
I. Elemente de teoria probabilitatilor Distributii de probabilitate

26
( )
( ) ( ) ( ) ( )
2 2 2
1 1
2
2 4 2 4
1
n n
i i
i i i i
D n D u D u
nD u n M u M u n M u


= = =




= = =






Pentru a obine [ ]
4
i
u M se folosete regula integrrii prin pri:
( ) ( ) ( ) ( ) ( ) ( )dx x g x f x g x f dx x g x f

=
n acest caz se va identific:
( ) ( )
( ) ( )
2 2
2 3
2 2
3
u u
ue x g e x g
u x f u x f

= =
= =
, deci se va obine:
( )
2 2
2 2 2
4 4 4 3
2 2
3 2 2
2 2 2
1 1
2 2
1 1 1
3 3 3
2 2 2
u u
i
u u u
M u u u du u e du u ue du
u e u e du u e du M u



+ + +

+
+ +

= = = =



2
3 = =






=

Atunci,
[ ] [ ] [ ] ( ) ( ) 2 1 3
2 2
4 2
= = =
i i i
u M u M u D
i substituind n relaia de mai sus se va obine
( )
2 2
2
i
D n nD u = =

n
Deci variabila este repartizat
2
(n), cu n
grade de libertate, avnd:
2 2
2
2
1
2
...
n
x x x x + + + =
media
( )
2
E n = , respectiv
dispersia
( )
2
2 D n = .
Se poate arta c densitatea de probabilitate este dat de funcia
( ) ( )
2
1
2 2
2 2
2
1
2
2
n
n
f e
n



,
unde este funcia Euler de spea I-a studiat la cursul de matematic i
anume : .

( )
1
0
t
e t dt

+

=

Repartitia se folosete foarte mult n statistica matematic n


verificarea ipotezelor asupra egalitii dispersiilor.
2



I. Elemente de teoria probabilitatilor Distributii de probabilitate

27
1.3.6. Repatiia STUDENT

Analog cu distribuia , repartiia t a fost propus de Student
(pseudonimul lui W.S.Gosset, chimist statistician englez), pentru statistica
seleciilor mici i exprim deviaiile mediilor de selecie
2

x , fa de media
ntregii populaii , msurate n
n
s
(abaterea standard a mediilor de
selecie).
Dac sunt date dou variabile aleatoare ( ) 1 , 0 N Z si
independente, se spune c variabila
( ) n V
2

( )
n
Z
T T
V
n
= n
este repartizat Student cu n grade de libertate.
Mrimea t nu depinde dect de numrul gradelor de libertate.
Distribuia de probabilitate a unei variabile aleatoare repartizate
Student tinde pentru n , la distribuia normal ( )
2
2
2
1
t
e t


Densitatea de probabilitate este dat de funcia:
( )
1
2
2
1
1 2
* * 1
2
n
n
x
f x
n n
n
+



+ unde x R i n N .












I. Elemente de teoria probabilitatilor Distributii de probabilitate

28
1.3.7. Repartiia F (Behrens - Fisher Snedecor) a raportului a
dou dispersii

Se consider frecvent n statistic raportul a dou dispersii care
estimeaz aceeai dispersie general a unei colectiviti. Dintr-o
colectivitate general se extrag dou selecii ( )
1
2
n U , . ( )
2
2
n V

Raportul lor este o variabil aleatoare repartizat F
( )
2 1
2
1
, n n F
n
V
n
U
F =

Examinnd acest raport se observ c el nu conine dispersia
colectivitii generale
2
, de unde rezult c distribuia acestui raport nu
depinde dect de numrul gradelor de libertate si ale celor dou
dispersii.
1
n
2
n

Densitatea de probabilitate este dat de funcia:
( )
1 1
1
2
1 2
2 2 1
1 1
1 2 2 2
2
* * * 1 *
*
2 2
n n
n
n
n n
n n
f x x x
n n n n
+




= +






2
n
,
cnd 0 x .
II. Statistica matematica si biostatistica Teorema limita centrala

29

II. STATISTIC MATEMATIC I BIOSTATISTIC

Statistica matematic este principala aplicaie a teoriei
probabilitilor. Procedeele statistice constau, n esen, n elaborarea unor
concluzii plauzibile privitoare la colectiviti mari de fenomene, pe baza
cunoaterii unui numr restrns dintre acestea i extrapolrii rezultatelor.
Legile care stau la baza statisticii i care permit aceste generalizri
sunt teorema limit central i legea numerelor mari.
ntr-o exprimare intuitiv, avem rezultatul c, dac o variabil
aleatoare este suma unui numr mare de variabile aleatoare
independente, fiecare variabil aleatoare avnd o pondere mic n sum,
atunci funcia de repartiie a variabilei aleatoare este foarte apropiat de o
funcie de repartiie normal.
Exprimat mai riguros i mai general, avem urmtoarea teorem:


2.1. Teorema limit central (A.M.Leapunov)

Fie
n
,..., ,
2 1
variabile aleatoare independente.
Fie
( ) ( )
2
,
k k k
M a D
k
= = i ( )
3
3
k k k
a M = cnd n k , 1 =
Notm
( )
=
n
i n
1
2 2
,
( )
=
n
i n
1
3 3

Dac
( )
( )
0 lim =

n
n
n

, atunci funcia de repartiie a variabilei



( )
( ) n
n n
a a a

+ + + + + + ... ...
2 1 2 1

tinde, cnd n , ctre funcia ( ) x a lui Laplace.
( ) dt e x
x t

=
2
2
2
1


Teorema limit central este teorema fundamental a teoriei erorilor.
Laplace, Gauss i ali matematicieni, studiind repartiia erorilor, au ajuns la
concluzia c funcia de repartiie normal poate fi luat drept model teoretic
pentru cercetarea probabilistic a aproape tuturor fenomenelor naturii.



II. Statistica matematica si biostatistica Teorema limita centrala

30
2.2. Teorema lui Cebev
Dac
n
,..., ,
2 1
sunt variabile aleatoare (discrete sau continue)
independente ale cror dispersii sunt mai mici dect o constant C, atunci
oricare ar fi numrul pozitiv , probabilitatea inegalitii

( ) ( ) ( )
1 2
1 2
...
...
n
n
M M M
n n



+ + +
+ + +

tinde ctre 1, atunci cnd numrul variabilelor aleatoare tinde ctre infinit.
Demonstraie:
S considerm variabila aleatoare
n
n

+ + +
=
...
2 1
. Avnd n
vedere liniaritatea operatorului de calcul a mediei avem
( )
( ) ( ) ( )
1 2
...
n
M M M
M
n

+ + +
= .
Aplicnd inegalitatea lui Cebev variabilei aleatoare se obine:
( ) ( ) ( )
1 2
1 2
1 2
2
...
...
...
1
n
n
n
D
M M M
n
P

n n


+ + +



+ + +
+ + +






Mai departe, din proprietile operatorului D
( ) ( ) ( )
n
C
n
nC
n
C C C
n
D D D
n
D
n n
= =
+ + +

+ + +
=

+ + +
2 2 2
2 1 2 1
... ... ...

Deci

( ) ( ) ( )
1 2
1 2
2
...
...
1
n
n
M M M
C
P
n n



n

+ + +
+ + +





Trecnd la limita pentru n obinem
( ) ( ) ( )
1 2
1 2
...
...
lim 1
n
n
n
M M M
P
n n



+ + +
+ + +





i cum probabilitatea nu poate depi 1,
( ) ( ) ( )
1 2
1 2
...
...
lim 1
n
n
n
M M M
P
n n



+ + +
+ + +
=




II. Statistica matematica si biostatistica Teorema limita centrala

31
Cel mai frecvent, n practic, variabilele aleatoare
i
au aceiai medie i
concluzia teoremei devine
1
...
lim
2 1
=


+ + +



n
P
n
n

n esen, teorema lui Cebev stabilete c, dei variabilele
aleatoare independente pot lua valori ndeprtate fa de mediile lor, media
aritmetic a unui numr suficient de mare de astfel de variabile aleatoare ia
cel mai probabil valori apropiate de un numr constant
( ) ( ) ( )
1 2
...
n
M M M
n
+ + +
(sau atunci cnd mediile variabilelor sunt
egale ntre ele).
Ca urmare, ntre comportarea fiecrei variabile aleatoare i
comportarea mediilor lor exist diferen esenial. Putem spune foarte
precis ce valoare va lua media aritmetic a acestor variabile aleatoare.
Explicaia acestui fapt const n aceea c abaterile diverselor variabile
aleatoare sunt de semne diferite i, ca urmare, se compenseaz ntre ele.

2.3. Metoda verosimilitatii maxime
Metoda verosimilitatii maxime da ca estimatie a parametrului
aceea valoare

care face maxima functia de verosimilitate.


Valoarea lui care maximizeaza functia de verosimilitate
maximizeaza si logaritmul functiei de verosimilitate.
Astfel estimatia de verosimilitate maxima (EVM) este o valoare a lui
care maximizeaza functia de verosimilitate si logaritmul functiei de
verosimilitate. In cele mai multe probleme cu un singur parametru
necunoscut, multimea valorilor parametrului :
( )
H este un interval al
dreptei reale. Derivatele
( )
ln , P x

si
( )
2
2
ln , P x


vor exista in toate punctele interioare ale multimii
( )
H
EVM se gaseste ca radacina a ecuatiei de verosimilitate
( )
ln ,
0
P x


O radacina a ecuatiei de verosimilitate in care
( )
2
2
ln ,
0
P x

este
un punct de maxim relativ.
II. Statistica matematica si biostatistica Teorema limita centrala

32
Printre radacinile ecuatiei de verosimilitate pot aparea si puncte de
minim relativ. Asrfel este necesar sa determinam semnul derivatei de
ordinul doi sau sa se verifice daca radacina obtinuta este un maxim relativ.
Apar situatii in care

nu poate fi obtinut rezolvand ecuatia de


verosimilitate. De exemplu, maximul global al functiei de verosimilitate
poate sa se realizeze pe frontiera spatiului parametrilor
( )
H

Aplicatie:
Fie
1 2
, ,...,
n
X X X variabile aleatoare independente (si identic
repartizate) binare cu
( ) ( )
1
1 0 P X p = = = , 1 .
Cand
( ) ( )
1 2 1 2
, ,..., , ,...,
n
X X X x x x =
n
este observata, functia de
verosimilitate este:
( ) ( ) ( )
( )
1 1
1
1 1
i
i
n
x n x
x nx
i
l p p p p p

=
= =

, unde
1
n
i
i
x x
=
=

.
Pentru a gasi EVM pentru parametrul , trebuie sa determinam
maximul functiei
p
( )
l p sau echivalent al functiei de log verosimilitate care
este
( ) ( )
ln L p l p = .
Se observa ca
( )
1
0
1
n x
L nx
p p p

= =


are ca unica solutie
( )
0 , 1 p x = (pentru
{ }
0 , 1 x se poate verifica separat
ca unicul punct critic al lui L este tot p x = ).
Cum

( )
( )
2
2 2 2
1
0
1
n x
L nx
p p
p



putem concluziona ca p x = este unicul punct de maxim al lui L , si prin
urmare x este unicul EVM pentru p.





II. Statistica matematica si biostatistica Teorema limita centrala

33
Aplicatie:

Fie
1 2
, ,...,
n
X X X variabile aleatoare independente, identic
repartizate cu repartitia normala
( )
2
, N , unde

( ) ( )
2
, 0 = = ,
sunt parametri necunoscuti, iar . 2 n
Pentru o observatie
( ) ( )
1 2 1 2
, ,..., , ,...,
n
X X X x x x =
n
, functia de log-
verosimilitate este:
( ) ( ) ( ) ( )
2
2
2
1
1
ln ln ln 2
2 2 2
n
i
i
n n
L l x

=
= =


dat fiind ca, in acest caz,
( )
( )
2
2
2
1
2
x
f x e

=
Rezolvand din nou o problema standard de extrem (pentru functia de
2 variabile L ), gasim ca unicul punct de maxim al lui L , si deci unicul
EVM pentru
( )
2
, = este dat de:

1
1
n
i
i
x x
n

=
= =

;

( )
2
2
1
1
n
i
i
x x
n

=
=


Astfel gasim o proprietate specifica repartitiei normale: media si
abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate
maxima (EVM-uri) pentru media si dispersia populatiei.


Aplicatie:

In multe teste de laborator se iau probe din apa unui rau pentru a se
vedea daca apa este buna pentru inot. In particular prezinta interes
concentratia in bacterii coliform a apei. Numarul de bacterii coliform este
determinat pentru fiecare din cele n probe din apa raului. S-a obtinut
rezultatele
1 2
, ,...,
n
x x x . Problema care se pune este de estima pe , media
numarului de bacterii coliform in unitatea de volum a apei raului.
Presupunem ca bacteriile sunt dispersate la intamplare in apa raului
si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. Atunci
probabilitatea de a gasi
i
x bacterii intr-o proba de volum unitate este data de
repartitia Poisson:
II. Statistica matematica si biostatistica Teorema limita centrala

34
( )
!
i
x
i
e
f x
x


= , unde 0,1, 2,...
i
x = si 0 .
Deoarece volumele disjuncte sunt independente, probabilitatea celor
n masuratori
1 2
, ,...,
n
x x x este
( ) ( )
1
1
,
!
i
x
n n
i
n
i
j
j
e
P x f x
x


=
=

= =


Avem:
ln ln
i
P x n =


( )
ln ,
1
i
P x
x n


si
( )
2
2 2
ln ,
1
i
P x
x



Daca , 0
i
x

( )
ln ,
0
P x

are solutia unica


1
i
x x
n
= =

.

In acest punct a doua derivata este negativa, ceea ce indica ca avem
un maxim relativ.
Deoarece
( )
, 0 0 P x = si
( )
, P x 0 cand , x este un
maxim absolut.

Daca 0
i
x =

, ecuatia
( )
ln ,
0
P x

nu are solutie si maximul


se realizeaza pe frontiera spatiului parametrilor:

0 = . Astfel, in fiecare
caz, avem

x = .

Probabilitatea variabilelor de selectie este maxima daca media
populatiei este estimata prin media de selectie x .

Observam ca

( ) ( )
( )
1 1
i
M M X M X n
n n
= = =

=
ceea ce arata ca x = este un estimator nedeplasat pentru .


II. Statistica matematica si biostatistica Teorema limita centrala

35

Observatie:

Cu ajutorul functiei de verosimilitate se construieste unul dintre cele
mai utilizate teste statistice pentru modele parametrice: testul raportului de
verosimilitate.




Definitie:
Fie X un esantion dintr-o populatie
{ }
k
P P

= ,
pentru care se considera urmatorul set de ipoteze :
0 0
: H vs.
1
:
A
H
unde si
0 1
=
0 1
= .

Se numeste test al raportului de verosimilitate LR
1,2
(Likelihood
ratio test) orice test care respinge ipoteza daca si numai daca
0
H
( ) [ ]
0 , 1 X c , unde:
( )
( )
( )
0
sup
sup
l
X
l

=













1
Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials,
Statistics in Medicine, 27 (2008), 4874 - 4894
2
Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST)
II. Statistica matematica si biostatistica Teorema limita centrala

36

2.4. TEORIA SELECIEI

2.4.1. Populaii i selecii. Inferena statistic

n practic avem adesea nevoie s facem judeci asupra unor mari
colecii de rezultate posibile experimental ori a altor cantiti, dar nu putem
sau este extrem de scump, s examinm toate aceste date. n astfel de cazuri,
n loc s examinm ntregul set de date pe care l numim n cele ce urmeaz
populaie, tragem concluziile dup examinarea a o parte din ele, alese la
ntmplare, parte pe care o numim selecie.
Procedeul de obinere a probelor este numit tot selecie, iar
procedeul de extrapolare a concluziilor la ntreaga populaie este cunoscut
ca inferena statistic.
Vom considera c o caracteristic dat a populaiei este o variabil
aleatoare pe un cmp de probabilitate ( ) P K, , n care elementele lui
sunt chiar elementele populaiei, iar P este o probabilitate cunoscut sau nu.
Enumerarea valorilor observate ale caracteristicii urmrite i a
frecvenelor lor relative definete repartiia statistic a seleciei.
Teorema lui Leapunov, numit i teorema fundamental a statisticii
matematice, care justific utilizarea metodei seleciei stabilete c funcia de
repartiie statistic a caracteristicilor seleciilor tinde la funcia teoretic de
repartiie a caracteristicii studiate cnd volmul seleciei tinde la .

2.4.1.1. Exemplu
Putem dori s tragem concluzii despre evoluia rezistentei unei
tulpini de germeni patologeni la un medicament dat i, n acest scop,
examinm rezultatele antibiogramelor fcute ntr-un eantion de spitale ntr-
o perioad recent (luniile de iarn), comparat cu aceeai perioad a anului
precedent. Dei rezultatele obinute se refer la spitale i mai precis numai
la o parte din ele, concluziile le extindem la scara ntregii populaii.

2.4.1.2. Exemplu
Rezultatele privind absorbia unui medicament dup administrarea
oral prin determinarea nivelurilor din plasma ale medicamentului la un lot
de voluntari sntoi le considerm ca rezultate probabile pentru ntreaga
populaie ce include i poteniali pacieni.
Populaia poate fi infinit sau finit, n ultimul caz, numrul
indivizilor populaiei N- se mai numete i volumul populaiei. n mod
II. Statistica matematica si biostatistica Teorema limita centrala

37
similar, numrul de indivizi sau valori din cadrul unei probe este denumit
volumul probei sau volumul eantionului.
Valabilitatea concluziilor despre populaie depinde de
reprezentativitatea probei. Pentru populaii finite aceasta nseamn c
fiecare membru al populaiei are aceeai ans s fie selectat, cnd spunem
c selecia este o selecie la ntmplare sau selecie aleatoare. Desigur c
selecia unor voluntari sntoi pentru determinarea parametrilor
farmacocinetici ai unui medicament nu este din acest punct de vedere o
selecie reprezentativ. n cazurile n care avem motive s credem c
patologia creia se adreseaz medicamentul nu afecteaz funciile
metabolice i de excreie, aceast aproximare este acceptat pentru motivul
c o selecie corect ar implica loturi mult mai mari cu cheltuieli i timp de
lucru mult crescute.
n practic, n studiile de bioechivalen, pentru reducerea volumului
loturilor pe care se fac testrile, se administreaz amndou medicamentele
la toi membri lotului, n dou perioade diferite. Fiecare component al
lotului primete unul din medicamente n prima perioad i cellalt n a
doua perioad.
Deoarece perioada de administrare poate influena i ea rezultatul
experimentului, alegerea indivizilor care vor primi n prima perioad primul
medicament se face n mod aleator. n cazul cnd sunt mai multe perioade,
de exemplu I-IV, i mai multe medicamente A, B, C, D se alctuiete un
tabel de felul urmator
Tabelul nr. 1:
I II III IV
A B D C
B C A D
C D B A
D A C B
aa zisul ptrat latin, unde observm c fiecare liter apare o singur dat
n fiecare linie i n fiecare coloan. Se numete ptrat latin deoarece, cum
se va arata mai departe, n cazul n care mai intervine i o alt variabil, de
exemplu doza din fiecare medicament, se folosesc i litere grecesti,
alctuindu-se ptrate greco-latine.
Deasemenea, studiile de bioechivalen se fac tot pe voluntari
sntoi, pornind de la ipoteza c modificrile de biodisponibilitate asociate
strilor patologice sunt aceleai pentru cele dou medicamente testate, ceea
ce, evident, este numai n parte adevrat.
n toate experimentele biologice, planificarea experimentului trebuie
fcut n aa fel nct diferenele n tratament s nu coincid cu diferene n
II. Statistica matematica si biostatistica Teorema limita centrala

38
vrst, sex, sau ali parametri. Dac, de exemplu, femeile din lot primesc
primul medicament i brbaii al doilea, se spune ca diferenele de sex sunt
confundate cu diferenele de tratament. n acest caz nu se poate spune
dac diferenele obinute se datoreaz tratamentului sau diferenei de sex.

2.4.1.3. Parametrii de selecie ai unei variabile aleatoare :
Dac printr-un procedeu oarecare cuantificm rspunsul culturilor
microbiene la antibioticele din exemplul 1, sau dac lum n consideraie
concentraiile de medicament n snge, din al doilea exemplu, i
probabilitile ca valorile s aparin unor intervale diferite, obinem o
variabil aleatoare X asociat cu rezultatul experimentului corespunztor.
Parametrii acestei variabile aletoare sunt denumii, prin abuz de
limbaj, parametri ai populaiei.
Dac n exemplul al doilea X
i
este concentraia de medicament n
sngele bolnavului i, la o or de la administrare, la primul voluntar putem
obine o valoare x
1
, pentru al doilea voluntar o valoare x
2
, etc. n acest fel
gsim valorile ale varibilelor aleatoare independente
.
n
x x x ,..., ,
2 1
n
X X X ,..., ,
2 1


2.4.2. Media de selecie este o variabil aleatoare:
n
X X X
X
n
+ + +
=
...
2 1

Dac distribuia lui X este normal - ( ) , N , aceiai pentru fiecare
i, datorit linearitii operatorului M care definete media, obinem
( )
X
M X = = adic valoarea pentru media mediei de selecie este media
populaiei.
Dac la datele experimentale se adaug o constant,
i i
X X a

= + ,
media de selecie crete cu aceeai constant:
( )
a X
n
a X
W
n
i
+ =
+
=

1

Similar, dac fiecare valoare se nmulete cu o constanta ,
media de selecie
i i
kX Z =
Z se nmulete cu aceeai contant: X k
n
kX
Z
n
i
= =

1




II. Statistica matematica si biostatistica Teorema limita centrala

39


2.4.3. Dispersia de selecie
Ca o msur a abaterii datelor fa de media de selecie, se introduce
noiunea de dispersie de selecie ( )
2
1
2
1
1

=
n
i X
X x
n
S .
n aplicaiile practice, pentru reducerea numrului de calcule,
formula se aduce la o alt form i anume:
( )
( )
( )

= +

=
=


n
n
i
i
n
i
n
i
n n
i i
n
i X
n
x
x
n
X n x
n
X n X n x
n
X n x X x
n
X x
n
s
1
2
1 2
2
1
2
1
2 2
2
1
2
1
2
1
2
2
1
1
1
1
2
1
1
2
1
1
1
1

Dac .
2 2
i i Z
z kx a s k s = + =
2
X
ntr-adevr
( ) ( )
2 2
2 2 2
1 1
1 1
1 1
n n
Z i i
s z Z kx a k X a
n n
= = + =

X
k s
X
s se numete abaterea standard de selecie sau deviaie standard, cnd nu
este pericol de confuzie privind variabila aleatoare la care se refer
folosindu-se i notaia .
d
s
Se mai utilizeaz n practic i noiunile:
Dispersiapopulaiei = ( )
2
1
1
1

n
i
X x
n
i respectiv
Deviaia standard a populaiei, precum i abaterea standard a
mediei (prescurtarea SEM standard error of mean) definit prin
raportul
X
s
M
n
= SE
precum i coeficientul de variatie *100
x
s
v
X
= .

2.4.4. Covarianta de selecie
Covarianta de selecie se definete prin formula
( )( ) Y y X x
n
s
i
n
i XY

=

1
1
1

II. Statistica matematica si biostatistica Teorema limita centrala

40
Se observ c aceasta se mai poate scrie i sub alt form, mai util
n sensul simplificrilor de calcul n anumite aplicaii.
( )
( )
( )

= +

=
= +


n
n n
i i
i i
n
i i
n
i i
n n n
i i i i XY
n
y x
y x
n
Y X n y x
n
Y X n Y X n Y X n y x
n
Y X n x Y y X y x
n
s
1
1 1
1
1
1 1 1
1
1
1
1
1
1
1
1


2.4.5. Coeficientul de corelaie de selecie
Coeficientul de corelaie de selecie se definete prin formula
( )
( )( )
( ) ( )
( )( )
( ) ( )
1
2 2
1 1
1
2 2
1 1
1
1
,
1 1
1 1
n
i i
XY
n n
X Y
i i
n
i i
n n
i i
x X y Y
s
n
x y
s s
x X y Y
n n
x X y Y
x X y Y

= = =



=




2.4.6. Proprieti ale caracteristicilor de selecie
Considerm n continuare o selecie de volum n dintr-o populaie cu
media si dispersia
2


2.4.6.1. Propoziie
Media mediei de selecie este egal cu media populaiei.
( )
M X =
Demonstraie:
( )
( ) ( )
i
i
M x
M x
n
M X
n n n

= = =



2.4.6.2. Propoziie
Media dispersiei de selecie este egal cu dispersia populaiei
( )
2 2
X
M s =
Demonstraie:
II. Statistica matematica si biostatistica Teorema limita centrala

41
( ) ( )
( )
( ) ( )
( )
2 2
2 2
1 1 1
2
2 2
2 2
1 1
2
1
2
1
1 1
2
1 1
1 1
2
1 1
1
1
n n n
X i i i
n n
i i
n
i
n
i
M s M x X M x X x x
n n
M x nX nX M x nX
n n
x
M x
n n

= = +



+ = =



=

1
n
=


Dar, mai departe
( )
( )
2 2
1
n
i
M x n
2
= +



( )
( )
( )
( ) ( )
( ) ( )
2
2
1
1 1
2
1
2 2 2 2 2 2
2
1
2
2
1
n n n
i i i
i j
n
i i
M x M x x x
n n
M x M x M x
n n n n n
j
j

= + =

= +
= + + = +

=
i nlocuind n expresia lui
( )
2
X
M s obinem
( )
( )
2 2 2 2
2 2
1
X
n n
M s
n

+
= =



2.4.6.3. Propoziie
Variabila aleatoare
n
x
Z


= tinde , cnd n ctre o variabil
( ) 1 , 0 N
Aceasta este o consecin a teoremei limit central i este aplicabil
att variabilelor continue ct i celor discrete.
ntr-adevr aplicnd teorema lui Leapunov pentru variabilele
aleatoare obinem c:
n
x x x ,..., ,
2 ,
( )
n
X
n
n X n x x x
n n

=
+ + +
+ + + + + +
2 2 2 2
2 1 2 1
...
... ...

tinde ctre o variabil aleatoare ( ) 1 , 0 N .

II. Statistica matematica si biostatistica Teorema limita centrala

42
2.4.6.4. Propoziie
Dac variabila aleatoare X este normal distribuit, atunci variabila
aleatoare ( )
2
2
1

X
s
n V = este repartizat ( ) 1
2
n
Demonstraie:
( )
( ) ( ) ( ) [ ]
( ) ( )( ) ( )
( ) ( )( ) ( )
( ) ( )
2
2
1 2
1
2
1
2
2
2
1 1 1
2
2
2
1
2
2
1
2
2
2
2
1


=

=
=
+
=
=
+
=
=

=

= =



n
X x
X n x
X n X n X n x
X X x x
X x X x
s
n V
n
i
n
i
n
i
n n n
i i
n
i
n
i
X








Dar variabila aleatoare


i
x
este repartizat ( ) 1 , 0 N deoarece
( )
i
i
M x
x
M


=


i
( )
1
2
= =




i i
x D x
D , iar
( )
n
X


este
repatizat tot ( ) 1 , 0 N n conformitate cu teorema limit central.
Deci, V este o sum de n-1 ptrate de variabile de tip ( ) 1 , 0 N .


2.4.6.5. Propoziie
Dac este o selecie dintr-o populaie normal distribuit,
atunci variabila aleatoare
n
x x x ,..., ,
2 1
n
s
X
T

= este repartizat Student cu n grade de libertate.
Demonstraie:
II. Statistica matematica si biostatistica Teorema limita centrala

43
( )
( )
1
1
2
1
2

n
V
Z
n
X x
n
X
s
n
X
n
s
X
n
i


unde
n
X
Z


= este repartizat ( ) 1 , 0 N , iar
( )
2
1
2


=
n
i
X x
V este
repartizat ( ) 1
2
n .
Deci, T este repartizat Student cu n-1 grade de libertate.

2.4.6.6. Propoziie
Date fiind dou selecii aleatoare independente si
din populaii normal distribuite
1
1 12 11
,..., ,
n
x x x
2
,..., ,
22 21 n
x x x ( )
1 1
, N i ( )
2 2
, N ,
variabila aleatoare
2
2
2
2
2
1
2
1

S
S
F = este repartizat Fisher Snedecor
( ) 1 , 1
2 1
n n F
Demonstraie: Avem ntr-adevar
( )
( )
( )
( )
2
2 2
1
2
2 2
2
1 1
1
2
1 1
2
2
2
2
2
1
2
1
1
1
2
1


= =

n
X x
n
X x
S
S
F
n
i
n
i

iar numratorul i numitorul sunt repartizate, conform propozitiei 2.3.5.4.,
respectiv
( )
1
1
1
1
2

n
n
i
( )
1
1
2
2
2

n
n
.





II. Statistica matematica si biostatistica Teorema limita centrala

44
2.5. Estimaii
Teoria estimaiei urmrete evaluarea parametrilor unei repartiii n
general cunoscute. Valorile numerice obinute se numesc estimaii sau
estimatori. Se obin estimaii punctuale n cazul n care se folosesc datele
seleciei pentru a obine valorile parametrilor i estimaii ale intervalelor de
ncredere n cazul n care se determin un interval n care se afl, cu o
anumit probabilitate valoarea estimat.
Un estimator al parametrului se va nota cu . O estimaie este

nedeplasat dac
( )

M = , adic media estimaiei este egal chiar cu


valoarea teoretic a parametrului estimat.
Conform proprietii 2.3.5.1,
( )
M X = adic media de selecie
este un estimator nedeplasat al mediei, iar conform proprietii 2.3.5.2.,
( )
2
M s
2
= adic dispersia de selecie este un estimator nedeplasat al
dispersiei.
Problema estimrii intervalelor se reduce la gsirea unui interval de
ncredere (
U L
) , cu un coeficient de ncredere 1 astfel nct
( ) = 1
U L
P .
Este de dorit ca 1 s fie ct mai mare (de obicei este cuprins
ntre 0,9 i 0,99) iar intervalul ( )
U L
, s fie ct mai mic. n stabilirea
intervalelor se utilizeaz caracteristicile numerice cuantile. Se numesc
cuantile de ordin valoarea a variabilei aleatoare

x x pentru care
( ) ( )

= = x x P x F adic valoarea variabilei aleatoare care are la stnga
ei aria sub curba densitii de probabilitate. Evident:
2
2

x x P
2
1
2
1



x x P

= =



1
2 2
1
2
1
2
x x x P
Pentru a estima un interval se alege 1 , se citesc din tabelele
cuantilele, de exemplu
2
1

x i
2

x i se precizeaz intervalul. n prealabil, n


funcie de mrimea pentru care se caut intervalul se precizeaz cu care din
repartiiile cunoscute trebuie lucrat.


II. Statistica matematica si biostatistica Teorema limita centrala

45
2.5.1. Estimarea intervalelor de ncredere pentru medii

2.5.1.1.Cazul cnd se cunoaste dispersia.
Se consider o populaie repartizat normal ( )
2
, N . Dac se cunoate
dispersia se poate folosi faptul c
X
Z
n

= este repartizat . Se
noteaz cu cuantila de ordinul
( 1 , 0 N )

z pentru repartiia ( ) 1 , 0 N . Evident


1 1
2 2 2 2
1 1
2 2
P z Z z F z F z





= = =



Aadar intervalul

2
1
2
,

z z este un interval de estimare cu coeficientul
de ncredere 1 . Din anumite puncte de vedere este recomandabil s se
utilizeze acele intervale care las att la dreapta ct i la stnga lor aceeai
arie, egal cu
2

.
Deoarece repartiia ( ) 1 , 0 N este simetric fa de axa Oy avem relaia
2
1
2


= z z
Din relaiile
1 1 1 1
2 2 2 2
1 1
2 2
1 1
2 2
* *
* *
X
z Z z z z
n
z X z
n n
X z X z
n n



rezult
1 1
2 2
X z X z
n n


+
Aadar intervalul cutat este
( )

+ =

n
z X
n
z X
U L



2
1
2
1
, ,
II. Statistica matematica si biostatistica Teorema limita centrala

46
Mrimea
n
z E

2
1
= poart numele de eroare i servete la calculul
numrului de experiene
2
2
1

=

E
z
n

atunci cnd este impus eroarea i se
alege un coeficient 1
Metoda descris mai poate fi aplicat i n cazul n care x nu este
repartizat normal deoarece z este repartizat ( ) 1 , 0 N indiferent de repartiia
variabilelor
1 2
, ,...,
n
X X X (teorema limit central).


2.5.1.2.Cazul cnd dispersia este necunoscut
Dac nu se cunoaste dispersia n estimarea intervalelor se utilizeaz
dispersia de selecie care este un estimator nedeplasat al dispersiei deoarece
( )
2 2
X
E s =
Se consider o selecie dintr-o populaie de tipul
n
x x x ,..., ,
2 1
( )
2
,
X
N .
Conform celor artate anterior mrimea
X
X
T
s
n

= este repartizat
i, ca urmare ( 1 n T )



= =



1
2 2
1
2
, 1
2
1 , 1
2
1 , 1
2
, 1 n n n n
t F t F t T t P
Deoarece repartitia Student este simetric fa de origine
2
1 , 1
2
1 , 1


=
n n
t t i nlocuindu-l pe T n relaia anterioar, se obine
1, 1,1 1, 1,1
2 2 2 2
1
n n n n
X
X
P t T t P t t
s
n







= =






i
1,1 1,1
2 2
X
n n
s s
X t X t
n n


+
Ca urmare intervalul cutat este
II. Statistica matematica si biostatistica Teorema limita centrala

47
( )
1,1 1,1
2 2
, ,
X X
L U
n n
s s
X t X t
n n




= +



n acest caz eroarea este
1,1
2
X
n
s
E t
n


=
Dac numrul de experiene este , se poate folosi aproximaia 30 n
2
1
2
1 , 1


= z t
n



2.5.2.Estimarea intervalului de ncredere 1 pentru diferena a dou
medii
Se consider dou selecii din populaii normal repartizate ( )
2
1 1
, N i
( )
2
2 2
, N .


2.5.2.1. Cazul dispersiilor
2
2
2
1
, cunoscute.
Considerm o selecie aleatoare din populaia
1
1 12 11
,..., ,
n
x x x ( )
2
1 1
, N i o
selecie dintr-o populaie
2
2 22 21
,..., ,
n
x x x ( )
2
2 2
, N .
Estimatorii nedeplasai ai mediilor
1
i
2
sunt:
1
1
1
1
1
n
x
X
n
i
= si
2
1
2
2
2
n
x
X
n
i
=
Considernd variabila aleatoare
2 1
X X , ea este normal repartizat iar
estimaia i dispersia ei vor fi
( ) ( ) ( )
1 2 1 2 1
M X X M X M X
2
= = i
( ) ( ) ( )
2
2
2
1
2
1
2 1 2 1
n n
X D X D X X D

+ = + = unde am inut cont c i
sunt independente.
i
x
1 i
x
2
Mai departe, variabila aleatoare
( )
( )
( )
( )
( )
1 2 1 2 1 2 1 2
2 2
1 2
1 2
1 2
X X X X
Z
D X X
n n



= =

este repartizat N(0,1).


II. Statistica matematica si biostatistica Teorema limita centrala

48
Deoarece,
1
2 2
1 P z Z z


=


i
2
1
2


= z z rezulta
( ) ( )
2 2 2
1 2 1
1 2 1 2 1 2
1 1
1 2 1 2 2 2
X X z X X z
n n n n

2
2



+ + +


Aadar, intervalul de estimaie pentru diferena mediilor este
( ) ( ) ( )

+ + + =

2
2
2
1
2
1
2
1
2 1
2
2
2
1
2
1
2
1
2 1 2 1
, ,
n n
z X X
n n
z X X



n acest caz, eroarea este
2
2
2
1
2
1
2
1
n n
z E

+ =

.


2.5.2.2. Dispersii necunoscute dar presupuse egale
n cazul n care nu cunoatem dispersiile dar tim c sunt egale
utilizm dispersia ponderat de selecie
2 2
2
2
1
= =
( ) ( ) ( ) ( )
( ) ( )
( ) ( )
1 2
2 2
1 1 2 2 2 2 2
1 2
1 2
1 2 1 2 1 2
2 2
1 1 2 2
1 1
1 2
1 1
1 1
1 1 1 1 2
2
p
n n
i i
n s n s
n n
s s s
n n n n n n
x X x X
n n
+

= + =
+ + +
+
=
+

=

ca un estimator nedeplasat pentru .
2

Avem ntr-adevr,
( )
( ) ( ) ( ) ( )
( ) ( )
2 2
2 2
1 1 2 2
1 1 2 2 2 2
1 2 1 2
1 1
1 1
2 2
p
n M s n M s
n n
M s
n n n n

+
+
= =
+ +
=
n continuare vom arta c mrimea
( ) ( )
2 1
2 1 2 1
1 1
n n
s
X X
T
p
+

=

este
repartizat ( ) 2
2 1
+ n n T
II. Statistica matematica si biostatistica Teorema limita centrala

49
Se observ c
( ) ( )
2 1
2 1 2 1
1 1
2 1
2 1
n n
s
X X
T
X X
p
X X
+

=


este raportul ntre o variabila
aleatoare repartizat N(0,1) i deoarece
( ) ( )
( ) 2 2
1 1
1 1
1 1
2 1
1 1
2
2 2
2
1 1
2
2 1
1 1
2
2 2
2
1 1
2
2
2 1
2 1
2 1
1 2
1 2
2 1
+


=
+
+
= = = +
+
= +

n n
X x X x
n n
X x X x
s s
n n
n n
s
n n
s
n n
i i
n n
i i
p p p
X X
p


variabila
2 1
1 1
2 1
n n
s
X X
p
+

este de tipul
( )
2
2
2 1
2 1
2
+
+
n n
n n

Dar
2
1
1 1
1

n
i
X x

este repartizat ( ) 1
1
2
n iar


2
1
2
2 2
n
i
X x

este
repartizat , deci T este repartizat ( 1
2
2
n ) ( ) 2
2 1
+ n n T i



= =


+ +
1
2 2
1
2
1 , 2
2
, 2
2 1 2 1
n n n n
t T t P
Deoarece repartiia Student este simetric
2
1 , 2
2
, 2
2 1 2 1

+ +
=
n n n n
t t rezult c
2 1
2
1 , 2
2 1 2 1
2 1
2
1 , 2
2 1
1 1 1 1
2 1 2 1 n n
s t X X
n n
s t X X
p
n n
p
n n
+ +
+ +



Deci,
( )

+ + + =
+ +
2 1
2
1 , 2
2 1
2 1
2
1 , 2
2 1 2 1
1 1
,
1 1
,
1
2 2 1 n n
s t X X
n n
s t X X
p
n n
p
n n

cu eroarea
2 1
2
1 , 2
1 1
2 1 n n
s t E
p
n n
+ =
+

.

II. Statistica matematica si biostatistica Teorema limita centrala

50
2.5.3. Estimarea intervalelor de ncredere pentru dispersie
Considerm o selecie de volum n dintr-o populaie normal ( )
2
, N .
Conform celor artate anterior variabila aleatoare
( )
2
2
1 n s
V

= este
repartizat ( ) 1
2
n i ca urmare
2 2
1, 1,1
2 2
1 1
2 2
n n
P V





= =



Deci, ( )
2
2
1 , 1
2
2
2
2
, 1
1



n n
s
n si
( ) ( )
2
2
, 1
2
2
2
2
1 , 1
2
1 1

n n
s n s n
.



2.5.4. Estimarea intervalului de ncredere pentru raportul a dou
dispersii
Se consider selecia aleatoare dintr-o populaie
1
1 12 11
,..., ,
n
x x x ( )
2
1 ,
, N i
o selecie dintr-o populaie
2
2 22 21
,..., ,
n
x x x ( )
2
2 2
, N .
Conform cu cele artate anterior, raportul
2
2
2
2
2
1
2
1

s
s
F = este repartizat
i deci ( ) 1 , 1
2 1
n n F


= =



1
2 2
1
2
1 , 1 , 1
2
, 1 , 1
2 1 2 1
n n n n
f F f P
Rezult c
2
1 , 1 , 1
2
1
2
2
2
1
2
2
2
, 1 , 1
2
1
2
2
2 1 2 1



n n n n
f
s
s
f
s
s
, iar intervalul de
estimaie pentru raportul dispersiilor este:
( )

=

2
1 , 1 , 1
2
1
2
2
2
, 1 , 1
2
1
2
2
2 1 2 1
, ,

n n n n
U L
f
s
s
f
s
s






II. Statistica matematica si biostatistica Teorema limita centrala

51
2.5.5. Aplicaie: Utilizarea intervalelor de ncredere n studiile de
comparare a biodisponibilitii medicamentelor
3

La introducerea n terapie de ctre un productor a unui medicament
ce reprezint o reproducere a altui medicament deja n uz, se pune problema
comparrii biodisponibilitii acestora. n practic se cere ca raportul ariilor
de sub curbele concentraiilor plasmatice ale celor dou medicamente s se
afle in intervalul 0,8 - 1,25.
0, 8 1, 25
T
AUC
R
AUC


unde indicele T se refer la medicamentul testat i R desemneaz
medicamentul referin.
Atunci ns cnd ariile de sub curb prezint variabiliti intra i
interindividuale considerabile (determinrile de biodisponiblitate se fac pe
loturi de circa 10 20 de voluntari sntoi) este de preferat a se determina
un interval de ncredere pentru media ariei realizat de medicamentul nou.
Pornind de la faptul ca
( )
( )
1 1
R T R T
p
R T
X X
T
s
n n

=
+
este repartizat
se deduce un interval de ncredere cu probabilitatea
(
2
R T
T n n +
)
1
pentru
T R

1 1
2 2
T R T R
T R
X X t X X t



+
unde am notat
1 1
p
R T
s s
n n
= + .
Dup cum se va arta mai departe, aceast estimare este puin util
n caz c reprezint practic intervariabilitatea, iar interschimbabilitatea
care necesit bioechivalen trebuie s se bazeze pe intravariabilitate.
p
s






3
W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials,
J. Pharm. Sci. , 61 (8), 1340 1, 1972
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

53

2.6. Verificarea ipotezelor statistice

Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiiei unor variabile
aleatoare. Ele se refer fie la parametrii repartiiei, fie la legea propriu zisa
de repartiie.

Teste statistice
Metodele de verificare a ipotezelor se bazeaz pe teste statistice care
constau n examinarea seleciilor obinute pentru o variabil aleatoare i a
unor funcii de elementele seleciilor.

Notaii conventionale
Ipoteza testat, presupus adevarat, se numete ipoteza nul i se
noteaz H
0
. Testarea necesit i formularea unei ipoteze complementare,
numit ipotez alternativ i notat H
A
. Dac se accept H
0
, n mod normal
se respinge H
A
i invers.
Din acest motiv, ipotezele H
0
si H
A
se aleg s fie complementare.
Dac testul privete valoarea unui parametru , de exemplu
0 0
: = H i
1
: =
A
H se poate ntmpla ca toi ceilali parametri ce
caracterizeaz distribuiile s fie cunoscui i, dup acceptarea uneia din cele
dou ipoteze, distribuiile ( )
0
, x i ( )
1
, x devin complet definite. n
acest caz, ipotezele sunt numite simple. Dac ns ceilali parametric nu
sunt cunoscui complet, ipotezele se numesc ipoteze compuse. De
exemplu, dac distribuia este normal i parametrul cautat este , iar
dispersia este necunoscut, suntem n cazul unei ipoteze compuse.

Probabilitatea unei decizii gresite
La verificarea ipotezelor se pot comite dou feluri de erori:
1. Erorile de tipul 1 constau n respingerea ipotezei H
0
atunci cnd
aceasta este adevrat.
2. Erorile de tipul 2 constau n acceptarea ipotezei H
0
atunci cnd
aceasta este fals.
Probabilitatile celor dou tipuri de erori se noteaz de obicei cu respectiv
:
= P (respinge H
0
/ H
0
adevrat)
= P (accept H
0
/ H
0
fals) = P (respinge H
A
/ H
A
adevrat)
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

54
Deci, este riscul de a respinge n mod greit H
0
i este riscul de a
respinge n mod greit H
A.

Probabilitatea de a respinge ipoteza H
0
atunci cnd aceasta este fals
= 1 se numete puterea testului. Coeficientul este numit i nivel de
semnificaie. Desigur c este de dorit ca valorile i s fie ct mai mici.
Valoarea lui se alege i n funcie de importana implicaiilor acceptrii
sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este
considerat ca bun pentru majoritatea problemelor din practic. Dac ns
este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat
a alege ntre 0,01 si 0,05.
Pentru a verifica o ipotez se folosesc datele de selecie pentru
calcularea unui test statistic. Domeniul de valori ale testului care corespunde
respingerii ipotezei H
0
cu probabilitatea se numete regiune critic.
Metodologia de verificare cuprinde n principiu urmtoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii
fenomenului studiat, o repartiie pentru populaia statistic din care
se face selectia;
2. se formuleaz ipoteza;
3. se calculeaz valoarea testului ales i se compar cu limitele de
acceptare, respectiv respingere;
4. se accept sau se respinge, n funcie de rezultat, ipoteza H
0
.

2.6.1. Ipoteze asupra mediei
2.6.1.1.Dispersia cunoscut
Se consider o selecia dintr-o populaie normal ( )
2
, N . Considerm
variabila aleatoare X . Datorit linearitii operatorului de mediere avem:
( )
( )

= =

=

n
n
n
x M
n
x
M X M
n
i
n
i
1 1

Pentru dispersia lui X inem cont c ( ) x D a b ax D
2 2 2
= + ( ) i c
rezultatele x
i
reprezint variabile aleatoare independente
( ) ( ) ( )
j i j i
x D x D x x D
2 2 2
+ = + .
n aceste condiii se obine
( )
n n
n
n
x D
n
x
D
n
i
n
i
2
2
2
2
1
2
1 2

= = =



II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

55
Ca urmare a teoremei limit central, variabila aleatoare
( )
( )
n
X
X D
X E X

este repartizata ( ) 1 , 0 N .
Avem n acest caz, dac vom alege un risc , ipotezele i criteriile de
acceptare sau respingere conform cu tabelul de mai jos:
Tabelul nr. 2:
H
0
H
A
Regiunea critic
1
2
Z z


0
=
0

1
2
Z z



0
=
0

1
Z z



0
=
0

1
Z z




2.6.1.2.Dispersia necunoscut
n acest caz se nlocuiete n formula anterioar cu estimaia sa
i se ine cont c variabila aleatoare
X
s
X
X
T
s
n

= este repartizat Student
cu n-1 grade de libertate.








II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

56

2.6.2. Ipoteze asupra diferenelor a dou medii

2.6.2.1.Cazul cnd se cunosc dispersiile
Se consider dou populaii normale ( )
2
1 1
, N i ( )
2
2 2
, N , o selecie
aleatoare din din populaia
1
1 12 11
,..., ,
n
x x x ( )
2
1 1
, N i o selecie aleatoare
din populaia
2
2 22 21
,..., ,
n
x x x ( )
2
2 2
, N .
Variabila aleatoare
( )
( )
( )
( )
( )
1 1 2 1 2 1
2 2
1 2
1 2
1 2
X X X X
Z
D X X
n n
2



= =

+
este, dupa cum s-a
aratat anterior, repartizat N(0,1).

2.6.2.2.Cazul dispersiilor necunoscute, dar presupuse egale
n cazul n care nu cunoatem dispersiile dar tim c sunt egale
utilizm dispersia ponderat de selecie
2 2
2
2
1
= =

( ) ( )
( ) ( )
2 2
1 1
2 1
1 1
2
2
2
1 1
2 1
2
2 2
2
1 1 2
1 2
+
+
=
+
+
=

n n
X x X x
n n
s n s n
s
n n
i i
p

ca un estimator nedeplasat pentru .
2

Dup cum s-a artat anterior, mrimea


( )
( )
1 2
1 2 1 2
2
1 2
1 1
n n
p
X X
T
s
n n

+

=
+

este repartizat ( ) 2
2 1
+ n n T

2.6.2.3.Cazul observaiilor perechi
In cazul cnd observaiile formeaz n mod natural perechi, cum ar fi de
exemplu cnd se msoar concentraiile n n probe, fiecare din ele cu dou
metode diferite sau cazul cnd dou medicamente se administreaz unui
aceluiai lot de voluntari, n dou perioade diferite.
Considerm n acest caz variabila aleatoare
2 1
X X d = .
n cazul n care seleciile aparin la aceiai populaie, media lui d va fi
zero: ( ) 0 = d E .
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

57
Cnd se cunosc dispersiile avem ( )
n n
d D
d
2
2
2
1 2

+ = = i variabila
aleatoare
d
d

este repartizat ( ) 1 , 0 N .
Cnd nu se cunosc dispersiile se folosesc dispersiile de selecie i se ine
cont c variabila aleatoare
n
s
d
d
dup cum se poate arta uor, este
repartizat Student cu n-1 grade de libertate.


2.6.2.4. Compararea proporiilor
Dac vom considera un experiment n care rspunsul este de tip da sau
nu, de exemplu vindecare sau nevindecare, supravieuire sau moarte, etc.,
numrul de rezultate k de un anumit tip n n repetri ale experimentului este
o variabil aleatoare repartizat binomial.
Deoarece avem, dup cum s-a calculat anterior ( ) np k E = i
, variabila aleatoare standardizat ( ) npq k D =
( )
( )
n
pq
p
n
k
npq
np k
k D
k E k
z

= se aproximeaz ca fiind normal repartizat.


Fie dou populaii de tip urna Poisson cu bile albe i bile negre, cu
parametrii (probabilitatea bilei albe) i respectiv . n dou selecii din
cele dou populaii, de volum i respectiv presupunem c s-a obinut
rspuns pozitiv de i respectiv ori.
1
p
2
p
1
n
2
n
1
k
2
k
Fie 2 , 1 , = = i
n
k
h
i
i
i
. n cazul ipotezei nule p p p H = =
2 1 0
: , variabila
aleatoare va fi distribuit cu media 0 i dispersia
2 1
h h
( )
( ) ( )
( )

=
2 1 2
2 2
1
1 1
2 1
1 1
1
1 1
n n
p p
n
p p
n
p p
h h D
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

58
n aceste condiii se aproximeaz c variabila aleatoare
( )

2 1
2 1
1 1
1
n n
p p
h h
va fi repartizat ( ) 1 , 0 N .
O estimare natural a lui p este
2 1
2 1
n n
k k
p
+
+
= .
O mbuntire a aproximrii se poate obine prin introducerea unor
corecii de continuitate pentru i :
1
h
2
h
( )
1 2
1 2
1 2
1 1
2 2
1 1
1
h h
n n
Z
p p
n n




=

+



2.6.3. Estimarea dispersiei
Considerm o selecie de volum n dintr-o populaie normal ( )
2
, N .
Conform celor artate anterior variabila aleatoare
( )
2
2
1 n s
V

= este
repartizat ( ) 1
2
n .

2.6.3.1.Estimarea raportului a dou dispersii
Se consider selecia aleatoare dintr-o populaie
1
1 12 11
,..., ,
n
x x x
( )
2
1 1
, N i o selecie aleatoare dintr-o populaie
2
2 22 21
,..., ,
n
x x x
( )
2
2 2
, N .
Conform cu cele artate anterior, raportul
2
2
2
2
2
1
2
1

s
s
F = este repartizat
. ( ) 1 , 1
2 1
n n F
Se calculeaz
2
2
2
1
s
s
F = lundu-se .
2
2
2
1
s s
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

59
( )
( ) ( ) ( ) [ ]
( ) ( )( ) ( )
( ) ( )
2
1
2
2
1
2
2
1
2
2
2
1
2
2
1
2
2
2
2
1


=

=
=
+
=
=

=


n
X x
X n x
X n n X n X x
X x X x
s n
v
n
i
n
i
n
i
n
i
n
i






Dar


i
x
este repartizat N(0,1) cci
( )
0 =


i i
x E x
E i
1
2
=


i
x
D
Deci v este o sum de n-1 ptrate de variabile de tip N(0,1).

2.6.3.2.Compararea mai multor dispersii.
a) Testul Bartlett pentru verificarea omogenitii dispersiilor
Fie m estimri independente pentru dispersiile
m
s s s ,..., ,
2 1 m
,..., ,
2 1

pe baza unor selecii de volume .
m
n n n ,..., ,
2 1
Se pune problema verificrii ipotezei privind egalitatea acestor dispersii

2 2
2
2
1 0
... :
m
H = = =
n acest caz Bartlet a artat c variabila aleatoare
( )
( )
( )

=
m k
i
k
i i
i
s
s
s k s k
1
2
2
2 2
ln ln ln 303 , 2
unde , 1 =
i i
n k

=
i
k k i s dispersia ponderat a ntregului set de date,
este repartizat ( ) 1
2
m .

b) Testul rapid Cochran pentru selecii de acelai volum
Daca selectiile considerate au acelasi volum n n n n
k
= = = = ...
2 1
,
atunci se calculeaza valoarea

=
k
i
s
s
G
1
2
2
max
max
care se compar cu o valoare
maxim admis pentru acceptarea ipotezei nule.
In formula de mai sus avem:
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

60
( )

=
n
j
i ij i
x x
n
s
1
2
2
1
1
si
2
1
2
max
max
i k i
s s

=
Ipoteza se respinge daca
0
H ( ) c G
max
unde ( ) c se gaseste din
tabelele Cochran la perechea ( ) 1 , n k grade de libertate si la
probabilitatea ( ) ( ) = 1
max
c G P .
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru testul 12 k
2
2
min
max
i
i
calc
s
s
H =
iar ipoteza se respinge daca
0
H ( ) H H
calc
unde ( ) H se gaseste din
tabelele Hartley la probabilitatea ( ) ( ) = 1
max
H H P .

2.6.3.3. Aplicaie: Utilizarea testului t n analiza comparativ a
medicamentelor
n compararea mediilor am utilizat testul t, numit i testul Student.
Deoarece acesta este poate cel mai utilizat n analiza medicamentelor, vom
face cteva consideraii asupra aplicrii practice a acestuia.
La compararea efectului a dou medicamente, la compararea
rezultatului determinrilor analitice cu valoare impus de standardul de
control asupra medicamentului precum i n multe alte situaii, apar
rezultate diferite acolo unde ne ateptm ca acestea s fie egale. Ne punem
ntotdeauna problema dac, diferenele constatate n practic sunt
semnificative sau nu. Deoarece rezultatele provin din testarea unor
eantioane reduse, nu putem fi niciodat siguri n ceea ce privete parametrii
ntregii populaii. Totui, asumndu-ne un risc mai mare sau mai mic,
trebuie s lum decizii.
Dac, de exemplu, dozm cantitatea de substan activ din 10
comprimate care provin dintr-o arj de 1.000.000 de comprimate, alegerea
celor 10 comprimate se presupune c s-a fcut aleator i ele reprezint un
eantion reprezentativ pentru ntreaga arj. Problema este dac, n funcie
de valoarea medie a coninutului pentru cele 10 comprimate i variabilitatea
celor 10 valori, putem spune, asumndu-ne un anumit risc, c valoarea
medie a concentraiei n substana activ pentru tot lotul este cea declarat.
n acest caz aplicarea testului t n verificarea ipotezei asupra mediei, aa
cum s-a artat mai sus, este imediat.
La compararea mediilor a dou selecii independente, numite n
experimentele cu medicamente grupuri paralele, o atenia deosebit
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

61
trebuie acordat verificrii independenei efective a acestora. De exemplu la
testarea efectelor unui medicament asupra unui grup de pacieni n
comparaie cu un alt grup ce se numete placebo, trebuie avut n vedere c
pacienii s nu se influenteze ca urmare a discuiilor ntre ei. Dac loturile
sunt de animale ce triesc n aceiai cuc, medicamentul poate favoriza sau
din contra, defavoriza un grup n lupta animalelor pentru hran i adaug
efecte suplimentare asupra rezultatelor finale ale testului.
n sfrit, un caz foarte frecvent n testrile comparative ale efectelor
sau nivelelor plasmatice ale medicamentelor, este acela al observaiilor
pereche, cnd lotul de subieci tratai se constituie ca propriul martor.
Acestea ofer unele avantaje asupra experimentului pe grupuri paralele.
n primul rnd, n experimentul pe grupe paralele, variabilitatea
rezult din diferenele de rspuns la medicament ntre cele dou grupuri, aa
numita intervariabilitate. n experimentul pereche apare
intravariabilitatea, variabilitatea n rspunsul aceluiai subiect la dou
tratamente diferite i avem motive s presupunem c aceasta este mai mic,
de regul dect intervariabilitatea. Teoretic, intervariabilitatea include i
intravariabilitatea i deci nu poate fi mai mic dect aceasta. Din aceste
motive, testul pereche ofer avantajul unei variabiliti mai mici.
Testul pereche ofer apoi avantajul c lotul poate fi mai mic. n
experimentul pe grupe paralele, de exemplu dou loturi de 10 subieci
primesc dou medicamente diferite. n experimentul pereche numai 10
subieci pot primi n prima administrare un medicament i n a doua
perioad al doilea medicament.
Desigur c acest cuplare nu este ntotdeauna posibil. Cnd dozm
cantitatea de substan activ din comprimate sau determinm timpul de
dizolvare, acestea sunt consumate n timpul testrii.
Trebuie menionat c testul pereche prezint dezavantajul c ntre
cele dou tratamente trebuie s existe o perioada destul de lung pentru ca
primul medicament administrat s se elimine din organism care, n cazul
medicamentelor cu timp de njumtire mare cum ar fi de exemplu
piroxicamul, depete 30 de zile, in cazul clomifenului sau al penicilinei
retard fiind nevoie de perioada intre cele doua administrari, de mai multe
luni. n aceste situaii se prelungete destul de mult timpul pentru
definitivarea studiului.
Deasemenea, efectul primului medicament, n cazul c
experimentele se fac pe pacieni, poate duce la o mbuntire a strii de
sntate a acestora i la o modificare considerabil a rspunsului la al doilea
tratament.



II. Statistica matematica si biostatistica Teste neparametrice

63
2.7. Teste neparametrice

Testul t pentru compararea mediilor depinde, n special pentru
seleciile de volum mic, de ipoteza c cele dou populaii sunt distribuite
aproximativ normal i c dispersiile sunt practic egale.

De regul, tehnicile statistice care se ocup de variabilele continue
se bazeaz pe ipoteza c variabila aleatoare are o distribuie normal de
baz. Ipoteza nu este att de restrictiv, deoarece de multe ori este posibil s
o modificm astfel nct s obinem alta, aproximativ normal distribuit.
Suplimentar, dac vom considera mediile, n concordan cu teorema limit
central, distribuia mediei probelor se aproprie cu att mai mult de
distribuia normal, cu ct crete volumul probelor.

i astfel, ca o concluzie practic, erorile se datoreaz mai curnd
lipsei de constan a dispersiei sau lipsei de independen a variabilelor
dect deviaiilor de la normalitate.

Pentru cazurile cnd nu stim distribuia variabilei, o cale alternativ
este s aplicm teste care nu necesit ipoteze despre tipul de distributie.

Testele independente de distributie, numite i teste de rang,
nlocuiesc valorile variabilei cantitative observate cu rangurile lor. Testele
neparametrice sunt valabile i pentru variabile normal distribuite, dar sunt
mai puin eficiente, pentru acelai prag de semnificaie fiind necesare
eantioane mai mari dect pentru testele parametrice.

In acelasi timp este de retinut ca testele neparametrice nu sunt un
paraceu universal: aplicarea lor este posibila atunci cand sunt continue si
independente.










II. Statistica matematica si biostatistica Teste neparametrice

64
2.7.1. Media i dispersia eantioanelor dintr-o populaie finit.

S considerm o populaie finit de N elemente, la care asociem
numerele . Dac presupunem c toate elementele au aceeai
probabilitate
N
x x x ,..., ,
2 1
N
1
, putem calcula media i dispersia populaiei:
(1) ( )

= = =
N
i i
N
i
x
N
p x X E
1 1
1

i
(2)
( ) ( ) ( ) ( ) ( )
( )




=
= =
= = = =
j i
j i
N
i
j i
j i
N
i
N
i
N
i
N
i i i
N
i
x x
N
x
N
N
x x
N
x
N N
x
N
x
N
p x p x X E X E X D
2
1
2
2 2
1
2
2
2
1
2
1
2
2
1 1
2
2
2 2
2 1 2 1 1
1 1



Multimea tuturor seleciilor posibile de mrimea n din populaie va include:
( )
n n
x x x x , ,..., ,
1 2 1

( )
1 1 2 1
, ,..., ,
+ n n
x x x x
.
.
.
( )
N n N n N
x x x ,..., ,
2 1 + +

Aceste probe sunt formate prin alegerea a n elemente din N. Exist
ci de a alege o astfel de prob. nc o dat, presupunem c fiecare
prob are aceeai probabilitate de a fi selectat,
n
N
C
n
N
C
1
.
S considerm media seleciei j:

=
=
n
i
ji j
x
n
X
1
1
i s considerm
variabila aleatoare ( )
n
N
C j
j
X X
, 1 =
=

Valoarea medie a variabilei X este
II. Statistica matematica si biostatistica Teste neparametrice

65
( )
( ) ( )
( )

+ + +
+ + + + + + + + + +
=
= = =
+ +
+
= =

N n N n N
n n n n
n
N
C
j
j
n
N
j
C
j
j
x x x
n
x x x x
n
x x x x
n
C
X
C
p X X E
n
N
n
N
...
1
...
1
...
1
1
1
2 1
1 1 2 1 1 2 1
1 1

Acum s considerm de cte ori intr n sum orice particular, s
spunem . Probele care conin se obin prin selectarea a (n-1) alte
elemente din populaia disponibil de (N-1) elemente i, aceasta se poate
face n moduri. Vor fi deci probe coninnd i la fel se aplic
pentru fiecare .
i
x
1
x
1
x
1
1

n
N
C
1
1

n
N
C
1
x
i
x
( )
( )
( ) ( )
1
1
! ! 1
! 1
! !
!

=


=

=
n
N
n
N
C
n
N
n N n
N
n
N
n N n
N
C
n consecin
(3) ( ) = =

N
i
N
i
n
N
n
N
x
N
x C
n C
X E
1 1
1
1
1 1 1

ceea ce nseamn c media mediei probei este egal cu media populaiei.
Pentru calcularea dispersiei folosim identitatea
(4)
( )
( )
( ) ( )
2
2
D X E X E X =
S considerm ( )

= =
= =
n
N
n
N
C
j
j
n
N
j
C
j
j X
C
p X X E
1
2
1
2
2
1

Mai departe
( ) ( )
2
2 1
2
1 2 1
1
2
...
1
... ...
1

+ + + + +

+ + + + =
+ +
=
N n N n N n n
C
j
j x x x
n
x x x x
n
X
n
N

Cnd ridicm la ptrat fiecare termen, fiecare va deveni i,
dup cum vedem, fiecare apare de ori. Astfel
i
x
2
i
x
i
x
1
1

n
N
C
(5) ( ) ... ...
1
2 2
2
2
1
1
1
2
1
2
+ + + + =

=
N
n
N
C
j
j x x x C
n
X
n
N

Ridicarea la ptrat a sumei d deasemenea termeni de forma i
fiecare termen va apare de .
j i
x x
2
2

n
N
C
n consecin, putem scrie
II. Statistica matematica si biostatistica Teste neparametrice

66
(6)
( ) ( )

+ + + + + + =

=
N N
n
N N
n
N
n
N
C
j
j
n
N
x x x x C
n
x x x C
n C
X
C
n
N
1 2 1
2
2
2
2 2
2
2
1
1
1
2
1
2
...
2
...
1 1 1

Pentru a nlocui n (4) punem ( ) ( )
2
X E n forma:
(7)
( ) ( ) ( )
( )
2
1 2 1
2
2 2
2
2
1
2
1 2 1
2
... 2 ...
...
1
N
x x x x
N
x x x
x x x x
N
X E
N N n
N N

+ +
+
+ + +
=
=

+ + + + =

Substituind (6) i (7) n (4) , obinem:
(8)
( ) ( )
( )
N N
n
N
n
N
N
n
N
n
N
x x x x
N
C
n C
x x x
N
C
n C
X D
1 2 1
2
2
2
2
2 2
2
2
1
2
1
1
2
...
2 2 1
...
1 1 1

+ +

+
+ + + +

=

Coeficientul lui ( )
2 2
2
2
1
...
N
x x x + + + se poate scrie ca
( )
1 1
1 1
2 2 2 2 2
1
1
2
1 1 1 1 1 1 1 1
1
1
n n
N N
n
n
N
N
N n
C C
N
C n N n N nN N nN
C
n
N n N
n N N

= = =

=

=

i coeficientul lui ( )
N N
x x x x
1 2 1
...

+ + este
( )
( )
( )
( ) ( ) 1
2 2
1
1 2 2 2
1
1
1
2 2 2
2
2
2
2
2

N n
n N
N N N nN
n
N
C
n
n n
N N
C
n
N
n
N

Apoi substituind aceste rezultate n (8), obinem:

(9) ( )
( )
( )
( ) ( )

+ + + + +

=
N N N
x x x x
N
x x x
N
N
N n
n N
X D
1 2 1
2
2 2
2
2
1
2
...
2
...
1
1

Partea din { } este exact , astfel nct
2


(10)
( )
2 2
1
1
1 1
N n n
D X
n N n N


= =




II. Statistica matematica si biostatistica Teste neparametrice

67
Observam ca avem aparent o contradictie cu regula:
( )
( )
2 2
2 2
1
i
i
x
n
D X D D x
n n n n


= = =



=



In fapt, in aceasta regula X este media unui experiment repetat de n
ori, de exemplu, extragerea consecutive, una cate una a n bile, pe cand X
de mai sus semnifica extragerea a n bile dintr-odata.
De exemplu, selectia ( ) 1 , ... , 1 , 1 nu este posibila in cazul nostru si
altfel nici o repetare, toate elementele selectate fiind distincte.
Este de notat c dac N , atunci dispersia lui
n
X
2

, forma
ei obinuit pentru o populaie infinit, sau pentru experimentul de tip
extracie din urn cu ntoarcerea bilelor extrase n urn.


2.7.2. Testul de rang Wilcoxon

Testul de rang Wilcoxon
1
este un test cu ipoteza nul c dou
populaii sunt identice, fat de ipoteza alternativ c ele difer printr-o
translaie linear. Testul nlocuiete observaiile prin rangurile lor. Rangurile
sunt repartizate la valorile din selecii n ordinea creterii mrimii fr s
in cont de probele crora le aparin.
S presupunem c o prob este de mrime n i alta de mrime N-n.
Testul presupune c orice combinaie de ranguri n aceste dou grupuri este
egal probabil. Numrul total de moduri de grupare a rangurilor este .
n
N
C
Consideram urmatorul exemplu
Nivelele plasmatice maxime ale ionului dup administrare
i.m.
4
EDTA
Tabelul 3.
Voluntar CE IA BL PM MC DP SL
Prima zi 33,3 25,1 22,8 32,4 23,7 48,33 33,04
rangurile 9 3 1 7 2 11 8
a-3-a zi 25,4 31,2 28,4 39,2
rangurile 4 6 5 10


Privind rezultatele n a treia zi de tratament la proba de mrime n,
suma rangurilor este 4+6+5+10=25. Combinaiile de ranguri pentru care

1
F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947

II. Statistica matematica si biostatistica Teste neparametrice

68
putem obine o sum a rangurilor mai mic dect aceasta, pentru un n = 4
dat sunt
1+2+3+4=10, 1+2+3+5=11, 1+2+3+6=13, 1+2+3+7=14,
1+2+3+8=15 etc.
Dup cum se poate vedea nu este uor s calculm toate
posibilitile, astfel nct vom folosi faptul c media rangurilor unei probe
este distribuit aproximativ normal cu parametri care sunt calculati n
continuare.
Sunt disponibile tabelele care dau limitele de acceptare a ipotezei
pentru suma obinut, ca o funcie de n, N i riscul asumat. Pentru
exemplul nostru gsim n tabele, pentru
0
H
05 , 0 = , 4
1
= n i
intervalul 11 25.
7
2
= n
Fie R suma rangurilor i R media rangurilor probei de mrime n.
Conform (1), valoarea medie a lui R este ( )

=
N
i
x
N
R E
1
1
.In cazul nostru
sunt rangurile de N valori nsemnnd numerele 1,2,.,N. n consecin
i
x
( ) ( )
( )
( )
2
1
2
1 1
... 2 1
1 1
1
+
=
+
= + + + = =

N
R E
N N
N
N
N
x
N
R E
N
i

Calculul lui d:
2

( ) ( ) ( ) ( ) ( )
( )
( )( ) ( )
12
1
2
1 1
6
1 2 1 1 1 1
1 1
2
2
2
2
1 2 1
2
2
1
2
1
2
2
2 2

+ +
= =
= = = =


N N N
N
N N N
N
i
N
i
N
x
N
x
N
X E X E X D
N N
N
i
N
i


Dispersia lui R se obine prin nlocuirea lui n (10)
(11) ( )
( )( )
n
n N N
N
n N
n
N
N
n
n
R D
12
1
1 12
1
1
1
1
2 2
+
=

=


n concluzie, variabila aleatoare
( )
( )
( )( )
n
n N N
N
R
R D
R E R
12
1
2
1
+
+

va fi
repartizat aproximativ ( ) 1 , 0 N .
Intr o notatie alternativa N poate fi notat cu
1
n n
2
+ , n cu si Nn
cu obtinandu-se:
1
n
2
n
II. Statistica matematica si biostatistica Teste neparametrice

69
( )
1 2
1 2 2
1
1
2
1
12
n n
R
Z
n n n
n
+ +

=
+ +

Se mai utilizeaza si alta forma a formulei. Se amplifica cu , se
obtine
1
n
1
Rn R = si
( )
( )
1 1 2
1 2 1 2
1
2
1
12
n n n
R
Z
n n n n
+ +

=
+ +

Kruskal si Wallis
2
au observat ca aproximaia este mbuntit cnd
valoarea este mai mare de 0,02 prin aducerea lui R mai aproape de media
lui cu
n 2
1
.
n literatura medical i biologic testul se mai numete Mann
Whitney i se utilizeaz notaiile
1
n n = i
2
n n N = (
2 1
n n ).
Cnd cel puin unul din numerele i sunt mai mici dect 10,
distribuia de probabilitate a sumei rangurilor pozitive R se poate calcula
direct. Intervalele de ncredere cu diverse probabiliti (0,95; 0,99; etc.)
pentru R se gsesc n tabele.
1
n
2
n
In exemplul nostru n = 4, N = 11, R = 25, 25 , 6
4
25
= = R i
( )( ) ( )( )
1 11 1
6, 25
0, 25
2 2
0,19
7
1 11 1 11 4
4
12 12*4
N
R
Z
N N n
n
+ +

= = =
+ +
=


Valoarea obinut ne asigur c nu apare o acumulare a EDTA la
orice nivel de risc din cele uzual utilizate.
Dac facem corecia pentru continuitate

2
W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am.
Stat. Assoc.,47,583-621,1952

II. Statistica matematica si biostatistica Teste neparametrice

70
( )( ) ( )( )
1 1 11 1 1
6, 25
0, 375
2 2 2 8
0, 285
7
1 11 1 11 4
4
12 12*4
N
R
n
Z
N N n
n
+ +
+ +
= = =
+ +
=
concluzia nu se schimba.

2.7.3. Ajustarea pentru valori egale n testul Wilcoxon
Dac apar egaliti, o alternativ pentru neglijarea lor este de a
repartiza la aceste observaii media rangurilor pe care le-ar fi primit dac nu
erau egale.
S considerm un grup de k egaliti. Numerele ntregi m+1, m+2,
, m+k sunt nlocuite cu media lor.
( ) ( ) ( )
( )
2
1
2
1
... 2 1 +
+ =
+
+
=
+ + + + + + k
m
k
k k
km
k
k m m m

Suma ptratelor ( )
2 2
2
2
1
...
N
x x x + + + este astfel redus prin
( ) ( ) ( )
( )
( ) ( ) ( )
( )
( ) ( )( )
( )
( )
( )
( )
( ) ( )
2
2 2 2
2
2 2 2 2 2
2
1
1 2 ...
2
1
2 1 2 ... 1 2 ... 1
4
1 1 2 1 1
2 1
2 6 4
1 1 1
4 2 3 3
12 12 12
k
m m m k k m
k k
km k m k km km k
k k k k k k k
m k k m
k k k k k
T
k k
+
+ + + + + + + =


+
+ + + + + + + + + =
+ + + +
= + + =
+ +
= + = =
Suma rangurilor rmne neschimbat. Astfel:
( )
( )( ) ( )
( )( ) ( )
( )( ) ( )
N
T N N
N
T N N N N
N
N N T N N N
N N
N
T N N N
N
x
N
x
N
N
i
N
i
12
1
12
3 3 2 4 1
12
1 3 1 2 1 2
2
1 1
12 6
1 2 1 1 1 1
2
2
2
2
2
1
2
1
2 2

=
+ +
=
=
+ + +
=
=


+ +
= =

i
( )
( )
2
1
12 1
N N T
N n
D R
nN N


=


II. Statistica matematica si biostatistica Teste neparametrice

71
2.7.4. Teste referitoare la perechi de observaii

2.7.4.1.Testul semnelor

S considerm nivelele plasmatice maxime ale unui medicament
dup o prim administrare la un numr de n voluntari sntoi i nivelele
plasmatice maxime dup trei zile de tratament. Fie
i
x
i
y
( ) y x, probabilitatea de
apariie a valorilor x i y. Dac medicamentul nu se acumuleaz n
organism, cele dou seturi de concentraii sunt selecii ale aceleiai populaii
i ( ) ( )
i i i i
x y y x , , = pentru toate perechile.

Aceasta implic simetria lui ( ) y x, fa de linia 0 = x y .
S definim variabila aleatoare x y z = .
Avem c ( ) ( )
2
1
= = x y P x y P sau ( ) ( )
2
1
0 0 = = x y P x y P care
este mai departe echivalent cu ( ) ( )
2
1
0 0 = = z P z P . Astfel z va avea o
median zero.
Mai departe definim variabilele dup cum urmeaz
i
z
1 =
i
z pentru 0
i
z
i pentru 0 =
i
z 0
i
z .
Presupunem continuitatea distribuiei de grup original ( ) y x, , z va fi
deasemenea continu, i interseciile (cazurile
i i
y x = ) vor avea
probabilitatea zero.
i
z sunt independente, astfel nct suntem n situaia binomial de a face
n ncercri independente, probabilitatea de succes 1 =
i
z fiind
2
1
la fiecare
ncercare. Astfel,

n
i
z
1
are o distribuie binomial cu parametrii
2
1
= p i
n.
Distribuia de grup ( ) y x, poate fi diferit n fiecare ncercare, ns de
fiecare dat ( )
2
1
1 = =
i
z P i astfel distribuia lui

n
i
z
1
va fi neschimbat.
II. Statistica matematica si biostatistica Teste neparametrice

72
Alternativa ipotezei nule este ca n locul lui s avem
i
x
i i i
d x x =

,
ceea ce nseamn c fiecare descrete cu o cantitate , unde . n
acest caz
i
x
i
d 0
i
d
( y x , ) nu va mai fi simetric, ci deplasat spre stnga i
( )
2
1
0 0

=
i i i i i
x y P x y P z P .
Astfel, nu va mai fi n mod necesar constant i distribuia lui
nu va mai fi o distribuie binomial.
( 0
i
z P )

n
i
z
1
Testul semnelor, d pentru probabilitatea a k diferene pozitive

= =

=
= =
= =

=
k n
j
j
n
n
n
k i
i n
n
n
n
k i
i
n
n
i n i
i
n
n
k i
i
n
i
C C
C C z p
n
k
z P
0
1
2
1
2
1
2
1
2
1
1
2
1
2
1
,

n cazurile simple, pentru k i n mici, aceast probabilitate se poate
calcula direct.
Pentru valori mai mari, se poate folosi aproximaia normal.
Sa lum n considerare valorile nivelelor plasmatice ale ionului
(Tabelul3) dup administrarea i.m. la patru voluntari sntoi.
4
EDTA
Tabelul nr. 4:
Voluntar CE IA BL PM
Prima zi 33,3 25,1 22,8 32,4
a-3-a zi 25,4 31,2 28,4 39,2
i
z
-7,9 +6,1 +5,6 +6,8
i
z
0 1 1 1
Avem
06 , 0
2
1
2
1
2
1
2
1
,
4
3
4
0
4
4
4 4
0
4
4
4
1
= = = =

=


=
C C p z P
j
j
i

ceea ce nseamn c putem accepta ipoteza nul privind egalitatea
constantei de eliminare n prima zi cu cea din ziua a treia.
Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a
distributiei binomiale:
1 1
2 2
1 1
* *
2 2
P
n
Z
n

=
II. Statistica matematica si biostatistica Teste neparametrice

73
unde p este proportia diferentelor pozitive.
2.7.4.2.Testul Wilcoxon pentru observaii perechi
Wilcoxon a propus deasemenea un test pentru determinri pare n care
rangurile sunt atribuite mrimii absolute a diferenelor i apoi se d
rangurilor semnul diferenelor.
Ipoteza nul este c distribuia diferenelor este simetric fa de zero,
astfel orice rang este pozitiv sau negativ cu aceiai probabilitate. Valorile
egale primesc ca rang media rangurilor grupului.
Numrul total de moduri de sume de ranguri ce se pot obine este
N
2 .
S atam rangurilor i variabilele aleatoare d
i
ce iau valorile d
i
=1 cnd i
este pozitiv i d
i
=0 cnd i este negativ, se foloseste insa cea mai mica
valoare dintre suma rangurilor pozitive si a celor negative.
S considerm suma rangurilor pozitive i d s
i
= .
Media ei va fi ( ) ( ) ( )

= =
N
i
N
i
d iE i d E s E
1 1

Dar ( )
2
1
2
1
0
2
1
1 = + =
i
d E i ( )
( )
4
1
2
1
1
+
= =

N N
i s E
N

( )
( )
( ) ( )
2
2 2 2
1 1
2 2
1
2
2
N N
i i
i j
N
i i j
i j
E s E id E i d ijd d
i E d ijE d d


= = +


= +


i j
=

ns ( )
2
1
2
1
0
2
1
1
2 2 2
= + =
i
d E si
( ) 1 0
4
1
0 0 + =
j i
d d E *
4
1
4
1
* 1 * 1
4
1
* 0 * 1
4
1
= + +
n consecin
( ) ( )

+ = + =


N N N
j i
N
i i i ij i s E
1
2
2
1 1
2
1
2 2
4
1
2
1
2
4
1
2
1

Acum putem calcula dispersia lui s
( ) ( ) ( ) ( )
( )( )
24
1 2 1
4
1
4
1
4
1
2
1
1
2
2
1 1
2
2
1
1
2
2
2
+ +
= =
=

+ = =


N N N
i
i i i i s E s E s D
N
N N N
N

II. Statistica matematica si biostatistica Teste neparametrice

74
n cazul n care apar egaliti,
( ) ( )
48
1 1 + k k k
trebuie s fie sczut pentru
fiecare grup de egalitati. O alternativ este de a scoate toate valorile egale
din prob.
S considerm acum observaiile pare din experimentul ce a dus la datele
din tabelul 5.

Tabelul 5. Nivelele plasmatice maxime ale dup
administrarea i.m.
4
EDTA

Voluntar CE IA BL PM
Prima zi 33,3 25,1 22,8 32,4
a-3-a zi 25,4 31,2 28,4 39,2
Diferena -7,9 +6,1 +5,6 +6,8
d
i
0 1 1 1
Rangul -4 2 1 3 S=3+2+1=6

n acest caz avem N=4 si
( )
( )
( )
( )( )
27 , 0
24
9 * 5 * 4
5 6
24
1 2 1
4
1
=

=
+ +
+

=
N N N
N N
s
s D
s E s
z care este foarte
apropiat de valorile obinute anterior.


2.7.4.3. Testul H, Krusskal Wallis, de analiza a variatiei pe o
cale aplicata rangurilor
Testul H, sau testul Kruskal Wallis
3
este o generalizare a testului
Wilcoxon n cazul a k probe, . La fel ca i n testul Wilcoxon,
observaiile primesc ranguri, i media rangurilor R
i
se calculeaz pentru
fiecare grup.
2 k
( )
2
1 +
=
N
R E
i
i ( )
( )( )
i
i
i
n
n N N
R D
12
1
2
+
= unde
i
i
i
R
R
n
= si
R
R
N
=

3
W.H.Kruskal, W.A.Wallis; Use of ranks in the one criterion analysis of variance,
J.Am.Stat.Assoc.,47,583-621,1952

II. Statistica matematica si biostatistica Teste neparametrice

75
Raportul
( )
( )
i
i i
R D
R E R
2

va fi repartizat ( ) 1 , 0 N , conform teoremei limita


centrala.

Kruskal i Wallis au artat c suma ptratelor lor, cu un factor de
ponderare


N
n
i
1 are aproximativ distribuia ( ) 1
2
k
( )( )
( )
2
2
1
1
2
1 1
1
12
K
i
i
i
i
i
N
R
n
H k
N
N N n
n

=

+



=


+



( )
( )( )
( )
( )
( )
( )
2 2
1 1
12 12
1 1 1
12
K K
i i i
i
i i i
i
2
i i
R R n R R n
N n
H
N N n N N N N N
n
= =

= = =
+ + +


R R

deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor
si media totala, testul este in esenta un fel de ANOVA pe o cale si se aplica
si atunci cand datele nu sunt normal repartizate, cu dispersii egale.
Am folosit,
( )
2
2
2 2 2
2
i
i i i
i i i
i
R
n R R n R R R n NR NR
n
= + =

=


( )
2
2
1
4
i
i
N
R
N
n
+
=


In final H se mai poate scrie :
( )
( )
2
12
3 1
1
i
i
R
H N
N N n
=
+

+
Dac apar valori egale, H trebuie s fie mprit la factorul
N N
T


3
1
unde
( ) ( )
3
1 1 T k k k k = + = k este calculat pentru fiecare grup de
legturi.
Pentru probe mici aproximaia nu este prea bun i Kruskal i Wallis au
dat tabele pentru k=3 i n
i
5.
II. Statistica matematica si biostatistica Teste neparametrice

76
S aplicm testul pentru acelai experiment, considernd dou grupuri
de observaii dup prima administrare i un grup de observaii dup a 5- a
administrare:
Nivelele plasmatice maxime ale ionului dup administrarea i.m.
sunt n tabelul3.
4
EDTA
5
4
7 1 3 9
1
=
+ + +
= R , 7
3
8 11 2
2
=
+ +
= R si 25 , 6
4
10 5 6 4
3
=
+ + +
= R
( )( ) ( )( )
( )( ) ( )( )
86 , 0
11
5 , 9
11
7
7
4 * 25 , 6
11
8
8
3
11
7
7
4
11
4
1
4 * 12
4 11 1 11
2
1 11
25 , 6
11
3
1
3 * 12
3 11 1 11
2
1 11
7
11
4
1
4 * 12
4 11 1 11
2
1 11
5
1
12
1
2
1
2 2
2
2
= = + + =
=

+
+

+
+

+
+

+
+

+
+

=
N
n
n
n N N
N
R
H
i
i
i
i

Dat fiindc valoarea obinut pentru test aparine
zonei de acceptare, ipoteza ca grupurile sunt selectate din aceiai populaie
este acceptat.
103 , 0
2
05 , 0 ; 2
=

2.7.5. Alegerea ntre testele laplaciene i testele neparametrice
Testele nonparametrice au o putere mai mic dect cele clasice,
deoarece nlocuirea valorilor cu rangurile lor semnific pierderea a o parte
din informaie. De exemplu am spune ca doi boxeri sunt de aceiasi valoare
deoarece fiecare a ctigat cte 5 meciuri din 10 ntlniri dintre ei. n
condiia n care n ultima ntlnire A l-a omort pe B, concluzia trebuie
schimbat, deoarece diferena de valoare ntre ei la ultimul meci a fost cu
mult mai mare dect celelate diferene.
Aceast pierdere de informaie este real n cazul testelor
neparametrice atunci cnd efectiv variabilele aleatoare sunt repartizate
normal i au dispersiile egale. n caz contrar se poate ntmpla ca un test
neparametric s fie chiar mai eficient dect cele parametrice.
In alt ordine de idei, aplicarea testelor neparametrice n cazul
seleciilor de volume mari, este foarte laborioas. Ca urmare, conduita de
urmat n alegerea unui tip sau altul de test ar fi dup cum urmeaz:
II. Statistica matematica si biostatistica Teste neparametrice

77
1. n cazul eantioanelor mici sunt de preferat testele neparametrice
deoarece calculele sunt mai rapide i eficiena este comparabil cu cea a
testelor clasice.
2. Cnd se tie c seleciile aparin la populaii repartizate normal i cu
dispersii egale, testele clasice sunt mai eficiente.
3. Cnd nu se cunosc repartiiile variabilelor, alegerea i concluziile se
vor face n funcie de alte informatii privitoare la experiment.
4. Cnd se tie c variabilele aleatoare testate nu sunt repartizate
normal sau este vorba de variabile care se bazeaz pe o scal arbitrar
(scoruri) sau clasificri pe criterii preponderant calitative (de exemplu
ameliorarea strii subiecilor tratai) se apeleaz la testele neparametrice.


2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman
4

Consideram compararea a k esantioane de aceeasi marime, .
i
n k =
In acest caz datele se inscriu intr- o matrice. Daca rangurile le
stabilim pe fiecare linie, de exemplu,

Tabelul nr. 6
Valoarea masurata a dozei subiect
A B C
1 1 2 3
2 2 1 3
3 1 2 3
4 1 3 2
5 1 3 2
i
R
6 11 13

Putem testa daca se produce o crestere semnificativa a valorilor
masurate (de exemplu ) o data cu cresterea dozei, aplicam testul
Friedman
max
c
( )
( )
2 2
1
12
3 1
1
c i
R l c
lc c


= +
+


unde l este numarul de linii si c este numarul de coloane.


4
Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973

II. Statistica matematica si biostatistica Teste neparametrice

78







II. Statistica matematica si biostatistica Regresia liniara

79
2.8. Regresia liniar
Dreptele sunt construite din mulimi de perechi de date, X i Y.
Dou asemenea perechi (de exemplu dou puncte) definesc n mod unic o
dreapt.
Y A BX = +
unde :
A reprezint interceptul lui Y (valoarea lui Y cnd X=0) i
B este panta
2 1
2 1
Y Y Y
B
X X X

= =


pentru oricare dou puncte de pe dreapt.
fig. 1.
Panta i interceptul definesc dreapta: pentru oricare A i B date,
dreapta este definit. n exemplul elementar a dou puncte date, o
aproximare statistic pentru a defini dreapta nu este necesar.
Dac reprezentarea grafic a dou mrimi ce sunt observate simultan
sugereaz o dependen liniar, ajungem la problema determinrii dreptei ce
descrie cel mai bine aceast dependen. Cazurile din farmacie cele mai
frecvente in acest sens privesc chimia analitica, unde semnalul este
proportional, intre anumite limite, cu concentratia, legea Lambert-Beer
fiind cel mai cunoscut exemplu. In acelasi timp, se incearca sa se simplifice
lucrurile prin liniarizare in studiile de stabilitate ale medicamentelor. In
terapie, o intrebare obligatorie la care trebuie sa raspunda prezentarea
oricarui medicamente se refera la liniaritatea farmacocineticii.
Dup cum s-a discutat la capitolul privind extremele funciilor de
mai multe variabile, o soluie a acestei probleme o constituie dreapta prin
cele mai mici ptrate, dreapta pentru care suma ptratelor distantelor de la
ea la punctele experimentale este minim. Aceast soluie consider
punctele ca fiind exacte. Problema capt cu totul alt nfiare atunci
II. Statistica matematica si biostatistica Regresia liniara

80
cnd punctele experimentale sunt considerate valori ale unor variabile
aleatoare, devenind o problem de statistic matematic i analiz numeric
n acelai timp.
dependenta semnalului masurat de
concentratie
0
5
10
15
20
25
0 5 10 15
fitare liniara, dar dependenta non-
liniara
-20
0
20
40
60
80
100
120
0 5 10 15

Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile.
a. dependenta este efectiv liniara dar datele sunt afectate de erori,
b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara

In general, chiar daca nu constientizam acest fapt, de fiecare data cand
incercam sa gasim o dependenta liniara intre doua variabile, facem implicit
urmatoarele ipoteze:
1. Variabila X este masurata fara eroare. Desi nu este totdeauna
adevarat, cel mai adesea X este masurat cu erori relativ mici, si in aceste
conditii presupunerea poate fi considerata adevarata. In cazul unor teste
privind un medicament administrat in mai multe doze, X este doza
nominala care se considera ca a fost administrata. Eroarea in dozare
este foarte mica.Un alt exemplu de variabila X care este adesea folosit
este timpul care poate fi masurat cu suficienta precizie si acuratete.
2. Pentru fiecare X, y este independent si normal distribuit. Adesea
vom folosi notatia Y.x pentru arata ca valoarea lui Y este o functie de X.
3. Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca
variatia lui y nu este constanta, dar este fie cunoscuta, fie asemanatoare cu
cea a lui X intr-un anume fel, sunt alte metode pentru a estima panta si
ordonata dreaptei .
4. Intre X si Y exista o relatie de liniaritate. Y A BX = + , unde A si B
sunt parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive
sa credem ca X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care
aproximeaza cel mai bine dependenta intre cele doua variabile nu
II. Statistica matematica si biostatistica Regresia liniara

81
corespunde legii reale care guverneaza fenomenul, cel mai bine nefiind
de fapt bine.
Aceste premise sunt descrise n:

Fig. 3. Media si dispersia in regresia liniara

Exceptnd poziionarea (media, valoarea medie) distribuia lui y este
aceeai la fiecare valoare a lui X. n exemplul acesta, media distribuiei lui y
descrete pe msur ce crete X (panta e negativ).

In cazul studiilor de stabilitate, dependenta concentratiei substantei
active de timp este, in cel mai bun caz o exponentiala
kt
e c t c

=
0
) (
Dar , pentru valori mici ale lui t exponentiala este aproximata de o
dreapta
) 1 ( ) (
0 0
kt c e c t c
kt
=


Ca parametri esentiali ai cineticii de degradare se folosesc, in locul
constantei de viteza k , timpul de injumatatire si timpul de siguranta sau
timpul la care concentratia scade la 90 % din valoare sa initiala.
Examinm n continuare aspectele matematice pentru cazul cel mai
simplu cnd valorile variabilei x (care n cele mai multe cazuri corespunde
timpului) nu sunt afectate de erori i, pentru fiecare valoare a lui x
corespund un numr de valori y, determinate ntr-un singur experiment
printr-o metod afectat de erori ntmpltoare:
1
1 12 11
,..., ,
n
y y y , pentru
1
x
..
i
in i i
y y y ,..., ,
2 1
, pentru , i=1,2,,k
i
x
Cazul cnd pentru orice i avem 1 =
i
n este relativ mai simplu, dar
este de subliniat c i n cazul cnd acetia sunt diferii de 1 poate fi tratat n
II. Statistica matematica si biostatistica Regresia liniara

82
aceiai manier admitnd c ntre perechile ( )
i i
y x , s fie i perechi cu
acelai .
i
x
S admitem c pentru un x fixat, valoarea msurat y este o variabil
aleatoare cu urmatoarea structur:
(1) y x = + = + +
distribuit normal cu dispersia i media
2
x + =
Problema care ne-o punem este aceea ca, din datele
experimentale , s obinem nite estimri a, b i s
2
pentru , si
2
, i s
determinm distribuiile acestor estimaii.
i
y
Estimarea ecuaiei de regresie o notam :
(2) bx a Y + =
Metoda celor mai mici ptrate d valorile a i b care minimizeaz
suma ptratelor deviaiilor (erorilor) ntre valorile observate i cele
prezise de ecuaia de regresie (2):
i
y
(3) ( ) ( )
2 2

=
i i i i E
bx a y Y y SS
Metoda este n principal datorat lui Gauss. Pentru aflarea
parametrilor a i b, nu este necesar ipoteza privind distribuia normal a
erorilor, dar aceasta este necesar pentru construirea unor intervale de
ncredere i pentru testarea unor ipoteze privind aceiai estimatori. Metoda
celor mai mici ptrate ofer avantajul c estimatorii pe care i d sunt
deplasai i au o dispersie minim n clasa estimatorilor nedeplasai.
Valorile lui a i b care minimizeaz suma ptratelor erorilor sunt
soluiile sistemului
( )
( )
2
0
2 0
2 0
0
i i i i
i i i i i
SS
y a bx na b x y
a
i i
y a bx x a x b x x y SS
b

= + =



= + =


=




(4)
Rezolvnd sistemul prin regula lui Cramer se obin ca estimatori
pentru i :
( )

=
2
2
2
i i
i i i i i
x x n
y x x x Y
a i
( )

=
2
2
i i
i i i i
x x n
y x y x n
b
Numrtorul expresiei lui b poate fi scris i n forma
( )
i i i
i
i i i i i i
y x x n y
n
x
y x n y x y x n

=


Deoarece ( ) 0 =

x x
i
i ( ) 0 =

x x y
i
, mai putem scrie
II. Statistica matematica si biostatistica Regresia liniara

83
( ) ( ) ( ) ( )( ) y y x x x x y y x x y x x
i i i i i i i


Similar, dup cum se poate uor verifica, avem:
( ) ( )
2
2
2

x x n x x n
i i i

n consecin, o form alternativ pentru b este
( )( )
( )


=
2
y x
y y x x
b
i
i i
.
Putem verifica uor c b este un estimator nedeplasat pentru .
Presupunem valoarea ateptat dat de ecuaia
i
y
i
x + , pentru un .
Atunci:
i
x x =
( )
( ) ( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
2 2
2
2
2 2 2
1
0
i i i i
i i
i i
i i i
i i i
x x E y y x x x
E b
x x x x
x x
x x x x x
n
x x x x x x


+
= = =


= + = +

=






Dispersiile lui a i b pot fi obinute direct, deoarece sunt funcii
liniare de , care valori sunt presupuse independente i distribuite normal,
cu dispersia :
i
y
2

( )
( )
( )
( ) ( )
( ) ( )
( )


=
2
2
2
2
2
2
x x
x x
y D x x
x x
y x x
D b D
i
i
i i
i
i i


Din prima ecuaie a sistemului (4) avem: X b Y a = .
( ) ( ) ( )
( )
( )
( ) ( )
( )
( )
( ) b D
n
x
x x
n
x
x x n
n
x
n
x
x
x x
x
n
x x
x y D
n
b D x
n
y
D a D
i
i
i
i
i i
i
i
i
i
i

=
=


+ =
=

= +


=
2
2
2 2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1


Deci,
2
2
b
i
a
S
n
x
S

=

II. Statistica matematica si biostatistica Regresia liniara

84
2.8.1. Estimaii i ipoteze asupra coeficientului b
Coeficientul b are o importan deosebit i prin aceea c el
reprezint o msur a corelrii ntre x i y.
1. Coeficientul b este, dup cum s-a artat, repartizat normal cu media
i dispersia
( )


2
2
x x
i



2. Dac
i
y sunt punctele experimentale, iar
i
Y estimrile lor teoretice,
i i
bx a Y + = , suma ptratelor erorilor va fi ( )

=
2
i i E
Y y SS . Vom
arta c:
2
2
=

n
SS
E
E

Pentru a demonstra aceasta relaie plecm de la definiia sumei erorilor
( ) [ ]
( ) ( ) [ ] ( ) ( ) [ ]
( ) ( ) [ ] ( ) ( )( ) ( )
2
2
2 2
2
2
2
2

+

=
=

+ + = + =
=

+ =
x x b y y x x b y y x x b y y
bx a x b a y y bx a y y y
bx a y SS
i i i i i i
i i i i
i i E

Dar
( )( )
( )


=
2
x x
y y x x
b
i
i i
i putem nlocui ( )( ) ( )


2
x x b y y x x
i i i
.
Deci avem ( ) ( ) B A x x b y y SS
i i E
=

=
2
2
2

Calculm separat ( ) A E i ( ) B E .
( ) ( ) [ ] ( ) ( ) ( )
2
2
2
2
2
y nE y E y n y E y y E A E
i i i

=

n continuare, folosind identitatea ( ) ( ) ( ) ( )
2
2
Y E Y E Y D + = i faptul c
( ) x y E + = i ( )
n
y D
2

= obinem
( ) ( )
( )
( )
( )
2
2
2
2
2
2
i
i
E A x n X
n
x X





= + + + + =




= + + =



II. Statistica matematica si biostatistica Regresia liniara

85
( )
( )
( )
( )
( )( )
( ) ( ) ( ) ( ) ( )
( )
( )
( )
( )
( )
( )
2
2
2
2
2
2
2 2
2
2 2 2 2 2
2
2 2
2 2 2 2
2 2
1
i
i
i i
i i i i
i i i
i i
x n X
n
x X
x X x X
x X x X x X x X
x X x nX x X
n
n x x n x x
n




= + + + + =




= + + =


= + + + + =

= + + = + + =

= = = =
= + = +






Mai departe,
( ) ( ) ( ) ( ) ( ) ( ) ( ) [ ]
( )
( )


=
= +

=
2
2
2
2
2
2
2
2

X x
x x
b E b D x x b E x x B E
i
i
i i

i deci,

( ) ( ) ( ) ( ) ( )
2 2
2
2
2
2 2
2 1 = + =

n X x X x n SS E
i i E


3. Variabila aleatoare
2

E
SS
este repatizat ( ) 2
2
n .


Pe baza acestor trei proprieti putem estima intervalele de ncredere
pentru i verifica ipoteze asupra valorilor sale.

a) Cazul dispersiilor cunoscute
n cazul n care se cunoate dispersia erorilor de msurare
se folosete faptul c variabila
aleatoare
( ) ( )
2
= =
i i
y D D
( )
( )
2
1
2
2

=
x x
b
b D
b
z
i


este repartizat ( ) 1 , 0 N .
II. Statistica matematica si biostatistica Regresia liniara

86
b) Cazul dispersiilor necunoscute
n acest caz se nlocuiete dispersia lui b:
( )


=
2
2
x x
i
b

cu
estimatorul numit dispersia de selecie:
( )
( ) ( )


=
2 2
2
2 2
x x
n
SS
x x
n
Y y
S
i
E
i
i i
b
.
Variabila aleatoare

( ) ( )
( )
2
2
2
2
2
2
1
2
2
1
2

=

n
Z
n
SS
b
x x n
SS
b
T
n
E
b
i
E


este repartizat Student cu n-2 grade de libertate.
Ca urmare putem determina intervalele n care se afl cu diverse
probabiliti sau verifica ipoteze privind valoarea lui, exact cum este utilizat
testul t pentru testarea ipotezei privind media necunoscut.
Intervalul de ncredere pentru este:
b
n
b
n
S t b S t b
2
1 , 2
2
1 , 2



+

2.8.2. Estimarea dispersiei punctelor dreptei de regresie
Considerm un punct fixat i punctul corespunztor lui: , pe
dreapta de regresie y
0
x
0
y
bx a x y + = + + =
x b a Y + =

0 0 0
bx x b Y bx a y + = + =
( ) x x b Y y + =
0 0
estimatia lui este o variabil aleatoare distribuit
normal.
0
y
Avem ( )
0 0 0
x Y Y E + = = i
( )
( )
( )
( )
0
2 2
2 2
2 2 2
0 0 2 y y b
i
D y x x x x
n
x x

= = + = +

0

II. Statistica matematica si biostatistica Regresia liniara

87
Estimnd valoarea lui prin
2

2
2
E
SS
s
n
=

avem
( )
( )
0
2
0
2 2
2
1
y
i
x x
s s
n
x x


= +

.
Variabila aleatoare
( )
0
0 0
y
s
x y
T
+
= este repartizat Student cu
grade de libertate i permite calculul intervalelor de ncredere pentru 2 n
0
x + .
( ) ( )
2 2
0 , 2 . 0 , 2 . 2 2
1 1
,
n Y x n Y x
x x x x
y t S y t S
n n
x x x x










+ + +








Dispersia depinde de distana ntre i
0
Y
s
0
x x , iar limitele de
incredere ale lui Y pentru valori specifice ale lui x depind de dispersie,
numarul gradelor de libertate, numarul de puncte utilizate pentru
determinarea dreptei si valoarea sa este minim atunci cnd x x =
0
. n acest
caz, Y y =
0
i
y y
s s =
0
.
Facem observaia c dispersia determinat n punctul este
dispersia datorat regresiei. Valorile experimentale nu sunt ns valori ale
regresiei
0
y
( ) x x b Y y + =
0 0
, estimate de drepta de regresie. n acest caz,
valoarea individual determinat difer fa de valoarea printr-o eroare ,
a crei dispersie este egal cu , variabilitatea datelor individuale fa de
valorile corespunztoare regresie Y.
0
Y
2

Ca urmare, valorile individuale vor avea dispersia:


( )
( )

+ + =
2
2
0 2
2
2 2
0
x x
x x
n
i
y


ceea ce , pentru valorile de selecie devine
( )
( )
0
2
0
2 2
2
1
1
y
i
x x
s s
n
x x


= + +

.




II. Statistica matematica si biostatistica Regresia liniara

88
2.8.3. Calculul intervalelor de ncredere pentru dreapta de regresie n
cazul stabilitii formelor farmaceutice.
In cazul studiilor de stabilitate avem doua tipuri de probleme.
Pentru o concentratie data, de exemplu 90 % din cea initiala, in afara de
timpul de pe dreapta de regresie cand se atinge acest prag, ne intereseaza si
marginea inferioara a intervalului de timp, deci timpul pentru care suntem
siguri ca nu a scazut concentratia sub 90 %. Din punct de vedere al
sigurantei pacientilor , este mai bine sa contam pe acest timp.
FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un
interval de incredere unilateral decat unul bilateral pentru a estima data de
expirare. Pentru cele mai multe produse, continutul in substanta activa poate
doar sa descreasca in timp, si numai marginea inferioara a intervalului de
incredere vs. curba timpului pot fi considerata relevanta. (o exceptie poate
fi in cazul produselor lichide unde evaporarea solventului duce la cresterea
concentratiei substantei active).
Pentru a obtine acest domeniu de valori pentru X (timpul pentru
continutul de minim 90%) folosind metoda estimatiei grafice asa cum
este descrisa mai sus, presupune calcularea bandei de incredere pentru un
domeniu suficient de intins pentru X.


Fig. 5. Banda de incredere 95% pentru linia de stabilitate

Banda de ncredere are form de hiperbol i ilustreaz variaia
lrgimii intervalului de ncredere pentru diferite valori ale lui X, respectiv
Y.
II. Statistica matematica si biostatistica Regresia liniara

89
Calcularea intervalului de incredere pentru un X la o valoare
specifica lui Y este
g
X X X X N g b S t X g X
y

+

1
/ / ) 1 ( ] / ) ( [ ) (
2 2

unde
( )


=

2
2
2 2
X X b
S t
g
y

Aceasta procedura de estimare a lui X pentru o valoare data a lui Y
se numeste adesea predictie inversa.

2.8.4. Studiul stabilitii medicamentelor
Exemplul 1: Studiul stabilitii n cazul comprimatelor de vitamina B1
(tiamim).
Msurtorile privind rata de descompunere a unui medicament au
mare importan n studiile despre medicamente, datele de stabilitate fiind
de regul analizate prin metode statistice. Stabilirea unei date de expirare a
medicamentului definete pragul de via a acestuia. n mod tipic,
medicamentul este stocat/depozitat n condiii variate de temperatur,
umiditate, lumin (intensitate a luminii) .a.m.d. i este analizat gradul de de
stabilitate/descompunere a medicamentului la intervale de timp specificate.
Experii stabilesc datele de expirare a medicamentului bazndu-se pe
datele tiinifice referitoare la stabilitatea medicamentelor. Condiiile fizice
ale testului stabilitii (de exemplu: temperatur, umiditate), durata testrii,
programul analizei, ca de altfel i numrul loturilor, sticlelor i tabletelor
trebuie analizate lund probe pentru studiile de stabilitate. O definiie i o
implementare atente a acestor condiii sunt importante deoarece validitatea
i precizia recomandrii termenului fina de expirare depinde de cum este
realizat experimentul.
Reglementrile GMP (Good Manufacturing Practice) stabilesc
criteriile statistice, incluznd mrimea probelor test in functie de cele de
referin (observarea i msurarea), intervalele pentru fiecare
atribut/caracteristic msurat fiind folosite pentru asigurarea validitii
estimrilor statistice de stablitate. Termenul de expirare trebuie s fie
statistic valid.
II. Statistica matematica si biostatistica Regresia liniara

90
Mecanismul determinrii duratei de via a medicamentului poate fi
complex, mai ales atunci cnd sunt utilizate condiii extreme, cum ar fi cele
pentru accelerarea studiilor de stabilitate (de exemplu temperatur ridicat
i condiii de umiditate ridicate).
De obicei condiiile extreme sunt utilizate n testarea stabilitii
pentru a economisi timpul i pentru a obine o dat de expirare mai aproape
de realitate. Toate produsele trebuie testate pentru stabilitate i n condiiile
recomandate de productor (deci nu accelerate). FDA a sugerat ca cel puin
trei loturi de produse s fie testate pentru a li se determina termenul de
expirare. Este necesar a se nelege c pentru loturi diferite se pot obine
rezultate de stabilitate diferite, mai ales n situaiile n care excipienii pot
afecta stabilitatea. n aceste cazuri variaia ntre calitate i cantitate a
aditivilor (excipienilor) ntre loturi poate afecta stabilitatea. O alt cauz
pentru care se folosesc mai multe loturi pentru testarea/determinare
stabilitii este acela de a asigura c toate caracteristicile de stabilitate sunt
similare de la un lot la altul.
Intervalurile de timp alese pentru analiza pstrrii probelor-martor
depind de caracteristicile majore ale produsului i de stabilitatea anticipat.
Un model statistic optim pentru studiul stabilitii ine seama de timpul de
depozitare prevzut pn cnd medicamentul va fi supus analizei. Aceast
problem este dezbtut pe larg de literatura farmaceutic. Totui, modelele
rezultate din asemenea premise sunt de obicei greoaie i nepractice. De
exemplu, din punct de vedere statistic, panta eficacitii/concentraiei
funcie de timpul (graficul ratei descompunerii) se obine cu mai mult
precizie dac jumtate din totalul punctelor observate sunt obinute la
timpul 0, iar cealalt jumtate la finalul timpului de testare. Numitorul
crete n aceste condiii, invers proporional cu variabilitatea pantei.
n situaiile practice se va urmri informaia privind punctele de la
nceputul i finalul analizei pentru a evaluarea ratei descompunerii pe durata
studierii procesului de stabilitate precum i verificarea linearitii ratei de
descompunere n funcie de timp. Cu ct se studiaz mai multe puncte
experimentale se ndeplinesc mai bine cerinele regulatorii ale FDA-ului.
Cei mai folosii timpi pentru efectuarea analizelor sunt la timpii t: 0, 3, 6, 9,
12, 18 i 24 luni i apoi la intervale anuale de timp.
S lum n considerare o anumit formulare (ex.: comprimate) care
fac obiectulul studiului stabilitii. Se aleg trei tablete la ntmplare, se
analizeaz la: 0,3, 6, 9, 12 i 18 luni, dup producie, n condiiile
temperaturii camerii (20 de grade Celsius). Datele sunt prezentate n tabelul
de mai jos.

II. Statistica matematica si biostatistica Regresia liniara

91
Timp X (luni) Concentratia Y * Media
0 51, 51, 53 51,7
3 51, 50, 52 51,0
6 50, 52, 48 50,0
9 49, 51, 51 50,3
12 49, 48, 47 48,0
18 47, 45, 49 47,0
Lund n considerare aceste date, se propune stabilirea termenului de
valabilitate care se definete ca durata de timp de la data fabricaiei pn
cnd un comprimat conine 90% din substana activ declarat. Produsul
luat n considerare are o concentraie declarat de 50 mg i cu o specificaie
tehnic care prevede o supradozare de 4%; n acest caz productorul va
fabrica tablete cu o concentraie de 52 mg de substan activ.
Figura arat c datele sunt variabile. O examinare atent a acestui
grafic sugereaz c dreapta este reprezentarea adecvat a acestor date.
44
45
46
47
48
49
50
51
52
53
54
0 2 4 6 8 10 12 14 16 18 20
ti mp (l uni )
C
o
n
c
e
n
t
r
a
t
i
e

(
m
g
)


Aplicarea metodei dreptei celor mai mici ptrate este cel justificat
n situaiile n care exist un model teoretic care s arate c scderea n
concetraie este linear n raport cu timpul (n acest exemplu, un proces de
ordin zero).
Cinetica scderii concetraiei substanei active n timpul depozitrii
n cazul formelor dozate solide este complex i un modelul este greu de
conceput. n cazul de fa, se presupune c concetraia i timpul sunt n
relaie linear:
( )
0
C t C kt =
unde
C(t) = concentraia la timpul t
C
0
= concentraia la timpul 0 (interceptul Y, A)
II. Statistica matematica si biostatistica Regresia liniara

92
k = constanta
t = timpul de depozitare
Avnd ca obiectiv estimarea perioadei de valabilitate a
medicamentului, cea mai uoar metod de analiz a acestor date este
estimarea pantei i interceptului dreptei celor mai mici ptrate.(La o prim
vedere putem estima panta i interceptul din ochi (metod grafic).
Cnd facem calculele celor mai mici ptrate, reinem c fiecare
valoare a timpului (X) este asociat cu trei valori ale concentraiei
medicamentului (y). Dac calculm C
0
i K, fiecare valoare de timp este
numrat de trei ori i N este egal cu 18.
Avem:
( ) ( ) ( )
0 0 0 1 1 1 .... 18 18 18 144 X = + + + + + + + + + =


( ) ( ) ( )
2 2 2 2 2 2 2 2 2 2
0 0 0 1 1 1 .... 18 18 18 1782 X = + + + + + + + + + =


( ) ( ) ( )
0 0 0 1 1 1 .... 18 18 18
8
18
X
+ + + + + + + + +
= =
( ) ( )
51 51 53 .... 47 45 49 894 y = + + + + + + =


( ) ( )
2 2 2 2 2 2 2
51 51 53 .... 47 45 49 44476 y = + + + + + + =


51 51 53 ... 47 45 49
50
18
y
+ + + + + +
= =
( ) ( )
0*51 0*51 0*53 .... 18*47 18*45 18*49 6984 Xy = + + + + + + =


( )
( ) ( )
2
2 2
3* 0 8 ... 18 8 630 X X

= + + =


( )
( ) ( ) ( ) ( )
2
2 2 2 2
51 50 51 50 53 50 ... 49 50 74 y y = + + + + =



Avem:
( )
2 2
2
18*6984 144*894
0, 267 /
18*1782 144
n Xy X y
b mg luna
n X X


= = =




( )
894
* 0, 267 *8 51, 80
18
a y b X = = =
Ecuaia dreptei de regresie este:
( )
51, 80 0, 267* C t t =

Ca estimare a dispersiei folosim:
II. Statistica matematica si biostatistica Regresia liniara

93
( ) ( ) ( )
( )
( )
( )
2 2
2
2
exp
2
2
2 2
2
2
2 2 2
2
44476 894 /18 0, 267 *630
1,1825
18 2
th
i
i i
y y b X X
y y
SSE
n n n
y
y b X X
n
n

= = =


= =


= =




Calcularea timpului n care concetraia comprimatului este de 90%
din cantiatea de substan activ declarat, adic 45 mg, se folosete ecuaia
pentru calcularea lui t (timpul) pentru o concetraie
de 45 mg (C = concetraia la care comprimatul conine 90% din substana
activ declarat).
( )
51, 80 0, 267* C t t =
51, 80 0, 267* C t = 25, 5 t luni =
Estimarea timpului la care concetraia comprimatului va fi de 90%
din cantitatea declarat iniial (se regsesc 45 mg de substan activ dup
25,5 luni de la data fabricaiei). Aceasta este un rezultat mediu bazat pe
datele a 18 tablete.
Pentru o singur tablet, timpul de descompunere la 90% din
cantitatea declarat de substan activ variaz n funcie de cantitatea de
substan activ iniial (la t = 0, t este timpul).
Cu toate acestea, perioada de valabilitate a medicamentului se
estimeaz pe baza rezultatelor mediilor.

Exemplul 2:Studiul stabilitii tiaminei (forma farmaceutic comprimate)
In tabelul urmtor se va lua un studiu al stabilitaii tiaminei
(vitamina B1).
timpul (luni) t concetratia in tiamina C (mg/tableta)
0 100
3 98.9
6 98.1
9 96.8
12 96.2
Timpul mediu este:
0 3 6 9 12
6
5
luni
+ + + +
= = t
n tabelul urmator sunt calculate:
II. Statistica matematica si biostatistica Regresia liniara

94
t t t
( )
2
t t
C d
C
d
C C
( )
2
d
C C
0 6 36 100 100 0 0
3 3 9 98.9 99 0.1 0.01
6 0 0 98.1 98 -0.1 0.01
9 3 9 96.8 97 -0.2 0.04
12 6 36 96.2 96 0.2 0.04
total=90 Total=0.1
unde:
C = concentratia in tiamina (mg/tableta)
d
C = concentratia calculata din dreapta de regresie
t = timpul
Dispersia se obine astfel:
2
0 0, 01 0, 01 0, 04 0, 04
0, 03
5 3
s
+ + + +
= =

, adic 0,18
2
SSE
s
n
= =


, 2 0,1;5 2 0,1;3
2, 35
n
t t t

= = = (avem 3 grade de libertate)
, 2
* 0,18*2, 35 0, 423
s n
T s t

= = =

Dar, pentru un t fixat, considerand si eroarea de determinare experimentala:
( )
( )
( )
2
0 0 2
1
1
s
t t
C t C k t T
n
t t

= + +


Se obine un interval de ncredere de 95% egal cu:
( )
( )
2
2
6
100 0, 3* 0, 423 1, 2
6
t
t
t


Pentru t=0 se obtine
[ ]
100 0, 423 1, 6 100 0, 423*1, 264 100 0, 535 99, 465 ; 100, 535 = =

Daca vom considera numai eroarea fata de dreapta de regresie
( )
( )

+ =
2
2
0 2
1
0
x x
x x
n
s s
i
y
. Vom putea construi un interval de incredere
pentru punctul y fixat (deci o concentratie data).

II. Statistica matematica si biostatistica Regresia liniara

95
Variabila aleatoare
( )
0
0 0
y
s
x y
T
+
= este repartizat Student cu n-
2 grade de libertate i permite calculul intervalelor de ncredere pentru
0
x + .
( ) ( )


+ +

2
2
. 2 , 0
2
2
. 2 , 0
1
,
1
x x
x x
N
S t y
x x
x x
N
S t y
x Y n x Y n
unde ; 1/n=1/5=0.2
.
0, 03
Y x
S s = =
Se obine un interval de ncredere de forma:
( )
( )
2
2
100 0, 3* 0, 423 0, 2
t t
t
t t


Pentru t=0, concentratia activa initiala este estimata :
[ ]
36
100 0, 423 0, 2 100 0, 327 99, 673;100, 327
90
+ =


2.8.5. Regresia ponderata

Una din presupunerile implicite in aplicarea inferentei statistice este
acela ca variatia lui y este aceeasi la fiecare valoare a lui X. Apar multe
situatii in practica atunci cand aceasta presupunere nu este respectata. Un
caz frecvent este acela cand variatia lui y este proportionala cu X. Aceasta
apare cand y are un coeficient constant al variatiei (CV) si y este
proportional cu X (y = BX), observat de obicei in metodele de analiza
instrumentala in chimia analitica.

Doua din abordarile posibile in rezolvarea acestei probleme sunt:
a) O transformare a lui y pentru a face variatia omogena, cum ar fi
transformarea logaritmica .
b) O analiza de regresie ponderata.

II. Statistica matematica si biostatistica Regresia liniara

96
O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi
este inversul patratutului acesteia
2
1
i
X
. Deci, in formulele pentru calculul
coeficientilor A si B valorile y
i
se vor inlocui cu valorile
2
i
i
i i
X
y
y w =

2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia

Se numesc reziduuri diferentele intre valorile calculate prin regresie si
cele experimentale ( ceea ce , in alt context, numeam ca erori)
Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau
nonlinieritatea.

Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate
sunt valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-
ar trebui sa apara nici o tendinta.

Figura 6 arata un grafic al reziduurilor ca functie de X. Faptul ca
reziduurile prezinta o forma de palnie, marindu-se pe masura ce X creste,
sugereaza folosirea unei transformari logaritmice sau utilizarea unor
ponderi pentru a reduce heterogeneitatea variatiei.

II. Statistica matematica si biostatistica Regresia liniara

97
Valori reziduale
0
1
2
3
4
5
6
7
8
9
10
0 50 100
Concentratia
V
a
l
o
a
r
e

r
e
z
i
d
u
a
l
a

Valori reziduale logaritmate
0
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5
Concentratia (ln)
V
a
l
o
r
i

r
e
z
i
d
u
a
l
e

Fig. 6a Valorile reziduale in raport cu
distributia normala
Fig.6b Valorile reziduale in raport cu
distributia log normala. Mare parte din
heterogenitatea variatiei a fost inlaturata.


Consideram o variabila aleatoare y care depinde liniar de variabila
aleatoare x :
x y + =
Atunci cand facem determinarile experimentale noi nu stim nici daca
cele doua variabile se coreleaza liniar si nici care este dreapta care descrie
dependenta lor. Putem insa, prin analiza datelor experimentale sa
determinam, prin metoda celor mai mici patrate, o estimare a dreptei
bx a y + =
daca vom considera un set de determinari ( )
j
N j
ij
y
, 1 =
corespunzatoare pentru
un dat :
i
x
II. Statistica matematica si biostatistica Regresia liniara

98

Distanta de la un punct dat la
ij
y y se poate descompune in trei
componente: distanta pana la
i
y - media punctelor , distanta de la media
grupului la valoarea estimata prin dreapta si distanta de la punctele de pe
dreapta la media totala
ij
y
i
y
y :
( ) ( ) ( ) y y y y y y y y
i i i i ij ij
+ + =
Ridicand la patrat, sumand si tinand cont ca sumele de produse mixte sunt
zero, se obtine :
( ) ( ) ( ) ( )
2 2 2 2


+ + = y y N y y N y y y y
i i i i i i ij ij

sau
e linearitat e linearitat la de deviatie eroare T
SS SS SS SS + + =
Observam ca, daca toate punctele ar fi pe o dreapta va fi
zero, deci aceasta suma este o masura a corelarii liniare.
e linearitat la de deviatie
SS
Intr-adevar :
( ) ( ) x x
S
S
r x x b bx a bx a y y
x
y
= = + =
Facem observatia ca datele pot fi aproximate foarte bine dupa o alta lege (de
exemplu x k y = cum este in cazul in care se aplica la dizolvare legea lui
Higuchi).
Se definesc coeficientul de corelatie si a raportului de corelare ca :
II. Statistica matematica si biostatistica Regresia liniara

99
total
linear
SS
SS
r =
2
si
total
e linearitat la de deviatie linear
Y
X
Y Y
SS
SS SS
s
s s
+
=

=
2
2 2
2

Raportul de corelare
2
este proportia de variabilitate a lui
Y atribuabila covariantei cu X ;
Coeficientul de determinare (corelatie) este proportia de variabilitate
a lui Y atribuabila covariantei liniare cu X .

Legatura intre panta dreptei de regresie si coeficientul de corelatie

Avem dupa definitie


=
y
i
x
i
S
y y
S
x x
N
r
1

In cazul in care punctele sunt toate pe o dreapta
i
y
i i
bx a y + =
( )
y x
i
y
i
x
i
S S
x x b
N S
x b a bx a
S
x x
N
r


=
2
1 1

dar,
( ) ( )
2 2
2
2
2
2
x
i i
y
S b
N
x x b
N
x b a bx a
S =

=
+
=


Deci, inlocuind mai sus
( )
y x
i
y
i
x
i
S S
x x b
N S
x b a bx a
S
x x
N
r


=
2
1 1

( )
1
1
2
2
2
= =

=

x
x
x x
i
S
S
bS S
x x b
N
r
Cand punctele nu sunt pe dreapta, panta dreptei prin cele mai mici
patrate b este:
( )( )
( )
( )( ) ( )( )
x
y
x
y
y x
i i
x
i i
i
i i
S
S
r
S
S
S S
y y x x
S
y y x x
x x
y y x x
b =

=

=

2 2

Deci,
x
y
S
S
r b =




II. Statistica matematica si biostatistica Regresia liniara

100
2.8.7. Stabilitatea dreptei de regresie in bioanalitica
In bioanalitica si in chimia analitica in general, pentru fiecare
concentratie, la stabilirea dreptei de etalonare se fac mai multe
determinari.
Curbele de etalonare (dreptele) trebuie sa treaca prin origine; adica
in cazul acesta rezultatul trebuie s fie 0 dac concentraia de medicament
este 0. Calcularea pantei este simplificat dac dreapta este forat s treac
prin punctul de (0, 0). n cazul acesta nostru, dac interceptul este zero,
panta este:
2
Xy
b
X
=




Fig. 7. Curba care trece prin origine si are interceptul 0

Dac aceast dreapt urmeaz s fie folosit pentru a prevedea
concetraiile actuale bazndu-se pe rezultatele analizei experimentale, vom
obine rspunsuri care sunt diferite fa de cele previzionate de dreapta
trasat anterior. Cu toate acestea, ambele drepte au fost construite din
acelai date experimentale. Este vre-o dreapta care este corecta? sau Este
una din cele 2 drepte mai buna decat cealalta?. Desi nu putem spune cu
ncredere care dreapta este mai potrivita, este necesara o cunoastere a
metodei analitice este foarte importanta in luarea deciziilor pentru una dintre
cele 2 drepte.
De exemplu, un intercept diferit de zero, sugereaz fie non-
linearitatea pentru un sir de analize fie prezena unei substane care
interfereaz n proba de analizat.
Dreapta pe care o vom folosi se va face pe baze statistice. Un test
statistic al interceptului poate fi pornind de la ipoteza nula ca interceptul
este 0, (H
0
: A = 0). Respingerea ipotezei este o dovad puternic c dreapta
cu intereceptul pozitiv este cea mai adecvata pentru aceste date.
II. Statistica matematica si biostatistica Regresia liniara

101
Se calculeaza apoi acuratetea sau exactitatea acestor
determinari, cuantificata prin distanta valorii calculate prin regresie

Pi r oxi cam
Linear Regression
Y = B*X + A
Parameter Value Error
A -0.0029 0.0079
B 0.3294 0.0019
R 0.9999
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
0 2 4 6 8 10 12
Conc (g/mL)
A
r
e
a

A
n
a
l
i
t
/
A
r
e
a

S
I


Fata de concentratia nominala, concentratia care s-a preparat
efectiv ( pe care o consideram ca nu este afectata de erori). In momentul in
care media determinarilor efective la una din aceste concentratii se
modifica, si dreapta de regresie se va modifica si deasemena si distantele
tuturor punctelor experimentale la aceasta dreapta.

Este de dorit o dependenta stabila a acuratetei punctelor de
acuratetea datelor de intrare, in sensul ca o eroare mica in preparare sau in
masurare, sa afecteze putin acuratetea dreptei.
In mod concret , consideram datele experimentale de la determinarea
dreptei de etalonare a piroxicamului in probe de plasma (fig. 5). Orice
eroare in preparare sau masurare schimba dreapta.
Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 %
la limita de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de
cuantificare.
Acuratetea punctelor dupa o schimbare de 10% a conc.
experimentale la diferite limite de cuantificare



II. Statistica matematica si biostatistica Regresia liniara

102
Tabelul nr. 7
Limita inferioara de cuantificare Limita superioara de cuantificare
Conc A/SI
Conc
exp Acc
Acc
initial Conc A/SI
Conc
exp Acc
Acc
initial
0.1 0.0240 0.083 83.3 90.014 0.1 0.0267 0.164 164.1 90.01
0.25 0.0818 0.259 103.4 102.841 0.25 0.0818 0.318 127.1 102.84
0.5 0.1570 0.487 97.4 97.070 0.5 0.1570 0.527 105.5 97.07
1 0.3396 1.041 104.1 103.991 1 0.3396 1.037 103.7 103.99
2.5 0.7903 2.409 96.4 96.321 2.5 0.7903 2.294 91.8 96.32
5 1.6711 5.083 101.7 101.643 5 1.6711 4.752 95.0 101.643
10 3.2840 9.978 99.8 99.786 10 3.6124 10.168 101.7 99.786

Se observa ca efectul erorilor la concentratii mici asupra celorlalte
concentratii este neglijabil, in timp ce efectul erorilor la valori mari asupra
acuratetei concentratiilor mici este critic , transformandu-le pe acestea in
valori discordante.



Concluzii

n studiul stabilitaii medicamentului, pe lng determinariile
practice de stabilitate, aplicarea metodei regresiei lineare are un rol
important. Astfel determinarea intervalului de ncredere pentru a stabili
termenul de valabilitate al unui medicament se obine folosind aceasta
metoda.
Cu ajutorul dreptei de regresie (dreapta celor mai mici ptrate) se pot
face estimari pentru a stabili valabilitatea unui produs.
Aa cum s-a aratat in exemplul tabletelor cu tiamin, se ia in
considerare limita inferioar in calculul stabilitii unui medicament,
deoarece practic durata de via a unui medicament se situeaz intre limitele
acestui interval. n acest fel putem fi siguri ca data de expirare care este
nscrisa pe cutie, este practice sub data efectiv de expirare i se nlatur
eventualele erori care apar n calculul statistic. De regul durata de
valabilitate se calculeaz astfel nct la termenul de expirare, forma
farmaceutic luat n considerare (n cazul nostru tabletele de tiamin) s
conin cel puin 90% din substana activ declarat, respective dozat.
Lund n considerare aceste lucruri, estimarea dreptei de regresie,
respective a parametrilor ei joac un rol foarte important in studiul
stabilitii unui medicament, indiferent de forma farmaceutic luat n
calcul.
II. Statistica matematica si biostatistica Regresia liniara

103
Calculul intervalelor de ncredere sunt necesare de asemenea pentru
a stabili durata de viaa a unui medicament. Practic ele conduc la stabilirea
valabilitii acestor. Tocmai de aceea se ia n considerare limita inferioar a
acestor intervale. n acest mod se elimin o parte din erori. n momentul
datei limit a valabilitii unui medicament, acesta trebuie sa nu fi pierdut
mai mult de 10% din cantitatea aflat iniial n produsul luat n calcul.
n estimarea ntervalelor de ncredere pentru stabilirea valabilitii
unui medicament, analizele se fac de regul la 0, 3, 6, 9, 12 luni, iar mai
apoi anual. De asemenea se pot efectua i studii de stabilitate accelerate, la
timpi mai scuri dar n condiii de temperatur i umiditate crescute.






























II. Statistica matematica si biostatistica Regresia liniara

104

II. Statistica matematica si biostatistica ANOVA

105
2.9. Metode statistice de analiza factorilor de variabilitate n
experimentul biologic (ANOVA)

S cercetm, n continuare, problema comparrii mai multor selecii
provenite din populaii pe care le tim ca fiind normal repartizate, de
exemplu concentraiile plasmatice realizate de tablete care conin diferii
excipieni, dar care au aceeai substan activ, n aceeai doz.
Vrem s verificm ipoteza compus c acestea provin de fapt din
aceiai populaie, avnd media i dispersia , deci c excipienii folosii
nu influeneaz semnificativ cedarea i absorbia substanei active:

= = =
3 2 1 0
: H
4

fa de ipoteza alternativ c cel puin dou medii nu sunt egale.
O variant de rezolvare a problemei ar fi compararea mediilor de
selecie dou cte dou prin metodele prezentate anterior.

Fie, de exemplu, relaia ntre mediile de selecie
4 3 2 1
x x x x .
Este evident greit a aplica o relaie de tranzitivitate i a spune c

2 1
= i
3 2
= i
4 3 2 1 4 3
= = = = .
Motivul acestei erori este legat n primul rnd de violarea unui
principiu de baz al teoriei seleciei: alegerea la ntmplare a seleciilor. Ori
compararea loturilor dup criteriul a posteriori, al mrimii mediilor de
selecie este ntr-adevr o abatere de la acest principiu.
Mai mult, nici mcar
4 1
= nu implic n acest caz
3 2
= din
cauza dependenei rezultatului testelor de relaiile ntre dispersiile
populaiilor din care provin seleciile.
Ca urmare, problema comparrii mai multor selecii (loturi) trebuie
abordat prin alte metode care s fac compararea tuturor seleciilor n
acelasi timp. O astfel de abordare se bazeaz pe compararea dispersiilor de
selecie i se numete analiz dispersional.
Analiza dispersional este o alt metod fundamental a statisticii
care, n plus fa de mijloacele de calcul a tendinei centrale a rezultatelor
experimentelor repetate, caracterizeaz mai ales variabilitatea acestora i
factorii ce o determin.
Variabilitatea se poate datora existenei unor factori cu influene
sistematice, a unor factori aleatori de fluctuaie mai pronunat i, n final,
factori locali, inevitabili, determinnd o fluctuaie mai mic, definita ca
II. Statistica matematica si biostatistica ANOVA

106
fluctuaie experimental. Analiza dispersional i propune separarea
variabilitii totale n: variabilitatea datorat factorilor sistematici,
variabilitatea factorilor cu efecte aleatoare, plus o variabilitate rezidual
(diferena pn la variabilitatea total), care reprezint de fapt variabilitatea
experimental. Din aceste variabiliti se evalueaz dispersiile pariale
corespunztoare diferiilor factori, calculndu-se semnificaia rapoartelor lor
prin aplicarea testului F.
Principial datele experimentale se grupeaz n funcie de diferite
criterii i se urmresc efectele asupra variabilitatii n funcie de aceste
criterii, efecte care se cuantific n raport cu variablitatea rezidual.
Analiza dispersional este cunoscut n aplicaiile de biofarmacie i
farmacocinetic sub denumirea de ANOVA (de la Analysis of Variance).


2.9.1. Analiza funcional unifactorial
Cea mai simpl analiz dispersional, numit analiz dispersional
unidimensional sau unifactorial (numit n literatura englez i one-way
ANOVA) sau experiment complet aleator, experiment cu grupuri
paralele, corespunde testului t de analiz a dou eantioane independente i
compar dou sau mai multe grupuri.
De exemplu, n pacieni sunt grupai n k scheme de tratament. Putem
s comparm efectele a dou medicamente administrate la mai multe
grupuri de voluntari, la care se poate adauga i un grup placebo.
Voluntarii se distribuie aleator n toate grupurile. Dup msurarea unui
parametru dat, se testeaz ipoteza nul c toate valorile parametrului testat
sunt egale n populaia corespunztoare diferitelor tratamente testate, deci
tratamentele sunt echivalente ntre ele.
In ipoteza c toate grupurile aparin aceleiai populaii, ideea
testului este aceea c variabilitatea n interiorul grupurilor trebuie s fie de
acelai ordin cu variabilitatea ntre mediile grupurilor.
n consecin, dispersia total, evaluat ca suma a ptratelor
diferenelor ntre valorile individuale i media ntregii populaii selectate
SS
T
, este separat ntr-o parte datorit variaiei ntre grupuri (within), sau
variabilitii interioare i o parte datorit variabilitii dintre (between)
grupuri:
B W T
SS SS SS + = .
Dac numrul de grupuri este k i numrul de subieci n grupul i
este aceast egalitate poate fi explicitat dup cum urmeaz:
i
n
II. Statistica matematica si biostatistica ANOVA

107
(
2
1

=
=
n
i
n
j
ij T
i
X x SS ) (1)
unde = X media mare
N
x
n
X n
n
x
k
i
k
i i
i
i j
ij

= = =
1
1
i
i
X este media
grupului i.
Fixnd grupul i putem scrie
( ) ( ) ( ) [ ]
( ) ( ) ( )( )


+ + =
= + =
=
i i i
i i
n
j
i i ij
n
j
i
n
j
i ij
n
j
i i ij
n
j
ij
X X X x X X X x
X X X x X x
2
2 2
1
2 2

Ultimul termen este egal cu
( ) ( )( ) 0 2 2 = =


i i i i i
n
j
i ij i
X n X n X X X x X X
i

i (1) devine
( ) ( )
W B
k
i
n
j
i ij
k
i
i i T
SS SS X x X X n SS
i
+ = + =

2 2
(2)
relaie cunoscut ca identitatea analizei dispersionale.
Considerm variabilele aleatoare:

1 1
2

N
SS
n
SS
s
T
i
T
T
,
2
1
B
B
SS
s
k
=

i
k N
SS
k n
SS
s
W
i
W
W

2
.
innd cont de regula general demonstrat mai nainte c,
( ) ( ) 1 1
2 2 2
n n
x
avem,
( )
( )
( )
( )
2
.
2
2
.
,
1 1
1
ij i
j
W ij i i i
i j i i
i
x x
SS x x n n s
n

= = =

i

Deci,
( )
( ) ( ) ( ) k N n
n
SS
s
i
i
W
W
=

2 2 2 2 2
1
1


II. Statistica matematica si biostatistica ANOVA

108
Analog, ( ) 1
2 2 2
k s
B
i deci raportul
2
2
1
W
B
W
B
S
S
k N
SS
k
SS
F =

= este
distribuit
( )
1, F k N k .
Se observ c de fapt
( )
2
2
1 1
x
k
i
i i
B
s
k
X X n
k
SS
=


reprezint
dispersia de selecie ponderat a mediilor de grup fa de marea medie.
Abaterile mediilor grupurilor fa de media general depind att de
hazardul msuratorilor ct i de factori ce in de nssi natura grupurilor.
Abaterile n interiorul grupurilor sunt independente de aceti factori,
deoarece fiecare valoare msurat este raportat la nsi media grupului
respectiv. Ele reprezint fluctuaii aleatoare.
Variabilitatea n interiorul grupurilor reprezint diferena ntre
variabilitatea total i variabilitatea ntre grupuri.
Pentru simplificarea calculelor n aplicaiile practice s-au introdus
notaiile i i formulele precedente se
aduc la forme echivalente ce presupun un volum mai mic de calcule, dup
cum urmeaz:

= x x
k
i
n
j
ij
i

=
2 2
x x
k
i
n
j
ij
i

( )
( ) ( )
( ) ( )
N
x
x
N
x
x
N
x
N
N
x
x X N x X x X x SS
ij
ij
ij ij
ij ij ij ij T
2
2
2
2
2
2 2
2 2 2
2
2 2



= =
= + = + = =
( )
( )

= =
= =
k
i
k
i
n
j
ij
k
i
i j
ij
k k
i
n
j
ij
i i B
n
x
n
x
n
x
n
x
X X n SS
i i
1
2
1
2
1
1
2
1 1
2
1
2






II. Statistica matematica si biostatistica ANOVA

109

2.9.1.1. Aplicarea ANOVA in testarea ipotezei privind depdendenta
liniara a datelor
Evaluarile statistice de pana acum permit determinarea unei drepte
sau a unui fascicul de drepte care aproximeaza evolutia fenomenului descris
de datele experimentale.
Un astfel de rezultat se poate obtine oricand, chiar si atunci cand
evident evolutiile nu urmeaza un model liniar. Deci, cea mai buna
dreapta poate fi in fond foarte proasta.
Din acest motiv este nevoie si de teste statistice care sa verifice
ipoteza ca efectiv un model liniar este aplicabil.

a) Testarea linearitatii :
Pornind de la cele prezentate in capitolul privind regresia liniara,
observam ca are
eroare
SS I N grade de libertate si deci
I N
SS
MS
eroare
eroare

=
avem ca ( )
2
e eroare
MS E =
In cele ce urmeaza vom calcula media sumei ;
linear
MS
( ) ( ) ( ) ( ) ( ) ( ) ( )
2
2 2 2
b E x x x b a bx a E y y E MS E
i i i linear
= + = =
Dar, ( ) ( ) ( ) [ ]
( )
( ) [ ]
2
2
2
2
2
b E
x x
b E b D b E
i
y
+

= + =



Folosind relatia
x
y
S
S
r b = ( )
y
x
b E

= si
( ) ( )
( )
( )
2 2 2
2
2 2
2
2
2
2
2
2
2
y y
x
y i
y
x
y
i
y
i linear
N
x x
x x
x x MS E

+ =

+ =
=


In fapt aici am presupus ca pentru fiecare punct valorile
corespunzatoare au o dispersie
i
x
ij
y
2
x y
care este aceeasi pentru toate
punctele si deci putem sa o notam cu sau .
i
x
2
y

2
e

Lucrurile nu se intampla intotdeauna in acest fel. De exemplu in


cazul dreptei de etalonare in bioanalitica dispersiile sunt practic semnificativ
II. Statistica matematica si biostatistica ANOVA

110
mai mari la limita de cuantificare (pana la 20%) fata de restul
concetratiilor la care limita admisa pentru precizie este de 15%.
Ipotezele de verificat sunt :
0 :
0
= H echivalenta cu 0 :
0
= H folosind variabila
aleatoare
eroare
linear
I N
MS
MS
F =
, 1
.

b) Testarea ipotezei de nonlinearitate : 0 :
2 2
0
= H
Pentru aceasta se compara valorile testului
eroare
e linearitat la de deviatie
I N I
MS
MS
F =
, 2
cu valorile din distributia Fischer.
Raportul de corelare
2
este proportia de variabilitate a lui
Y atribuabila covariantei cu X ;
Coeficientul de determinare (corelatie) este proportia de variabilitate
a lui Y atribuabila covariantei liniare cu X .


2.9.1.2. Compararea parametrilor farmacocinetici ai unui medicament
dup administrarea pe mai multe ci
S considerm constanta de eliminare (Tabelul 8) pentru un
medicament administrat ntr-o singur doz oral i i.v., iar i.m. timp de trei
zile la diferite grupuri. Este de ateptat ca eliminarea s fie independent de
calea de administrare.
Vom compara constantele de eliminare dup administrarea oral i
i.m.
Tabelul nr. 8: Constanta de eliminare
1 4
min 10

e
k
Oral prima doza i.m. o doza i.m. a-5-doza
106 55 84
109 40 105
160 109 174
ij
x
375 204 363

= 942 x

2
ij
x
48717 16506 48357
113580
2
=

x
i
n
3 3 3 N=9
1
i
n
2 2 2
( ) 6 1 =
i
n
i
x
125 68 121
II. Statistica matematica si biostatistica ANOVA

111

( )
( )

= = = = 14984
9
942
113580
2
2
2
2
N
x
x X x SS
ij T


( )
6074 98596 43923 13872 46875
9
942
3
363
3
204
3
375
2 2 2 2
1
2
1
2
1
1
2
= + + = + + =
=

= =

=
=
k
i
i j
ij
k
i
n
j
ij
k
i
i i B
n
x
n
x
X X n SS
i


8910 6074 14984 = = =
B T W
SS SS SS

1485
6
8910
2
= =

=
k N
SS
s
W
W
, 3037
2
6074
1
2
= =

=
k
SS
s
B
B

( ) ( ) 07 , 2
1485
3037
6 , 2 , 1
2
2
= = = =

W
B
i
s
s
F k n k F valoare aflat n zona de
acceptare ( 26 , 7
5 , 97 ; 6 , 2
= f si 92 , 10
99 ; 6 , 2
= f )

Aplicm n continuare acelai procedeu, introducnd i administrarea i.v.
Tabelul nr. 9: Constanta de eliminare
1 4
min 10

e
k
i.m. o doza i.m. a-5-doza i.v.
106 55 84 63
109 40 105 70
160 109 174
ij
x
375 204 363 133
1075 =

2
ij
x
48717 16506 48357 8869
122449
2
=

x
i
n
3 3 3 2 N=11
1
i
n
2 2 2 1
( ) 7 1 =
i
n
i
x
125 68 121 66
( )
( )

= = = = 17392
11
1075
122449
2
2
2
2
N
x
x X x SS
ij T

II. Statistica matematica si biostatistica ANOVA

112
( )
8428 105056 8844 43923 13872 46875
11
1075
2
133
3
363
3
204
3
375
2 2 2 2 2
1
2
1
2
1
1
2
= + + + =
= + + + =
=

= =

=
=
k
i
i j
ij
k
i
n
j
ij
k
i
i i B
n
x
n
x
X X n SS
i



8964 8428 17392 = = =
B T W
SS SS SS

1280
7
8964
2
= =

=
k N
SS
s
W
W
, 2809
3
8428
1
2
= =

=
k
SS
s
B
B

( ) ( ) 19 , 2
1280
2809
6 , 2 , 1
2
2
= = = =

W
B
i
s
s
F k n k F valoare aflat n zona de
acceptare ( 26 , 7
5 , 97 ; 6 , 2
= f i 92 , 10
99 ; 6 , 2
= f )


2.9.1.3. Condiii necesare pentru aplicarea analizei dispersionale.

a) Modelul variabilei aleatoare supus msuratorilor
Subliniem ceea ce am spus sau am presupus ca i condiii prealabile
pentru a putea aplica testul prezentat:
1) Pentru ca sumele calculate s fie repartizate
2
este obligatoriu ca
seleciile s provin din populaii repartizate normal. Dac acest lucru nu se
ntmpl, rmne s fie aplicate teste neparametrice, dup cum s-a prezentat
anterior.
2) Analiza dispersional compar dispersia ntre grupuri cu dispersia
total din interiorul grupurilor pentru punerea n eviden a efectelor
sistemice. Dispersiile n populaiile din care provin grupurile s-au presupus
egale. Pentru verificarea acestei ipoteze se poate aplica testul F dispersiilor
de selecie luate dou cte dou, sau se poate aplica testul Bartlett.
3) Aditivitatea efectelor de intra i intervariabilitate, fenomen care
depinde de natura intim a fenomenului msurat.
Ca urmare rezultatul masuratorilor este o variabila aleatoare care se
poate scrie:
ij i ij
x + + = cu ( ) 0 =
ij
E i ( )
2
e ij
D = unde este
II. Statistica matematica si biostatistica ANOVA

113
media general a populaiei, ( )
2

= D ,
i
este un factor fix ce variaz de
la un grup la altul i este egal cu diferena ntre i media grupului
i i
= + , iar
ij
este eroarea de msurare.
Media a n determinri n interiorul unui grup este
i i
ij
i i
n
X

+ + = + + =

deoarece
i
i sunt constante.
Media general va fi:

+ + = + + =

kn k
M
ij i
deoarece
i
variaz de la un grup la altul iar este acelai pentru ntreaga populaie.
Mai departe
( ) ( )
ij i i ij i i ij i
x X = + + + + = i dispersia n
interiorul grupului va fi:
( ) ( )
1 1
2 2
2

=

i
i ij
i
i ij
i
n n
X x
s

iar media ei este
( )
( ) ( )
2
2 2
2
1 1
e
i
i ij
i
i ij
i
n
E
n
X x
E s E

=

=

(din faptul c aa cum s-a
artat mai nainte ( )
2 2
=
x
s E , fiind un estimator nedeplasat al
dispersiei).
2
x
s
Sumnd pentru toate grupurile se obine
( )
( )
( ) ( )
2
2
2 2 2
1
1
i i
i i
w e
n E S
n S
N k
E s E
N k N k N i



= = =




=


Deci este un estimator nedeplasat al lui indiferent dac ipoteza
este adevrat sau nu.
2
w
s
2

0
H
Dac n n n n
k
= = = = ...
2 1

( )

=

2
2
2
2
1 1
1
1

i i i i
B
B
k
n
X X n
k k
SS
s
( )
2
2
1
i
ns
k
n
i

i
( )
2
2 2 e
e
E ns n
n


= =
n ceea ce privete avem dou cazuri n funcie de cum a fost ales:
a) este o variabila aleatoare ( )
2
, 0

N , atunci
2 2
si
2
e B
s ns s + =

( )
2 2 2
e B
n s E

+ =
II. Statistica matematica si biostatistica ANOVA

114
b)
i
factori fici , 0 = =
i i i
i 0 = , atunci
( )
2
2
2
1
i
B
k
n s

=
0
e
s +


i ( )
2
2
2
1
e
i
B
k
n s E

=


Daca ne referim la grupe oarecare, alese ntmplator din toate seleciile
posibile din ntreaga populaie, este o variabil aleatoare care aparine
( )
2
, 0

N , dar nu mai avem 0 =
i
pentru o grup de selecie oarecare.
Este cazul cnd concluziile ce ne intereseaz se refer, n principal, la
ntreaga populatie i nu la arjele cercetate, de exemplu cand dorim sa
verificam omogenitatea populatiei.
Calcule similare arat c, atunci cnd n n n n
k
= = = = ...
2 1
,
i
2 2 2
e B
s ns s + =

( )
2 2 2

n s E
e B
+ = .
Ca urmare,
1
2

=
k
SS
s
B
B
este o estimatie nedeplasat a lui numai
atunci cnd ipoteza este adevrat.
2
e

0
H


b) Clasificarea ierarhic n trepte. Scindarea dispersiei totale n
dispersii pariale ale treptelor.
Dac vom considera eroarea unei metode de analiz, este de ateptat
ca aceasta s fie egal cu suma erorilor pariale ale fazelor analizei.
Scindarea erorii totale n erorile pariale ale fazelor ofer
posibilitatea punerii n eviden a fazelor ce determin diminuarea
reproductibilitii i a locului unde trebuie intervenit pentru mbuntirea
metodei.


2.9.2. Analiza dispersional multifactorial
n analiza anterioar criteriul de mprire n grupuri a fost unul
singur calea de administrare sau perioada de administrare. n continuare
ne vom ocupa de cazul cnd vrem s determinm ponderea a doi factori n
acelai timp, folosind datele obinute ntr-un singur experiment.
Pentru simplificarea scrierii prezentm pentru nceput cazul cnd
testm k medicamente continnd aceeai substan activ, administrate n n
perioade diferite.
Se consider c efectele determinate de cei doi factori analizai sunt
variabile aleatoare independente. Avnd doi factori, se testeaz dou ipoteze
de nul. Dac vom aeza datele ntr-o matrice, liniile i coloanele
II. Statistica matematica si biostatistica ANOVA

115
corespunznd respectiv pentru valori date ale primului i ale celui de al
doilea factor, o prim ipotez se refer la egalitatea mediilor liniilor, iar a
doua la egalitatea mediilor coloanelor. Ipoteza alternativ presupune
existena unor diferene ntre linii sau respectiv ntre coloane.

Tabelul nr. 10 :
Medicament

1 2 k
1 X
11
X
12
X
1k
. 1
x
2 X
21
X
22
X
2k
. 2
x
.
.
.

P
e
r
i
o
a
d
a

T
r
a
t
a
m
e
n
t

n X
n1
X
n2
x
nk
. n
x

1 .
x
2 .
x

k
x
.



unde
j
x
.
reprezint media valorilor din coloana i, iar
. i
x reprezint media
valorilor din linia j.
In experimentele clinice analiza dispersionala pe 2 cai este asociata
unui tip special de experiment numit experiment cu blocuri complet
randomizate. Modelul acestui tip de experiment a fost dezvoltat in 1925 de
catre R.A.Fischer
1
care a cercetat productivitatea mai multor soiuri de grau,
numite de el tratamente, semanate in mai multe blocuri omogene formate
din mai multe loturi, loturi ce difereau intre ele prin compozitia solului.
Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul
blocurilor. In acest fel fiecare bloc include toate tratamentele. Distributia
aleatoare se face in fiecarui bloc.
Obiectivul studiului este de a separa efectele reziduale aleatoare de
efectele de bloc. Eficacitatea studiilor depinde de omogenitatea blocurilor.
Aceste conditii, suplimentare conditiilor de distributie normala si de
egalitate a dispersiilor, sunt greu de asigurat intotdeauna drept pentru care
trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului.




1
R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York,
1958
II. Statistica matematica si biostatistica ANOVA

116

2.9.2.1. Modelul variabilei aleatoare.
Valorile experimentale le considerm ca rezultanta unor efecte
aditive corespunztor liniilor, coloanelor i erorilor ntmpltoare:

ij j i ij
x + + + =
unde
i
este partea lui datorat liniei (schemei de administrare),
ij
x
j

reprezint contribuia coloanei (forma medicamentoas), iar
ij
este eroarea
experimental.
Modelul este in esenta un model aditiv prin aceea ca nu
presupune interactiuni intre factori. Intr-o prezentare grafica, atunci cand
consideram raspunsurile pentru un factor tinut constant si un factor ce ia
doua valori diferite (numite de regula nivele ) sa obtinem linii paralele.
De exemplu, consideram liniile de sub curba (AUC) ale
propafenonei si hidroxi-propafenonei pentru doua medicamente, testat T si
referinta R, administrate la aceiasi subiecti
2
.


Propafenona




2
C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites,
Biointernational 2005, Octomber 24
th
-26
th
, London
II. Statistica matematica si biostatistica ANOVA

117

Hidroxi-propafenona



2.9.2.2. Scindarea sumei ptratelor abaterilor.
Suma ptratelor abaterilor valorilor individuale fa de media
generala M este:
(

=
2
x x SS
ij T
) , expresie ce se poate scrie i n forma:
( ) ( ) ( ) ( ) [ ]
( ) ( ) ( )
R C L C L ij C L
C L C L ij T
SS SS SS x x x x x x x x
x x x x x x x x x x SS
+ + =

+ +


=

+ + + = =
2 2 2
2
2

Produsele mixte nu s-au mai trecut deoarece sunt nule.
Am scindat aadar variabilitatea total ntr-o component dat de
linii, o component dat de coloane i o component rezidual.
Corespunztor rezultatelor prezentate la analiza unifactorial, aici se
poate arta c:
( ) ( )

+ + =
2 2 2
1
j C i L L C T
n n n n SS E
( ) ( )

+ =
2 2
1
i L C L
n n SS E
( ) ( )

+ =
2 2
1
j C L C
n n SS E
( ) ( )( )
2
1 1 =
L C R
n n SS E
II. Statistica matematica si biostatistica ANOVA

118
In cazul analizei bifactoriale apar dou ipoteze de nul pe care vrem
s le testm:
( )
:
1
0
H toate formele de tratament (liniile) sunt echivalente, adica 0 =
i
;
( )
:
2
0
H toate medicamentele (coloanele) sunt echivalente, adica 0 =
j
.
Indiferent dac ipotezele sunt adevrate sau nu, ( )
2 2
=
R
s E .
Dac cele dou ipoteze sunt adevrate: , si sunt
estimaiile nedeplasate ale lui .
2 2
R e
s s =
2
C
s
2
L
s
2

Pentru a testa ipoteza


( ) 1
H este natural s considerm raportul
2
2
e
L
s
s
,
iar pentru ipoteza
( ) 2
H raportul
2
2
e
C
s
s
.
n cazul n care pentru fiecare combinaie de cauze se fac mai multe
determinri folosind mai muli voluntari, variabilitatea se poate scinda n
patru componente:
R W C L T
SS SS SS SS SS + + + =

2.9.2.3. Variaia unui parametru farmacocinetic att n funcie de calea
de administrare ct i n funcie de numrul de administrare
Constanta de eliminare
1 4
min 10

e
k
Tabelul nr. 11:
Oral prima
doza
i.m. o
doza
i.m. a-5-
doza
i.v.
106 55 84 63
109 40 105 70
160 109 174
i
x
375 204 363 133
1075 =

2
i
x
48717 16506 48357 8869
122449
2
=

x
i
n
3 3 3 2 N=11
1
i
n
2 2 2 1
( ) 7 1 =
i
n
i
x
125 68 121 66
( )
17392
2
2
= =

N
x
x SS
T

Mai departe considerm dou grupuri: voluntarii crora medicamentul li s-a
administrat o dat i voluntarii care au primit 5 doze.
II. Statistica matematica si biostatistica ANOVA

119
( )
( )
2235 105056
8
133 204 375
3
363
.
2
2
=
+ +
+ = doze nr SS
B

( ) 15157 2235 17392 . = = = doze nr SS SS SS
T W

1684
9
15157
= =
k N
SS
W
, 15157
1
15157
1
= =
k
SS
B

( ) ( ) 9
1684
15157
9 , 1 , 1 = = =

F k n k F
i
care aparine zonei de acceptare
pentru riscul 01 , 0 ( ) 56 , 10
99 ; 9 , 1
= f dar nu aparine zonei de acceptare
pentru 05 , 0 ( ) 12 , 5
95 ; 9 , 1
= f .
( )
( )
17392
11
1075
122449
2
2
2
2
= = = =


N
x
x x x SS
i T

Un alt factor care poate influena concentraia n snge este calea de
administrare.
( ) ( )
8428 105056 8844 43923 13872 46875
11
1075
2
133
3
204
3
375
2 2 2 2
1
2
1
2
1
1
2
= + + +
= + + =
=

= =

=
=
k
i
i j
ij
k
i
n
j
ij
k
i
i i B
n
x
n
x
X x n cale SS
i
( )
( )
2235 105056
8
133 204 375
3
363
.
2
2
=
+ +
+ = doze nr SS
B

( ) ( ) 6792 2235 8428 17392 . = = = doze nr SS cale SS SS SS
B B T W

n acest fel am obinut urmtoarele rezultate:
Tabelul nr. 12
Sursa de variaie GL SS Rapotul F
ntre cile de administrare 3 8428 f(3,6)=1,24
ntre numarul de doze 1 2235 f(1,6)=0,32
Variaia intragrupuri 6 6792
Variaia total 10 17392
i comparnd cu valorile din tabelele de repartiie Fisher se constat c
poate fi acceptat ipoteza c toate grupurile cercetate aparin aceleiai
populaii statistice. Deci, nici calea de administrare i nici numrul de doze
nu influeneaz rata eliminrii.
II. Statistica matematica si biostatistica ANOVA

120
2.9.2.4. Compararea biodisponibilitii unei substane active
administrate n preparate diferite i n perioade diferite de tratament.
Trei medicamente au fost administrate la nou subieci ntr-un studiu
de biodisponibilitate obinndu-se ariile de sub curb prezentate mai jos :
Separm acum varianta n patru componente: pacieni, perioad,
medicament i eroarea n interiorul tuturor grupurilor.
Perioada 1 2 3 Suma
Pacient 1 B=107 C=102 A=99 308
Pacient 2 A=100 C=106 B=89 295
Pacient 3 B=98 A=90 C=128 316
Pacient 4 C=71 B=54 A=63 188
Pacient 5 A=92 B=111 C=107 310
Pacient 6 C=113 A=115 B=91 319
Pacient 7 B=169 A=107 C=195 551
Pacient 8 C=88 B=95 A=77 260
Pacient 9 A=122 C=168 B=155 445
Suma pe perioad I: 160 II: 1028 III: 1004
2992 =

x
Suma pe medicament A: 945 B: 969 C: 1078
364720
2
=

x
Media pe medicament 105 107,7 119,8
( )
1 , 33162
2
2
= =

N
x
x SS
T

( )
( ) ( )
1 , 29834
3
9
1
2 2
= =


= i
B
N
x linie
pacienti SS
( )
( ) ( )
5 , 1116
9
3
1
2 2
= =


= i
B
N
x medicament
medicament SS
( )
( )
3 , 264
9
2
2 2 2
=
+ +
=

N
x III II I
perioada SS
B

( ) ( ) ( ) 2 , 1947 = = perioada SS medicament SS pacienti SS SS SS
B B B T W

Pe aceasta cale obinem:
Sursa de variaie DF Suma ptratelor Media Raportul F
ntre pacieni 8 29834,1 3729,3
ntre medicamente 2 116,1 558,3 3,15
ntre perioade 2 264,3 132,1 0,75
Variaia intragrupuri 14 1947,2 177
Total 26 33162,1
Deoarece 74 , 3
99 , 0 ; 14 , 2
= f nu exist diferene semnificative ntre cele
dou medicamente dup administrare unic sau administrri multiple.
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

121
e
2.10. Estimarea efectelor intr-un experiment standard cross-over prin
teste t
2.10.1. Modelul statistic
Considerm dou medicamente, unul de testat (T) i altul de
referin (R), administrate n dou perioade (I i II). Raiunea principal a
experimentului cross over, eveniment n care o parte din subieci primesc
cele dou medicamente n secvena RT, iar cealalt parte n secvena TR,
este aceea c, analiza datelor obinute poate pune n eviden efectele
reziduale, sau carry over, cum mai sunt numite, ale administrrii n
prima perioad, asupra rezultatelor obinute n perioada a doua. n cazul
existenei unor astfel de efecte este necesar s se poat face distincia ntre
efectele directei efectele reziduale. Efectul direct este efectul ce l are
medicamentul n perioada n care este administrat, pe cnd efectul carry
over este efectul pe care acesta l are n perioada urmtoare administrrii
sale. Spunem c un medicament are un efect carry over de ordin k, dac
efectul primei administrri se manifesta i dup k perioade de administrare.
Rezultatele experimentului sunt variabile aleatoare pe care le
considerm avnd urmtoarea structur:
ijk
Y

( ) ( ) , 1, ijk ik j ijk j k j k
Y S P F C

= + + + + +
unde este media totala, i este indicele pentru subiect,
k
n i , 1 = , j este
indicele pentru perioad i k este indicele pentru secvena. este efectul
direct, fix, al medicamentului (formulrii) administrat n perioada j, n
secvena k (Observaie: efectul este de fapt cantitatea de medicament
msurat).
( ) k j
F
,
Schema de administrare fiind avem c i,
din faptul c

TR
RT
( )
( )

=
R T
T R
k j
F F
F F
F
,
este media lui avem
ijk
Y
( )
0
,
=
k j
F si
( )
0
, 1
=
k j
C .
( k j
C
, 1 )
este efectul carry over (fix) al medicamentului administrat n
perioada j-1 (considerm c, datorit existenei unui interval de timp de
splare, efectul carry over nu depete o perioad).
ijk
e reprezint eroarea aleatoare n msurarea valorilor individuale pentru
fiecare subiect.
Considerm ca variabilele sunt repartizate identic, cu media 0 i
dispersia , iar variabilele sunt repartizate
ik
S
2
s

ijk
e ( )
2
, 0
e
N . n fapt,
dispersiile erorilor pot diferi de la un medicament la altul.
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

122
2.10.2. Testarea efectului secvenei de administrare

Pentru efectul secvenei de administrare sau a efectelor carry over,
considernd urmtoarele totaluri pe subieci n cadrul unei secvene date:
k i k i ik
Y Y U
2 1
+ = ,
k
n i , 1 = , 2 , 1 = k (R+T si respective T+R)
Valoarea medie i dispersia variabilelor vor fi:
ik
U
( )

+
+
=
2 sec , 2
1 sec , 2
venta in subiectii pentru C
venta in subiectii pentru C
U E
T
R
ik


( ) ( )
2 2
2 1
2 4 2
e s k i k i ik ik
S D U D + = + + =
( ) ( )
2 2 2
2 2
e s ik u
U D + = = pentru toi subiecii.
Fie
R T
C C C = . C poate fi folosit pentru determinarea efectelor
carry over. Datorit restriciei 0 =
R T
C C efectele carry over sunt
egale pentru cele dou formulri, adic 0 = C , dac i numai dac
. Ca urmare, testarea absenei efectelor carry over este
echivalent cu testarea egalitii acestora. Cnd efectele carry over sunt
absente, efectul direct al medicamentului
0 = =
R T
C C
( )
R T
F F F = poate fi estimat pe
baza datelor din amndou perioadele. Dac efectele carry over nu sunt
egale, nu exist un estimator nedeplasat pentru efectul direct al
medicamentului, din acest motiv fiind necesar testarea prealabil a
existenei efectelor carry over.
Consideram de exemplu ca efectul medicamentului R este 9 si cel al
medicamentului T este tot 9, efectul de perioada este 0 si efectul rezidual
este 1 pentru R si 2 pentru T.
Vom avea rezultatele:

P
I
P
II

Secv. RT 9 9+1
Secv. TR 9 9+2

Diferenta aparenta R-T va fi:
( ) ( ) [ ] ( ) [ ]
2
1
2 1
2
1
2
1
2 sec 1 sec
= + = +
v I II v II I
P P P P

II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

123
Daca insa efectele de secventa sunt 10 pentru R si 9,5 pentru T,
atunci efectul de perioada este tot 0, iar efectele carry over egale
amandoua cu 1, vom gasi:

P
I
P
II

Secv. RT 10 9,5+1
Secv. TR 9,5 10+1

Ceea ce inseamna ca diferenta aparenta R-T va fi:
( ) ( ) [ ] ( ) [ ]
2
1
5 , 1 5 , 0
2
1
2
1
2 sec 1 sec
= + = +
v I II v II I
P P P P
Deci, daca apar efecte reziduale inegale ele vor fi luate drept efecte
de formulare.
Din acest motiv, pentru a ne asigura ca estimarea diferentei de
formulare este corecta, trebuie sa testam in prealabil faptul ca nu avem
efecte reziduale inegale.
Existena efectelor carry over inegale poate fi determinat prin
testarea urmtoarelor ipoteze:
R T
C C C H = = 0 :
0

R T
C C C H 0 :
1

Respingerea ipotezei nule duce la concluzia prezenei efectelor carry
over inegale. Pentru testarea ipotezelor asupra lui C se folosesc
urmtoarele medii de selecie corespunznd fiecrei secvene:

=
=
k
n
i
ik
k
k
U
n
U
1
.
1
, 2 , 1 = k
1 .
U i
2 .
U sunt mediile de selecie pentru eantioane aleatoare
independente din populaii normale cu dispersii egale. Ca urmare testarea se
poate face utiliznd testul t.
C poate fi estimat prin diferena ntre mediile subiecilor pentru cele
dou secvene:
( ) ( )
22 . 12 . 21 . 11 . 1 . 2 .

Y Y Y Y U U C + + = =
innd cont de presupunerile asupra variabilelor prezentate
anterior, este normal distribuit cu media C i dispersia
ik
S
C

( ) ( )

+ =

+ + =
2 1
2
2 1
2 2
1 1 1 1
2 2

n n n n
C D
u e s
.
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

124
Dispersia ( ) C D

poate fi estimat prin nlocuirea lui cu


dispersia de selecie total pentru subiecii din cele dou secvene:
2
u

2 2

u u
S =
( )

+ =
2 1
2
1 1

n n
C D
u
unde ( )

= =

+
=
2
1 1
2
.
2 1
2
2
1

k
n
i
k ik u
k
U U
n n

Mai departe, ( )
2
2 1
2
u
n n + este distribuit ( ) 2
2 1
2 2
+ n n
u
unde
este o variabil distribuit cu ( 2
2 1
2
+ n n )
2
2
2 1
+ n n grade de
libertate, independent de . Astfel, n ipoteza , C

0
H
2 1 2 1
1 1

1 1

n n
X X
n n
C
T
u
R T T R
u
c
+

=
+
=
+ +

are o repartiie Student cu
grade de libertate. Ca urmare, vom respinge ipoteza nul
2
2 1
+ n n
R T
C C H = :
0
n favoarea ipotezei alternative
R T a
C C H : la un nivel
de semnificaie, dac

2 ,
2
2 1
n n
c
t T

.
Deoarece variabila testat conine estimarea
c
T ( )
2 2 2
2 2
e s u
+ =
care se refer att la variabilitile ntre i intra subieci, puterea testului
va fi mai mic n cazul n care variabilitatea ntre subieci este mai mare
dect intravariabilitatea. n studiile de biodisponibilitate / bioechivalen, ca
regul, mrimea lotului de testat se alege pe baza calculelor privind puterea
pornind de la efectul direct al medicamentului, efect ce implic
intravariabilitatea. Pentru a crete puterea testului, Grizzle
1
a sugerat
testarea ipotezei nule la un nivel de semnificaie % 10 = n loc de 5%.
Pe baza statisticii t, se poate calcula un interval de ncredere
( ) % 100 * 1 pentru C:
2 1
2 ,
2
1 1

2 1 n n
t C
u
n n
+

.
Dac intervalul conine pe 0, atunci suntem n favoarea (sau de fapt
nu putem respinge) ipotezei nule c nu exist efecte carry over sau c
acestea sunt egale. Dac intervalul nu conine pe 0, tragem concluzia c
exist efecte carry over diferite pentru cele dou formulri.



1
J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21,
467-480, 1965
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

125



2.10.3. Efectul direct al medicamentului
n vederea testrii efectului direct al medicamentului se pot folosi
diferenele ntre perioade n interiorul fiecrei secvene, dup cum urmeaz:
( )
k i k i ik
Y Y d
1 2
2
1
= ,
k
n i , 1 = , 2 , 1 = k .
Valoarea medie i dispersia pentru diferenele din cadrul perioadelor
sunt:
( )
( ) ( ) [ ]
( ) ( ) [ ]

+ +
+ +
=
2 sec ,
2
1
1 sec ,
2
1
1 2
1 2
venta in subiectii pentru C F F P P
venta in subiectii pentru C F F P P
d E
T T R
R R T
ik

( )
2
2 2
2 2
e
ik d d
MSE
D d S

= = = =
Se vede c dispersia diferenelor ntre perioade include numai
intravariabilitatea, ceea ce reprezint de fapt avantajul experimentului de tip
cross over. n ceea ce privete media diferenelor, aceasta include att
efectul direct al medicamentului ct i efectul rezidual (carry over).
Sa notm efectul perioadei i efectul direct (efectul formulrii) prin
i
1 2
P P P =
R T
F F F = .
Pentru a verifica ipotezele statistice asupra lui F, s considerm
mediile diferenelor ntre perioade n interiorul fiecrei secvene:

=
=
k
n
i
ik
k
k
d
n
d
1
.
1
, 2 , 1 = k .
Diferena ntre secvene (
2 . 1 .
d d ) este un estimator nedeplasat al
lui F atunci cnd nu avem efecte carry over inegale (
T R
C C = )
( ) ( )
( )
2 2
2 . 1 .
C
F
C C
F F d d E
T R
R T
=

+ = unde
R T
C C C = .
Ca urmare, dac
R T
C C nu avem un estimator nedeplasat pentru F
din datele pentru amndou perioadele. Dac ns
R T
C C = , atunci
( ) ( ) [ ]
R T
Y Y Y Y Y Y d d F = = =
12 . 22 . 11 . 21 . 2 . 1 .
2
1


II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

126
este un estimator nedeplasat cu dispersia minim pentru F (unde
( )
12 . 21 .
2
1
Y Y Y
T
+ = i ( )
22 . 11 .
2
1
Y Y Y
R
+ = ).
Schema de administrare fiind rezult c

TR
RT
( ) 2 1
2
1
R R Y
R
+ = .
R
Y si
T
Y sunt aa numitele least squares means (LS) mediile
cele mai mici ptrate pentru produsul de referin i cel testat.
n practic, F este estimat prin diferena direct ntre mediile celor
dou formulri
* * *

R T
Y Y F = ,
unde

+
+
=

= =
1 2
1 1
22 11
2 1
*
1
n
i
n
i
i i R
Y Y
n n
Y i

+
+
=

= =
1 2
1 1
12 21
2 1
*
1
n
i
n
i
i i T
Y Y
n n
Y
Cnd
T R
C C = , se obine
( ) ( ) ( ) [ ]
2 2 1 1 2 1 2 1
2 1
*
1
P n P n F n n n n
n n
Y E
R R
+ + + + +
+
= i
( ) ( ) ( ) [ ]
1 2 2 1 2 1 2 1
2 1
*
1
P n P n F n n n n
n n
Y E
T T
+ + + + +
+
= .
Deci, ( ) ( ) ( ) ( ) [ ]
2 2 1 1 1 2
2 1
* *
1
P n n P n n
n n
F F Y Y E
R T R T
+
+
+ =
Ca urmare, diferena ntre mediile celor dou formulri , nu este
un estimator nedeplasat pentru F dect atunci cnd
*

F
2 1
n n = .
Remarcam faptul ca in practica, din auza ca o parte din subiecti
parasesc experimentul clinic inainte ca acesta sa se termina, cazul
este foarte rar. In ciuda acestui fapt unele softuri uzuale ignora
aceste fapte ceea ce, dupa cum se va arata mai departe, poate duce la alterari
semnificative ale rezultatelor.
2 1
n n =
Diferena ntre mediile least square pentru cele dou
formulari, , este normal distribuit, cu media F i dispersia F

( )

+ =
2 1
2
1 1

n n
F D
d
.
Deoarece{ }
1 i
d ,
1
, 1 n i = si { }
2 i
d ,
2
, 1 n i = sunt dou selecii
independente din populaii normale cu dispersii egale (atunci cnd nu avem
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

127
efecte carry over inegale) un test pentru efectul direct poate fi obinut pe
baza statisticii t pereche.
1 2

1 1

d
d
F
T
n n

=
+

unde este dispersia de selecie pentru diferena ntre perioade, i este un
estimator nedeplasat al lui
2

2
d

( )

= =

+
=
2
1 1
2
.
2 1
2
2
1

k
n
i
k ik d
k
d d
n n

Deoarece ( )
2
2 1
2
d
n n + este distribuit ( ) 2
2 1
2 2
+ n n
d
, este
distribuit t cu
d
T
2
2 1
+ n n grade de libertate. Un interval de ncredere
( ) % 100 * 1 pentru F este urmtorul:
2 1
2 1
1 1
2 ,
2

n n
n n t F
d
+


Prezena efectului direct al medicamentului poate fi examinat prin
testarea ipotezelor:
R T
F F H = :
0
si
R T
F F H :
1
. Respingem dac
0
H

2 ,
2
2 1
n n
d
t T

.
Trebuie s observm c aceast metod de testare se refer la
egalitatea efectelor celor dou medicamente i nu la bioechivalena lor,
care va fi discutat mai departe.
Dup cum s-a menionat mai sus, nu este un estimator nedeplasat
al lui F n prezena efectelor carry over inegale (
F

R T
C C ). Un estimator
nedeplasat al lui F poate fi obinut totui folosind numai datele din prima
perioad, dar cu o pierdere de informaie i, n consecin, de precizie. Dac
11 .
Y i
12 .
Y sunt mediile celor dou formulri n prima perioad, atunci:
( ) ( ) ( ) F F F F P F P Y Y E
R T R T
= = + + + + =
1 1 11 . 12 .

S notm
C
F
Y Y

11 . 12 .
= . Avem c
C
F

este un estimator
nedeplasat al lui F, chiar i n prezena efectelor carry over inegale.
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

128
Dispersia lui
C
F

este ( ) ( )

+ + =
2 1
2 2
1 1
n n
D
e s
C
F
. Observm
deasemenea c ( ) ( )

+ =
2 1
2
2
1 1
2

n n
F D D
e
s
C
F

. Deci, pierderea de
precizie ca urmare a folosirii numai a datelor din prima perioad este de
minim 50% atunci cnd . 0
2
=
s

Din acest motiv, n practic, este foarte important perioada de


splare pentru a disprea efectele reziduale pn la a dou administrare.
n prezena efectelor carry over inegale, se poate verifica ipoteza
privind inegalitatea efectelor i se poate construi i un interval de ncredere
( ) % 100 * 1 pentru F folosind datele din prima perioad.
Un estimator nedeplasat pentru ( )
C
F
D

este ( )

+ =
2 1
2
1 1
n n
S D
f
C
F

unde ( )

= =

+
=
2
1 1
2
1 . 1
2 1
2
2
1
k
n
i
k k i f
k
Y Y
n n
S .
Observm ca este un estimator nedeplasat pentru , dar
nu avem estimri individuale pentru si pornind numai de la datele
din prima perioad.
2
f
S
2 2
e s
+
2
s

2
e

Intervalul de ncredere ( ) % 100 * 1 pentru F n prezena efectelor


carry over inegale va fi
1 2

, 2
1 2
2
1 1
F
f
C n n
t S
n n

+


+ .
Ipoteza nul privind absena efectului direct este respins dac

+
2 ,
2
2 1

2 1 1 1
n n
f
C
F
t
n n
S

.
n practic, n prezena efectelor carry over inegale, datele din
prima perioad sunt folosite efectiv pentru a testa bioechivalena, dar nu
trebuie s uitm urmtoarele consecine ale acestei proceduri:
1) Puterea de detecie a diferenelor semnificative clinic este micorat
datorit creterii dispersiei i,
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

129
2) Pierderea de informaie anuleaz nsi avantajul experimentului
crossover i anume eliminarea variabilitii ntre subieci n compararea
formulrilor.




2.10.4.Efectul perioadei

S definim urmtoarele diferente:
( )
( )



=
T R venta in subiectii pentru d
R T venta in subiectii pentru d
O
ik
ik
ik
2 sec . ,
1 sec . ,

Valoarea medie i dispersia acestor diferene cross over sunt:
( )
( ) ( ) [ ]
( ) ( ) [ ]

+
+ +
=
2 sec ,
2
1
1 sec ,
2
1
2 1
1 2
venta in subiectii pentru C F F P P
venta in subiectii pentru C F F P P
O E
T R T
R R T
ik

i
( )
2
2
2 e
d ik
O D

= =
Fie
1 .
O i
2 .
O mediile de selecie ale diferenelor n secvenele 1 i 2. Avem

=
=
=
2
1
2 .
1 .
.
k pentru d
k pentru d
O
k

Un estimator nedeplasat pentru efectul perioadei P poate fi obinut ca
( ) ( ) [ ]
22 . 12 . 11 . 21 . 2 . 1 .
2
1

Y Y Y Y O O P = =
Deoarece 0 = +
R T
C C , P

este un estimator de dispersie minim


pentru P, indiferent de prezena efectelor carry over inegale.
Un interval de ncredere ( ) % 100 * 1 pentru P este
2 1
2 ,
2
1 1

2 1 n n
t P
d
n n
+

.
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

130
Respingem ipoteza nul privind absena efectului de perioad:
2 1 0
: P P H = ,
2 1
: P P H
a
atunci cnd

2 ,
2
0
2 1
n n
t T

, unde

0
1 2
1 1

d
P
T
n n

=
+
.
Interferena statistic pentru efectele carry over, directe i de
perioada sunt prezentate, n rezumat, n tabelul urmator

Tabel nr. 15: Teste statistice pentru efectele fixe ntr-un experiment 2*2
cross over.

Efect Efecte
carry
over
inegale
MVUE
*
( ) . . % 100 / 1 I C
Test statistic
C
a
r
r
y

-

o
v
e
r

-

( ) (
.2 .1
.11 .21 .12 .22
C U U
Y Y Y Y
= =
+ +

1 2
, 2
1 2
2
1 1
u
n n
C t
n n



+


+

1 2
1 1
c
u
C
T
n n

=
+

E
f
e
c
t

d
i
r
e
c
t

Nu

( ) (
.1 .2
.21 .11 .22
1
2
F d d
Y Y Y
= =

1 2
, 2
1 2
2
1 1
d
n n
F t
n n



+


+

1 2
1 1
d
d
F
T
n n

=
+

E
f
e
c
t

i
n
d
i
r
e
c
t
Da

.12 .11
F
Y Y
C
=

1 2
, 2
1 2
2
1 1
f
n n
F
t S
C n n

+


+

1 2
1 1
f
f
F
C
T
S
n n
=
+

P
e
r
i
o
a
d
a


-

( ) (
.1 .2
.21 .11 .12
1
2
P O O
Y Y Y
= =

1 2
, 2
1 2
2
1 1
d
n n
P t
n n



+


+
1 2
1 1
o
d
P
T
n n

=
+





II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over prin teste t

131

MVUE
*
minimum variance unbiased estimate estimare nedeplasata de
dispersie minima.




II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

131
2.11. Estimarea efectelor prin ANOVA

2.11.1. Modelul Statistic General

Analiza dispersional a datelor de bioechivalenta urmeaza un model
statistic de ANOVA pe doua cai cu interactiuni de tipul:
ijk jk j k ijk
Y + + + + =
S notm c prezena unui efect de interaciune este echivalent cu
ne-aditivitatea efectelor principale.
Suplimentar fata de conditiile puse la ANOVA pe doua cai, vom
avea
0

= =
k
jk
j
jk

Statisticienii vorbesc despre nivelele pe care le iau factorii.
Termenul se refer in fapt la valorile (numerice sau calitative) pe care le
poate lua factorul. De exemplu dac factorul este perioada ntr-un
experiment de bioechivalen nivelele sale sunt I, II, III dac experimentul
are trei perioade. n ceea ce privete factorul formulare nivelele acestea sunt
medicamentele experimentate (de exemplu referin, testat 1 i testat 2).
ntr-un experiment standard de bioechivalen secvena are dou nivele RT
i TR. Trebuie avut totui n vedere c aceati factori nu sunt toi
independeni unii din ei putndu-se obine prin combinaii liniare de ceilali.
Problema, la modul general, sufera o complicare majora atunci cand
numarul nivelelor luate de un factor, nu este acelasi in fiecare celula, caz in
care se spune ca experimentul nu mai este echilibrat (balansat). Ne vom
limita, pentru moment, la studiul cazului echilibrat asa cum se face, se pare,
in toate cartile si articolele publicate. Din pacate cazul mult mai frecvent in
experimentele clinice este acela neechilibrat. De exemplu, in experimentele
de bioechivalenta, datorita iesirii din experiment a unora dintre subiecti,
secventele raman inegale.
In chiar cazurile ca modelul se aplica experimentelor clinice, exista
posibilitatea unei confuzii de termeni. Astfel , in lucrarile de statistica
observm c repetiie semnific faptul c acelasi experiment se repet pe
mai multi voluntari sau pacieni, n timp ce, in experimentul de biostatistica,
repetiia nseamna administrarea aceluiai medicament de mai multe ori la
acelai subiect deci in mai multe perioade, ceea ce este cu totul alt model de
studiu.
Ipoteza de verificat este aceea a lipsei efectelor factorilor si, ca
urmare si a interactiunii intre acestia.
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

132

0
: 0 1
: : 0 1
: 0 1 1
A k
B j
AB jk
H unde k K
H H unde j J
H unde j J si k K


: 0
alternativa
H cel putin un factor este diferit de
Se noteaz cu:

=

i j k
ijk
Y Y si cu

=

i j k
ijk
Y
IJK
Y
1


jk ijk
i
Y

= Y

i cu
1
jk
ijk I
i
Y Y =



j i
i k
Y Y

=
jk
i cu
1
j
ijk IK
i k
Y Y =



k i
i j
Y Y

=
jk
i cu
1
k
ijk IJ
i j
Y Y =


Atragem atentia ca, intr-un experiment neechilibrat, formulele
pentru calculul mediilor prezentate mai sus nu mai raman valabile. Mediile
de selectie de tipul celor de mai sus sunt estimatori nedeplasati ai efectului
celor doua formulari numai atunci cand secventele sunt egale.
In fapt experimentele sunt proiectate sa fie echilibrate dar pana la
sfarsit ele devin neechilibrate.
Se observ c:
( )=

Y Y
ijk
( )+

Y Y
k
( )+

Y Y
j
( )+ +

Y Y Y Y
k j jk
( )

jk ijk
Y Y
Si, deoarece produsele mixte ale sumelor de mai sus sunt nule,
eroarea totala se poate descompune dupa cum urmeaza:
=
T
SS ( ) =

2
Y Y
ijk

= ( ) +

2
Y Y
k
( ) +

2
Y Y
j
( ) + +

2
Y Y Y Y
k j jk
( )

2
jk ijk
Y Y =
2 2 2 2
R AB B A
S S S S + + +
Termenii acestei diferene corespund respectiv efectelor principale,
interaciunilor i unei fluctuaii aleatoare.
Deoarece indicele i se refera la subiectii experimentului ( )
jk ijk
Y Y


,diferenta intre valoarea subiectului i si media subiectilor din perioada j si
secventa k, reprezinta o intervariabilitate. In biologie aceasta este foarte
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

133
mare si ipoteza unor subiecti identici este departe de realitate sau se poate
lua in calcul in cazul unor studii pe populatii foarte mari.
Pentru modelul echilibrat, dat fiind modelul statistic, sumele
obtinute sunt estimari respectiv pentru parametrii cercetati de noi:
=
k
( )

Y Y
k
; =
j

( )

Y Y
j

=
jk
( )

+ Y Y Y Y
k j jk
;
...
Y =
Statistica F pentru verificarea ipotezelor are la
numrtor respectiv mediile sumelor de ptrate , iar la numitor
ntotdeauna media sumei ptratelor rezidualelor . Gradele de libertate
sunt respectiv
A B A
H , H , H
B
2 2 2
A B AB
, , S S S
2
R
S
( ) ( ) ( )
A R B R AB R
, , , , , unde:
1 = K
A
, 1 = J
B
, ( )( ) 1 1 = K J
AB
si ( ) 1 = I JK
R

Sinteza formulelor de calcul este dat n tabelul urmator.
Testarea ipotezelor privind actiunea factorilor asupra rezultatelor
studiului incrucisat.
Varia
ia
Grade de
libertate
(df)

Suma ptratelor
(SS)
Media sumei
ptratelor
(MS=SS/df)

Statistica

F
A
A
1 K =

( )
2
2
A
k
k
S IJ Y Y =


A
A
A
S
MS

2
=
R
A
A
MS
MS
F =
B
B
1 J = ( )
2
2
B
j
j
S IK Y Y =


B
B
B
S
MS

2
=
R
B
B
MS
MS
F =

I
n
t
e
r
a
c

i
u
n
i
A
B
( )( 1 1
=
K J
AB
)


( )

+
=
j k
k j jk
AB
Y Y Y Y I
S
2
2
AB
AB
AB
S
MS

2
=


R
AB
AB
MS
MS
F =

R
e
z
i
d
u
a
l

R

( ) 1
=
I JK
R


( )
2
2
R
jk
ijk
i j k
S Y =

Y
R
R
R
S
MS

2
=

T
o
t
a
l

S
1 IJK =

( )
2
T ijk
i j k
SS Y Y =





II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

134
2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua
medicamente, incrucisat, cu doua perioade si doua secvente

Modelul Biostatistic
Se consider dou medicamente, unul de testat (T) i unul de
referin (R), administrate unui lot de voluntari sntoi n dou secvene
(RT) i (TR) i dou perioade (I i II). Fiecare subiect este asignat aleator fie
secvenei 1 (RT), fie secvenei 2 (TR). Subiecii n cadrul secvenei RT (TR)
primesc medicamentul R (T) n prima perioad i medicamentul T (R) n
cea de a doua perioad. Perioadele de administrare sunt, de obicei, separate
printr-o perioad de spalare de cel puin de trei ori timpul de njumtire
al substanei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalena dintre cele
dou medicamente (formulations n literatura englez).
Pentru aceasta se aplica modelul de analiz statistica prezentat
anterior:
ijk jk j k ijk
Y + + + + =

Rezultatele experimentului sunt variabile aleatoare pe care le
considerm avnd urmtoarea structur:
ijk
Y
ik ijk jk j k j ijk
S F P C Y + + + + + =


, 1

unde este media totala, i este indicele pentru subiect,
k
n i , 1 = , j este
indicele pentru perioad i k este indicele pentru secvena.
jk
F este efectul
direct, fix, al medicamentului (formulrii) administrat n perioada j, n
secvena k (Observaie: efectul este de fapt cantitatea de medicament
msurat sau un parametrul farmacocinetic calculat pornind de la aceasta).

1, j k
C

este efectul carry over (fix) al medicamentului administrat n
perioada j-1, de exemplu concentratia medicamentului ramas in organism
in perioada II din administrarea in perioada I.
Considerm c, datorit existenei unui interval de timp de splare
suficient intre administrari, efectul carry over nu depete perioada
consecutiva celei in care a fost administrat medicamentul.
ijk
e reprezint eroarea aleatoare n msurarea valorilor individuale pentru
fiecare subiect.
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

135
Considerm ca variabilele (efectul de subiect) sunt repartizate
identic pentru toate formularile administrate, cu media 0 i dispersia , iar
variabilele sunt repartizate
ik
S
2
s

ijk
e ( )
2
, 0
e
N .
n fapt, dupa cum a prezentat FDA ca argument pentru introducerea
bioechivalentei individuale, dispersiile erorilor pot diferi de la un
medicament la altul.

Modelul se mai poate scrie si sub forma :
ijk ik jk ijk
S Y + + =

unde efectul fix
jk
este de forma prezentata in tabelul nr. 17

Tabelul nr. 17: Componenta nealeatoare a parametrilor farmacocinetici
Perioada (j=1,2) Secvena
(k=1,2) I II
1 (RT)
11 1 R
P F = + +
12 2 T R
P F C = + + +
2 (TR)
21 1 T
P F = + +
22 2 R T
P F C = + + +

unde
F
R
(F
T
) reprezint efectul direct al administrrii medicamentului R (T);
P
1
(P
2
) reprezint efectul administrrii n perioada I (II);
C
R
(C
T
) reprezint efectul rezidual (carry-over) al administrrii
medicamentului R (T).

i P
1
+P
2
= F
R
+F
T
= C
R
+C
T
= 0,

Procedand ca in cazul general prezentat mai sus, se descompune
suma totala a erorilor in sume cu ajutorul carora se pot estima efectele de
secventa ( ), de perioada ( ), de formulare ( ), precum si a
variabilitatilor intraindividuala ( ) , interindividuala ( ).
carry
SS
P
SS
drug
SS
ra
SS
int er
SS
int
Se folosesc notatiile

=
i
i
Y Y
.
si

=
i
i
Y
n
Y
1
.
( unde n este
numarul valorilor sumate).


II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

136

Tabelul nr. 18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si
interactiunile intre acestia
=
Total
SS
( )

Y
ijk
=

2
Y

( ) +

2
Y Y
k

( ) +

2
Y Y
j

( )
(
+ +

2
Y Y
k j


Y Y
jk

)
2

jk ijk
Y Y





SS

SS

SS
=
within
SS

( ) =

2
k i ijk
Y Y


( ) +

2
Y Y
j

( ) +

2
Y +

Y Y Y
k j jk

( ( ) ( ))
2


k k i jk ijk
Y Y Y Y



P
SS
drug
SS
ra
SS
int

=
between
SS

( ) =

2
Y Y
k i

( ) +

2
Y Y
k


( )
2


k k i
Y Y






carry
SS
er
SS
int


II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

137
Deci, se vede ca avem:

Between
SS exprim variabilitatea dintre subieci,

within
SS exprim variabilitatea intra-subieci, si
=
within
SS
P
SS +
drug
SS +
ra
SS
int

Total
SS are ( )
T 1 2
2 n n 1 = + grade de libertate. Cum sunt
1
n n
2
+ subieci
n ambele secvene are
within
SS
Within 1 2
n n = + grade de libertate, iar
are
Between
SS
Between 1 2
1 n n = + grade de libertate.
In locul acestor formule se folosesc formule prescurtate.
Mentionam aceste formule prescurate deoarece ele apar practic in
toate cartile de farmacie sau de statistica aplicata in farmacie. Ele reprezinta
avantajul unor calcule mai rapide si dezavantajul ca nu sunt inteligibile,
nefiind clara legatura lor cu variabilitatile parametrilor studiati.



2.11.3. Calculul variabilitatii interindividuale
Vom deduce formula uzuala pentru ( )
2
int
2

=
k i
k k i
er
Y Y SS
Ridicand la patrat se obtine
( )
int
2 2 2
2 2 2
2 2
2
2 2 2 2
2
2 2 2 2 * *
2
2
2
2
er
i k
i k k i k k k i k k k k
k i i k i i
k
i k k k k i k k k k k k
k i k i
i k k
k
k i k
k
SS
Y
Y Y Y n Y Y Y n Y
Y
Y Y n Y Y Y n Y n Y
Y Y
n
n



=

= + = +



= + = +


=



2
2

Mai departe, deoarece prin definitie, ;


2 2
i k k
i k k
k
Y Y
Y Y
n

= = se
obtine formula farmaceutica a sumei patratelor intersubiecti:
=
er
SS
int

k
k
k
i k
k i
n
Y Y
2 2
2
..
,
2
.

II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

138
Facem observatia ca la descompunerea sumelor am folosit termenii
in engleza deoarece in aceasta limba exista cate doua cuvinte (provenind din
latina si din saxona) corespunzand cuvintelor romanesti inter si intra.

2.11.4. Calculul efectelor de secventa

In ceea ce priveste , el se poate obtine din diferenta intre
mediile secventelor, care este egala cu diferenta efectelor reziduale din cele
doua secvente, motiv care justifica si utilizarea interschimbabil a celor
doi termeni .
carry
SS
Intr-adevar, observnd c
1
1 2
1 2
n Y n Y
Y
n n
2

+
=
+

rezult

( ) ( )
( )
( )
( )
( ) ( )
( ) ( )
{ }
1
2 2
1 2
Carry 1 2
2
2
2 2
2
1 2 1 2
1 2 2 1 2 1
2 2
1 2
1 2 1 2
2
1 2 1
12 22 11 21
2
1 2
2 2
2
2 2
2
SS n Y Y n Y Y
n n
n n n n
Y Y Y Y Y Y
n n
n n n n
n n
Y Y Y Y
n n



= +
= + =
+
+ +

= + +

+
2


Media parantezei
( ) (
12 22 11 21
1
2
Y Y Y Y
)


+ +



este
2
T R
C C

conform demonstratiei ce urmeaza:
1, ijk ik j jk j k ijk
Y S P F C

= + + + + +
Calculand mediile corespunzatoare lui
11
Y

,
12
Y

,
21
Y

si
22
Y

vom
obtine:
( )
11 1 R
E Y P F

= + +
( )
21 2 T R
E Y P F C

= + + +
( )
12 1 T
E Y P F

= + +
( )
22 2 R T
E Y P F C

= + + +
( )
12 22
2
T
E Y Y C

+ = +
( )
11 21
2
R
E Y Y C

+ = +
De unde rezulta ca:
( ) ( )
12 22 11 21
1
2 2
T R
C C
E Y Y Y Y



+ + =






II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

139
Deci, efectul ce apare din diferenta intre secvente este in fapt legat
de diferenta intre efectele rezidule din cele doua secvente.
Carry
SS i au respectiv
Inter
SS
Carry
1 = i
Inter 1 2
2 n n = + grade de
libertate.


Calculul simplificat al erorii intraindividuale
Dupa cum s-a aratat in tabelul de mai sus, poate fi
descompusa in trei componente: o componenta datorata efectului direct al
medicamentului ( ), o componenta datorata perioadei ( ) si o
componenta datorata variabilitatii intra subiect
( ):
within
SS
drug
SS
P
SS
ra
SS
int ra drug P within
SS SS SS SS
int
+ + =
Dintre aceste trei componente, este in fapt singurul termen
legat de variabilitatea biologica intraindividuala. Vom deduce in continuare
o formula de calcul rapid al acestui termen .
int ra
SS
Aplicand succesiv formula ( )
( )
n
x
x x x
i
i i
2
2
2


= se obtine
dupa cum urmeaza.
( ) ( ) ( ) ( )
( )
=

= =





2
2
2 2
int
j
jk ijk
jk ijk k k i jk ijk ra
Y Y
Y Y Y Y Y Y SS

( )


+ =

=
k
k k i
k
jk
ijk
i k
k k i
k
i
ijk
ijk
n
Y Y
n
Y
Y
Y Y
n
Y
Y
2 2 2
2 2
2
2
,
2
2
2

2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor
Descompunerea lui permite testarea ipotezei privind
prezena variabilitii inter-subieci, adic:
within
SS
2
0
H : 0
s
= versus .
2
a
H : 0
s
>
n acest sens se folosete statistica

Inter Inter
V
Intra Intra
SS
F
SS

= .
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

140
Similar, celelalte efecte se pot testa cu ajutorul raportului intre suma
erorilor corespunzatoare si (pe post de in modelul general).
int ra
SS
R
SS

Sinteza formulelor de calcul este dat n tabelul urmator.


Tabelul nr. 19: Analiza efectelor fixe cu ajutorul dispersiilor:

Sursa de
variatie
df SS MS F
Inter - subiecti
Secventa (carry
- over
1 =
Carry

Carry
SS
Carry
Carry
Carry
SS
MS

=
=

er
Carry
Carry
MS
MS
F
int
=
=

Reziduale
2
2 1
+ = n n
Inter

Inter
SS
Inter
Inter
er
SS
MS

=
=
int

ra
er
er
MS
MS
F
int
int
int
=
=

Intra - subiecti
Efectul direct al
medicamentului
1 =
F

F
SS
F
F
F
SS
MS

=
ra
F
F
MS
MS
F
int
=
=
*
Perioada
1 =
P

P
SS
P
P
P
SS
MS

=
ra
P
P
MS
MS
F
int
=
=

Reziduale
2
2 1
+ = n n
Intra

Intra
SS
Intra
Intra
Intra
SS
MS

=
=


Total
( ) 1 2
2 1
+ = n n
Total

Total
SS


*
Formula este valid doar dac efectul carry-over este nul.

Observatii

Vom studia acum legtura dintre cele dou modele reprezentate in
Tabelul nr.1 si Tabelul nr.4
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

141
Dac factorul A este secvena de administrare a medicamentului si
factorul B este perioada, atunci este suma intre efectul carry-over si
efectul subiectilor, ( )
1 2
P P = este efectul perioadei si
R T
T R
F F
F F


=



este efectul interaciunii secvenei de administrare a medicamentului cu
perioada (adic efectul direct al medicamentului formulation).
Se observ c sunt verificate conditiile specificate la prezentarea
modelului general:

1 2 R T
1 2 1 2
11 12 R T 21 22
11 21 T R 12 22
0 C C
0 P P
0 F F
0 F F




+ = = +
+ = = +
+ = = + = +
+ = = + = +


Facem observatia, altfel esentiala, ca prezentarea in foarte multe
lucrari de biostatistica si bioechivalenta a efectului medicamentului ca
interactiune intre secventa si perioada este de neinteles in lipsa
identificarilor de mai sus.
In fapt, este vorba de combinatii intre variabile care sa permita
separarea efectelor. Aceste combinatii pot aparea ca efecte ai unor factori ce
nu se regasesc intr-un tablou farmacologic al determinantilor diferentelor
intre formulari.
Efectul de secventa (carry) ramane o piatra de incercare in
experimentele de bioechivalenta si aparitia lui in studii efectuate pe baza de
protocoale concepute astfel incat sa se evite complet aparitia efectelor
reziduale, este de neexplicat.












II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

142















II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

143
2.12. Legatura intre ANOVA si testul t in compararea efectelor

2.12.1. Compararea intre modelul statistic general si modelul statistic specific
cross over

In esenta, diferenta intre cele doua modele se refera la alegerea
termenului rezidual;
modelul 1 nu descompune pe ;
2
R
S
modelul 2 distinge ntre reziduale intra-individuale i reziduale inter-
individuale.
Mai exact:
( ) ( )
total within between
ra drug P er carry
er ra drug P carry R AB B A T
SS SS SS
SS SS SS SS SS
SS SS SS SS SS S S S S SS
= + =
= + + + + =
= + + + + = + + + =
int int
int int
2 2 2 2

Aceast descompunere modific formulele statisticilor F . In modelul
biostatistic se imparte cu un numar mai mic (
int ra
MS ) ceea ce conduce la un
interval de incredere mai larg pentru efectele de formulare si deci la cresterea
probabilitatii de acceptare a egalitatii efectelor.



2.12.2. Testarea efectului secvenei de administrare folosind metoda
ANOVA:

= =
carry carry
SS MS ( )
2
1 1
2

Y Y n + ( )
2
2 2
2

Y Y n =
2
2 1
2 2 1 1
1 1
2

+
+



n n
Y n Y n
Y n

+
2
2 1
2 2 1 1
2 2
2

+
+



n n
Y n Y n
Y n =
( )
( )
2
2 1
2
2 1
2
2 1
2
n n
Y Y n n
+


+
( )
( )
2
2 1
2
1 2
2
1 2
2
n n
Y Y n n
+



=
( )
2
1 2
2 1
2 1
2


+
Y Y
n n
n n
=
( )
2 1
2
1 2
1 1
2
n n
Y Y
+


=
( )
2
2 1
1 2
1 1
2


n n
Y Y
=

II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

144

( ) ( ) ( )
2
2
2
1 2 1 2 1 2
12 22 11 21 1 2
1 2 1 2
1 2
2 2 1
2
2
1 1
n n n n U U
Y Y Y Y U U
n n n n
n n






+ + = =



+ +

+





Deci,
2 2
1 2 1 2
2
int
1 2 1 2
1
2 *
2
1 1 1 1

carry
er u
u
MS
U U U U
MS
n n n n






= =

+ +




Se observa ca decizia obtinuta prin ANOVA in ceea ce priveste efectul
rezidual este acelasi cu rezultatul obtinut prin testul t.
Incercam, in continuare, sa facem aceiasi comparatie intre cele doua
metode de evaluare a efectului de perioada.


2.12.3. Testarea efectului perioadei folosind ANOVA

( ) ( )
( )
( ) ( )
( )
( ) ( )
{ }
( )
2 1
1 2 1 2
2 2
P
2 2
1 2
1 2
2 2
1 2 2 1
1 2
2 2
2
1 2
2 1
1 2
j j
k
k j i k j
n n
n n n n
SS Y Y n Y Y
n n Y Y Y Y
n n Y Y Y Y
n n
Y Y
n n



+ +

= =

= + +



= + +

+
=
+



Observatie:
Observam ca
ra
MS
MS
int

nu mai duce la acelasi rezultat ca in testul t efectuat


pentru variabilele
1
O si
2
O .
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

145
Nepotrivirea apare din aceea ca nu stim exact cum sa calculam media
perioadei: media least square
2
2 1 j j
j
Y Y
Y


+
= sau media obisnuita
2 1
n n
Y
Y
j
j
+
=



In acelasi context, al secventelor inegale, mai avem si media totala cand
apare problema folosirii mediei mediilor secventelor (least square) sau media
obisnuita.
Mentionam ca in literatura formulele finale sunt date fara demonstratie, iar
in aplicatiile efective sunt luate intotdeauna variante pentru cazul particular
(secvente egale).
2 1
n n =
Problema isi are importanta deoarece, de cele mai multe ori, la finalul
experimentului de bioechivalenta nu mai avem
2 1
n n = .


Concluzii:

n practic, n prezena efectelor carry over inegale, si deci a aparitiei
efectelor de secventa, se recomanda a se folosi pentru a testa bioechivalena,
datele din prima perioad. Nu trebuie s uitm insa urmtoarele consecine ale
acestei proceduri:
1) puterea de detecie a diferenelor semnificative clinic este micorat
datorit creterii dispersiei ( se inlocuieste dispersia intraindividuala cu cea
interindividuala) i,
2) pierderea de informaie prin acceptarea existentei unor efecte de secventa
si renuntarea la datele din perioada a 2 a.
In fond se anuleaz avantajul major al experimentului crossover i anume faptul
ca fiecare subiect este propriul sau martor.

Analiza dispersionala (ANOVA) se aplica in toata lumea in evaluarea
studiilor de bioechivalenta, dar in final rezultatele sale nu influenteaza in nici un
fel decizia privind bioechivalenta.
Efectele de perioada nu influenteaza estimarea efectelor de formulare.
Aparitia efectelor de formulare nu semnifica nimic! Egalitatea nu implica
bioechivalenta si nici bioechivalenta nu implica egalitatea.
Aparitia efectelor de secventa invalideaza metoda de testare a efectelor de
formulare. Pe de alta parte insa, testarea egalitatii duce la o informatie
nesemnificativa.
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

146
In acelasi timp este de mentionat ca toate ghidurile referitoare la analiza
bioechivalentei recomanda utilizarea MSE mean square erorr in formula de
testare a bioechivalentei. Dar aceasta iarasi nu inseamna nimic. In fond
2
2
d
MSE = si nimic nu ne impiedica sa estimam direct
2
d
prin care este mai
usor calculat si rezultatul este acelasi.
2
d
S
Ramane totusi ca ANOVA in cazul in care pune in evidenta efectele de
secventa impune o examinare atenta a protocolului studiului si verificarea
masurilor de indepartare a efectelor reziduale.
Ca o concluzie finala, ANOVA nu este un instrument de decizie, rolul sau
fiind informativ.






II. Statistica matematica si biostatistica Estimarea bioechivalentei



147
2.13. Estimarea bioechivalentei

2.13.1. Metode parametrice de estimare a bioechivalentei
2.13.1.1. Metoda intervalului de incredere
Anterior a fost prezentata modalitatea de testare a ipotezei nule ca
doua produse sunt egale intre ele dupa efectuarea unui experiment 2*2
cross-over, metoda care a fost criticata de multi autori. In locul acesteia a
fost propusa de Metzler
1
o metoda bazata pe intervale de incredere.
Daca intervalul de incredere ( ) % 100 * 2 1 pentru diferenta
R T
sau pentru raportul
R
T

se afla in limitele de acceptare impuse,


atunci se accepta ca medicamentul testat este bioechivalent cu cel de
referinta. Uzual se aplica regula % 20 , iar 05 . 0
2
=

si, in acest caz,


regula de acceptare devine:
a) Produsele sunt bioechivalente daca intervalul de incredere 90%
pentru
R T
este in limitele % 20 din efectul produsului de referinta
sau daca,
b)
R
T

este intre 80% si 125% cu probabilitatea 90%.


Aici trebuie facuta observatia ca, in ambele cazuri, aplicarea regulii
presupune cunoasterea lui
R
, ceea ce nu este niciodata cazul, si se ia din
acest motiv
R
Y pe post de
R
.

2.13.1.2. Metoda celor doua teste unilaterale, Schuirmann
Ipoteza nula este ipoteza compusa din doua ipoteze simple, testul de
bioechivalenta descompunandu-se de fapt in doua teste unilaterale:
I R T
H :
01
vs
1
:
a T R
H
I
si
S R T
H :
02
vs
S R T a
H :
2

O biodisponibilitate mai mare a produsului testat decat cel de
referinta, implica posibilitatea unor efecte secundare sau toxice crescute si o
siguranta mai mica. Bioechivalenta implica o echivalenta atat in ceea ce
priveste efectul cat si in ceea ce priveste siguranta.

1
C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974
II. Statistica matematica si biostatistica Estimarea bioechivalentei



148
Daca vrem sa testam ipotezele enuntate la un nivel de semnificatie
, in conditiile in care presupunem ca datele sunt normal repartizate, putem
aplica testul t. Echivalenta este stabilita atunci cand
( )
( )
1 2
1 2
, 2
1 1

T R I
I
d
Y Y
T t n n
n n


= +
+
si
( )
( )
1 2
1 2
, 2
1 1

T R S
S
d
Y Y
n n
n n


T t = +
+

2
2
d
MSE
= (MSE =Mean Square Error din ANOVA),
deci

2
d
RMSE
= (RMSE =Root Mean Square Error)
Observam ca procedeul celor doua teste t unilaterale este echivalent
cu metoda clasica de testare a includerii intervalului de incredere pentru
R T
cu probabilitatea ( ) % 100 * 2 1 in intervalul de acceptare.

2.13.1.3. Transformarea logaritmica a datelor
Ghidurile de testare a bioechivalentei recomanda transformarea
logaritmica a datelor.
Daca datele initiale sunt repartizate normal si coeficientul de variatie
este mic, atunci si datele transformate urmeaza aproximativ o distributie
normala.
Pentru a demonstra aceasta observam ca :
2
2
2
CV
X
D = =



Daca CV este suficient de mic

X
este aproximat de zero si :


+ =

=
X X X
X 1 ln ln ln ln
Deci,


+
X
X ln ln ; ( ) ln ln = X E si ( )
2
ln CV X D =
Deci, ( )
2
, ln ln CV N X = , adica datele transformate sunt distribuite
normal cu media ln si dispersia .
2
CV
Deci, coeficientul de variatie obtinut din datele netransformate este o
estimare a dispersiei datelor transformate.
II. Statistica matematica si biostatistica Estimarea bioechivalentei



149
De obicei insa transformarea logaritmica are rostul de a corecta
asimetria datelor initiale si a le restrange prin aceea ca trece in
2

2
2

.
In cazul in care nu este foarte mic lucrurile sunt cu mult mai
complicate.
2
CV
Intervalul de incredere pentru diferenta mediilor datelor transformate
sunt aproximativ egale cu cele pentru logaritmul raportului
mediilor netransformate

R T

R
T

ln .
Intr-adevar, fie ( )
T T
X E = , ( )
R R
X E = , ( )

=
T T
X E ln si
( ) ( )
2
ln ln = =
R T
X D X D
Avem:
( ) ( ) ( )
( ) ( )
2
ln
2
2
2 2
1
1 ln ln
2
1 1
1 ln 1
2 2
T
T
X
T T T T
T T T T
E X E e E X X
E X e





= = + + =


= + + = + + + = +

Similar obtinem:
2
2


+ =

R
e
R

Ca urmare
2
2
ln ln
2
2

+
+
=

R
T
e
e
R
T
si cum
2
2

este de asteptat sa fie


foarte mic in raport cu si , avem :

R
e


T
e

R T
R
T
R
T
e
e

ln ln

2.13.2. Metode non parametrice de testare a bioechivalentei
Daca nu sunt verificate ipotezele necesare aplicarii ANOVA (si
implicit a testului t), in particular ipotezele privind normalitatea si egalitatea
dispersiilor, intervalul de incredere se determina folosind testele non-
parametrice. Metoda se bazeaza pe compararea rangurilor. In analiza
bioechivalentei, exista indoieli si incertitudini in ceea ce priveste natura
distributiei parametrilor farmacocinetici . Timp de multi ani parametrii
II. Statistica matematica si biostatistica Estimarea bioechivalentei



150
bioechivalentei au fost analizati ca valori netransformate. Ulterior
reglementarile oficiale au recomandat transformarea logaritmica a datelor.
In prezent, analiza statistica se bazeaza pe transformarea logaritmica
a AUC si a valoarii . Deoarece
max
C

=
B
A
B A ln ln ln aceasta este o
analogie (dar nu acelasi lucru) cu analiza raportului parametrilor estimati.
O metoda de calcul neparametric a intervalului de incredere pentru
raportul parametrilor a fost data de Hollander si Wolfe
2
si extinsa ulterior
alaturi de alte metode nonparametrice de Steinijens si Diletti
3
.
Metodele sunt tentante dar, un lucru esential trecut de obicei sub
tacere este acela ca se presupune ca nu apar efecte de perioada sau efecte de
secventa. Pe de alta parte, chiar daca statistica arata aparitia unor astfel de
efecte, nu avem nici o garantie ca acestea sunt reale. In fapt o decizie
corecta privind aceste efecte se bazeaza numai pe evaluarea
fenomenologica, pe baza proprietatilor fizicochimice ale substantelor active,
a considerentelor fiziologice si a caracteristicilor designului experimentului
clinic.
Consideram N subiecti intr-un experiment cross-over cu doua
perioade si doua secvente ( care insa nu se iau in calcul). In prima faza se
determina diferentele pentru fiecare subiect (Testat Referinta). Pentru
cazul unei transformari logaritmice a AUC se compara diferentele
logaritmului raspunsurilor pentru fiecare subiect:
( ) ( ) R
AUC
AUC
AUC AUC
R
T
R T
=

= ln ln ln
Se pot calcula si rapoartele
R
T
AUC
AUC
deoarece acestea sunt in relatie
biunivoca cu diferentele logaritmurilor.
Se compara R , media geometrica pentru rapoarte, pentru toate
perechile posibile de N rapoarte individuale (R), unde N este numarul de
subiecti. Exista
( )
2
1 + N N
astfel de perechi, incluzand si raportul R/R intre
un subiect si el insusi.

2
Hollander M, Wolfe D A, Non-parametric Statistical Methods,Wiley, New York, 1973
3
Steinijens V W, Diletti E, Statistical Analysis of Bioavailability Studies: Parametric and
Non-parametric Confidence Intervals, Eur. J . Clin. Pharmacol 24, 127-136,1983
II. Statistica matematica si biostatistica Estimarea bioechivalentei



151
Facem observatia ca media geometrica a rapoartelor este in
corespondenta biunivoca cu media aritmetica al logaritmului valorilor :
3
ln
3
ln ln ln
abc
c b a
=
+ +
, etc.
Valorile lui R sunt apoi ordonate crescator in functie de rang.
Limita inferioara si superioara a intervalului de incredere nonparametric de
90%, respectiv 95%, sunt redate in tabelul privind intervalele de incredere
folosind testul de rang Wilcoxon.
In practica, nu este necesara compararea logaritmica deoarece noi
suntem interesati de rapoartele dintre testat si referinta. Daca noi comparam
rapoartele si folosim media geometrica a perechilor
( )
2
1 + N N
pentru
ranguri, obtinem un interval de incredere pentru rapoartele directe dintre
testat si referinta.

2.13.3. Compararea rezultatelor metodelor parametrice si non
parametrice in estimarea bioechivalentei unor forme farmaceutice cu
meloxicam
Problema studiului de bioechivalenta privind supozitoarele cu
MELOXICAM - medicamentul testat si MELOXICAM - medicamentul de
referinta, a fost aceea ca aplicand procedurile statistice standard produsele
apareau, dupa cum se poate vedea (fig. 8) chiar si cu ochiul liber ca fiind
inechivalente.

Fig. 8. Curbele medii pentru produsul testat si cel de referinta
II. Statistica matematica si biostatistica Estimarea bioechivalentei



152
O examinare mai atenta insa a profilelor individuale (fig.9a si fig 9b)
arata o distribuite omogena, relativ normala a profilelor in cazul
medicamentului testat si o distributie absolut anormala in cazul produsului
de referinta
4
.

Fig. 9a Curbele individuale pentru produsul de referinta

Fig. 9b Profilele individuale dupa administrarea medicamentului testat

4
A.Medvedovici, F.Albu, C.Georgita, C.Mircioiu, V.David, A non-extracting procedure
for the determination of meloxicam in plasma samples by HPLC-diode array
detection,Arzneimittel Forschung/Drug Research,.55 (6), 326-331 (2005).
II. Statistica matematica si biostatistica Estimarea bioechivalentei



153
Apare ca profilele medicamentului testat se imparte in 3 grupe
diferite: un subiect cu valori aberant de mici, 5 voluntari cu valori mari si
restul un grup mai omogen cu valori intermediare.
In acest context, testarea uzuala a bioechivalentei parametrilor in
cele doua populatii (R si T) si pe egalitatea dispersiilor, este departe de a fi
cea mai indicata metoda.

2.13.3.1. Estimarea egalitatii mediilor plasmatice folosind testul non
parametric Wilcoxon
La testarea egalitatii mediilor plasmatice a doua preparate
farmaceutice (testat T si referinta R) continand MELOXICAM s-a
constatat urmatoarea distributie a datelor:
Subject 1 3 5 6 7 8 10 11 12
AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5
AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
Subject 13 15 16 17 18 19 20 21 23
AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3
AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4
Tabel 20
Studiem mai intai diferentele dintre AUC pentru medicamentul testat si
referinta.
Subject 1 3 5 6 7 8 10 11 12
AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5
AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
AUC AUC
T R

8215 1230 2822 9114 18130 3901 18340 37547 9731
Subject 13 15 16 17 18 19 20 21 23
AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3
AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4
AUC AUC
T R

299 19320 8002 11544 2573 -10226 11172 -6456 12024
Tabel 21
Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare.
Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta
dintre tratamente. Vom ordona crescator aceste diferente netinandu-se cont
de semn (Tabel 22).
Subject 13 3 18 5 8 21 16 1 6
AUC AUC
T R

299 1230 2573 2822 3901 -6456 8002 8215 9114
Rang 1 2 3 4 5 6 7 8 9

Subject 12 19 20 17 23 7 10 15 11
AUC AUC
T R

9731 -10226 11172 11544 12024 18130 18340 19320 37547
Rang 10 11 12 13 14 15 16 17 18
II. Statistica matematica si biostatistica Estimarea bioechivalentei



154
Dupa ordonarea completa a diferentelor (netinandu-se cont de
semne) se vor adauga semnele corespunzatoare diferentelor originale care
au determinat aceste ranguri:

Subject 13 3 18 5 8 21 16 1 6
AUC AUC
T R

299 1230 2573 2822 3901 -6456 8002 8215 9114
Rang + semn 1 2 3 4 5 -6 7 8 9

Subject 12 19 20 17 23 7 10 15 11
AUC AUC
T R

9731 -10226 11172 11544 12024 18130 18340 19320 37547
Rang + semn 10 -11 12 13 14 15 16 17 18
Tabel 23
Astfel, subiectul 21 care avea inainte rangul 6 va capata rangul -6
deoarece diferenta pentru acest subiect este negativa. Acelasi lucru se va
intampla si cu subiectul 19 care va capata rangul -11.
Vom calcula suma rangurilor pozitive si suma rangurilor negative:
154 18 17 16 15 14 13 12 10 9 8 7 5 4 3 2 1 = + + + + + + + + + + + + + + + =
+
R
si 17 11 6 = + =

R
In tabelul de mai jos sunt prezentate valorile critice ale celor doua
sume de ranguri necesare pentru nivelul de semnificatie 5%, respectiv 1%,
pentru N valori (N se considera numarul de perechi excluzand perechile a
caror diferenta este 0). Cea mai mica suma a rangurilor trebuie sa fie cel
mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele
doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat.
Numarul de
subiecti N
05 , 0 = 01 , 0 =
6 0 -
7 2 -
8 3 0
9 5 1
10 8 3
11 10 5
12 13 7
13 17 10
14 21 13
15 25 16
16 30 19
17 35 23
18 40 28
19 46 32
20 52 37
II. Statistica matematica si biostatistica Estimarea bioechivalentei



155
In studiul analizat 18 = N , suma minima a rangurilor este si
(valoarea corespunzatoare din tabel). De aceea, spunem ca
17 =

R
40 17 cele
doua medicamente realizeaza nivele plasmatice diferite pentru 05 , 0 = .
Rezultatele acestui test sunt foarte aproape de cele obtinute cu testul
t. Considerand ca ipotezele testului Wilcoxon sunt mai putin restrictive in
comparatie cu testul t, atunci cand nu avem garantia inplinirii conditiilor de
aplicare a testului t, testul de mai sus este un test de recomandat.
Pentru valorile date aproximarea normala este mai la indemana
pentru a compara mediile celor doua populatii:
( )
( )( )
24
1 1 2
4
1
+ +
+

=
N N N
N N
R
Z
unde R este suma rangurilor (poate fi utilizata oricare dintre suma rangurilor
pozitive sau negative) si N este numarul de elemente (exceptand valorile
egale).
In cazul nostru, 18 = N si 154 = R , deci,
9832 , 2
12
19 * 5 , 18 * 18
4
19 * 18
154
=

= Z .
In cazul in care se vor exclude subiectii 6 si 21 vom avea: ,
,
16 = N
127 =
+
R 9 =

R si
0508 , 3
12
17 * 5 , 16 * 16
4
17 * 16
127
=

= Z

Deci si aproximarea normala a distributiei rangurilor ne duce la
aceiasi concluzie privind existenta unei diferente semnificative intre nivelele
plasmatice ale lui R si T.



II. Statistica matematica si biostatistica Estimarea bioechivalentei



156

3.13.3.2. Estimarea bioechivalentei prin calculul non parametric al
intervalelor de incredere
La testarea bioechivalentei acelor doua preparate farmaceutice
(testat T si referinta R) s-au obtinut urmatoarele valori pentru .
max
C

Subiect 1 3 5 6 7 8 10 11 12
max
C R
923 1739 770 173 795 698 918 707 1381
max
C T
1289 1856 728 639 1726 1028 1626 799 1206
T/R 1,39 1,06 0,94 3,69 2,17 1,47 1,77 1,95 1,50

Subiect 13 15 16 17 18 19 20 21 23
max
C R
927 641 643 879 787 1795 865 1030 1401
max
C T
1048 1241 968 1132 981 1654 1590 809 1768
T/R 1,13 1,93 1,50 1,28 1,24 0,92 1,83 0,78 1,26
Tabel 25

Vom determina media geometrica pentru fiecare raport
R
T
adica
radicalul dintre produsul a doua rapoarte. Astfel: pentru subiectul 1 media
geometrica este radicalul dintre produsul raportului subiectului 1 combinat
cu el insusi:
397 , 1 39653 , 1 * 39653 , 1
Pentru subiectul 1 combinat cu subiectul 2, media geometrica este
radicalul produsului dintre raportul subiectului 1 si raportul subiectului 2:
221 , 1 067 , 1 * 397 , 1
Acest rationament il vom aplica pentru fiecare dintre cei 18 subiecti.
Se vor determina
( )
171
2
19 * 18
2
1
= =
+ N N
de combinatii diferite incluzand
si fiecare raport cu el insusi.
II. Statistica matematica si biostatistica Estimarea bioechivalentei

Mediile geometrice determinate sunt:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 1,397 1,221 1,149 2,271 1,741 1,434 1,573 1,652 1,452 1,257 1,644 1,450 1,341 1,319 1,134 1,602 1,047 1,328
2 1,221 1,067 1,005 1,985 1,522 1,254 1,375 1,444 1,269 1,098 1,437 1,268 1,172 1,153 0,992 1,401 0,916 1,161
3 1,149 1,005 0,945 1,869 1,433 1,180 1,294 1,359 1,195 1,034 1,353 1,193 1,103 1,086 0,933 1,318 0,862 1,092
4 2,271 1,985 1,869 3,694 2,832 2,332 2,558 2,686 2,361 2,043 2,674 2,358 2,181 2,146 1,845 2,606 1,703 2,159
5 1,741 1,522 1,433 2,832 2,171 1,788 1,961 2,059 1,810 1,567 2,050 1,808 1,672 1,645 1,414 1,998 1,306 1,655
6 1,434 1,254 1,180 2,332 1,788 1,473 1,615 1,696 1,491 1,290 1,689 1,489 1,377 1,355 1,165 1,645 1,076 1,363
7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 1,860 1,635 1,415 1,852 1,633 1,510 1,486 1,278 1,804 1,179 1,495
8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 1,717 1,486 1,945 1,715 1,586 1,560 1,342 1,895 1,239 1,570
9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509 1,306 1,709 1,507 1,394 1,372 1,179 1,666 1,089 1,380
10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 1,479 1,305 1,207 1,187 1,021 1,442 0,942 1,194
11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 1,707 1,579 1,553 1,336 1,886 1,233 1,563
12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 1,392 1,370 1,178 1,663 1,087 1,378
13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 1,267 1,089 1,539 1,006 1,275
14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 1,072 1,514 0,989 1,254
15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 1,301 0,851 1,078
16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 1,202 1,523
17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 0,996
18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262

Mediile geometrice considerate o singura data sunt:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 1,397
2 1,221 1,067
3 1,149 1,005 0,945
4 2,271 1,985 1,869 3,694
5 1,741 1,522 1,433 2,832 2,171
6 1,434 1,254 1,180 2,332 1,788 1,473
7 1,573 1,375 1,294 2,558 1,961 1,615 1,771
8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953
9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509
10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131
11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936
12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505
13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288
14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247
15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921
16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838
17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785
18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262


157
III. Statistica matematica si biostatistica Estimarea bioechivalentei

158

Tabel 26 Intervalele de incredere folosind testul de rang Wilcoxon
Rangul limitei inferioare Rangul limitei superioare Numarul de subiecti
(N) 95% 90% 95% 90%
6 1 3 21 19
7 3 4 26 25
8 4 6 33 31
9 6 9 40 37
10 9 11 47 45
11 11 14 56 53
12 14 18 65 61
13 18 22 74 70
14 22 26 84 80
15 26 31 95 90
16 30 36 107 101
17 35 42 119 112
18 41 48 131 124
19 47 54 144 137
20 53 61 158 150
21 59 68 173 164
22 66 76 188 178
23 74 84 203 193
24 82 93 219 208
Dupa cum se observa, limita inferioara, respectiv superioara a
intervalului de incredere 95% este valoarea rangului 14, respectiv 65 al
mediilor geometrice determinate anterior, deoarece numarul de subiecti este
. 18 = N
Pentru a determina un rang al mediilor geometrice vom construi, in
EXCEL, tabelul mediilor geometrice luate o singura data
Vom folosi functia small(array;k) care calculeaza valoarea de rang
k dintr-un set de date (array).
In cazul nostru array, in tabelul Exccel, a fost F3:Q20, ,
respectiv 131 pentru intervalul de incredere , deci am avut:
41 = k
% 95 CI
=small(F3:Q20; 41)=1,194
=small(F3:Q20; 131)=1,696
ceea ce inseamna un interval de incredere ( ) 696 , 1 , 194 , 1 % 95 = CI
In cazul intervalului de incredere 90% limita inferioara va avea
rangul 48, iar cea superioara rangul 124 corespunzand astfel intervalului
: ( ) 652 , 1 , 247 , 1 % 90 = CI
=small(F3:Q20;48)=1,247
=small(F3:Q20;124)=1,652
III. Statistica matematica si biostatistica Estimarea bioechivalentei

159


Limitele inferioare si limitele superioare stabilite de FDA pentru
bioechivalenta sunt ( ) 25 , 1 , 800 , 0 .
In ambele situatii se constata ca nu putem demonstra bioechivalenta
celor doua produse.


2.13.3.3. Estimarea bioechivalentei folosind testul non parametric
Wilcoxon, pornind de la un model care ia in considerare si efectele de
perioada

Fie, folosind notatiile standard de la modelul incrucisat cu doua
perioade si doua secvente, diferenta intre formularile testate
R T
= .
Consideram testarea bioechivalentei folosind doua teste unilaterale:
L L L A L
unde H vs H =

0 : 0 :
1 01
si

U U U A U
unde H vs H =

0 : 0 :
2 02
In vederea testarii ipotezelor enuntate consideram combinatia
(contrastul):

=
=
2 sec ;
1 sec , ;
venta din subiectii pentru d
venta din subiectii pentru U L h d
b
ik
h ik
hik

,
unde:

k
n i , 1 = , 2 , 1 = k , reprezinta numarul de subiecti in cele doua
secvente

2
1 2
P P
d
ik

= este jumatate dintre diferentele intre cea de-a II a


perioada si prima perioada
U sau L dupa cum ne referim la compararea cu limita inferioara
sau cea superioara a intervalului de acceptare a bioechivalentei
h =
III. Statistica matematica si biostatistica Estimarea bioechivalentei

160

Folosind rationamentul de la testarea efectelor in experimentul
cross-over pentru diferenta intre valorile pereche ale unui subiect dat
vom obtine:
ik
d
( )
( ) ( ) [ ]
( ) [ ]

= +
= +
=
2
2
1
1 2
2
1
1 2
1 2
k pentru P P
k pentru P P
b E
h
hik



( ) ( )
2
2
2 e
d ik hik
d D b D

= = =
Observam ca din definitiile de mai sus rezulta imediat ca:
( ) ( ) ( )

= =
h h hi hi
b E b E
2 1

Media sumei rangurilor este
( )
4
1
2 1 1
+ + n n n
(s-a demonstrat la testul
Wilcoxon).
Consideram suma rangurilor: si si
variabilele aleatoare
(

=
=
1
1
1
n
i
Li L
b R R ) ) (

=
=
1
1
1
n
i
Ui U
b R R
( )
2
1
1 1
+
=
n n
R W
L L
si
( )
2
1
1 1
+
=
n n
R W
U U
.
Inlocuirea sumei rangurilor R cu
( )
2
1 +

n n
R este testul Mann
Whitney care insa este in esenta acelasi test.
( ) ( )
( ) ( )
2 2
1
2
1
2 1 1 1 2 1 1
n n n n n n n
W E W E
U L
=
+

+ +
= =
si
( ) ( )
( )
12
1
2 1 2 1
+ +
= =
n n n n
W D W D
U L

Tragem concluzia ca produsele sunt bioechivalente atunci cand
amandoua ipotezele si sunt respinse.
01
H
02
H
Deci, relatia: ( ) w W
U
si ( ) 1 w W
L

unde valorile ( ) w se gasesc in tabele, iar valorile complementare se
calculeaza cu formula: ( ) ( ) w n n w =
2 1
1 , implica biochivalenta celor
doua produse.
III. Statistica matematica si biostatistica Estimarea bioechivalentei

161

In cazul in care avem si un numar de cozi (valori egale), atunci
valorile egale se inlocuiesc cu media rangurilor lor si dispersiile devin
k

r
( ) ( ) ( ) Q n n n n W D W D
U L
+ + = = 1
12
1
2 1 2 1
,
unde
( )( )
( )


+ +
=
=
k
r r
n n n n
Q
1
3
2 1 2 1
1
1


.
Cand numarul de valori este suficient de mare (de exemplu, mai
mare de 40) se poate folosi aproximatia normala:
( )
( )
( )
( ) 1
12
1
2
1
2 1 2 1
2 1 1
+ +
+ +

=
n n n n
n n n
R
W D
W E W
Z
L
L
L L
L
si
( )
( )
( )
( ) 1
12
1
2
1
2 1 2 1
2 1 1
+ +
+ +

=
n n n n
n n n
R
W D
W E W
Z
U
U
U U
U

Vom compara pentru studiul de bioechivalenta privind
produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.
tot
AUC
Subiecti 1 6 7 10 11 15 19 20 21
secv 1 RT RT RT RT RT RT RT RT RT
1
P
36721 3494 24163 21584 40403 21322 48654 19776 31387
2
P
44936 12608 42293 39924 77951 40642 38428 30948 24932

Subiecti 3 5 8 12 13 16 17 18 23
secv 2 TR TR TR TR TR TR TR TR TR
1
P
65279 50454 25033 34553 25217 37065 37007 19996 35726
2
P
64049 47631 21132 24823 24918 29063 25463 17423 23702
Vom calcula
2
1 2
P P
d
ik

= =jumatate dintre diferentele intre cea de-


a II a perioada si prima perioada
Calculam
III. Statistica matematica si biostatistica Estimarea bioechivalentei

162

1 2
36721 3494 ... 31387 64049 47631 ... 23702
44900
9 9
R
R
AUC
AUC
n n
= =
+
+ + + + + + +
= =
+


Determinam: 8980 * 2 , 0 = = =
R U L
AUC
Deci,
13088 8980 4108
11 11
= + = =
L L
d b ,..,
5752 8980 3228
91 91
= + = =
L L
d b
4872 8980 4108
11 11
= = =
U U
d b ,,
12208 8980 3228
91 91
= = =
U U
d b
615
12 12 12
= = = d b b
U L
, ., 6012
92 92 92
= = = d b b
U L

Ordonam descrescator valorile absolute ale lui , respectiv si
vom determina rangurile corespunzatoare
Lik
b
Uik
b
( )
Lik
b R , respectiv ( )
Uik
b R .
( ) 51 10 5 13 2 1 3 4 6 7
1
1
1
= + + + + + + + + =

=
=
n
i
Li L
b R R
( )
6
2
10 * 9
51
2
1
1 1
= =
+
=
n n
R W
L L

( ) 78 2 10 1 14 3 16 18 8 6
1
1
1
= + + + + + + + + =

=
=
n
i
Ui U
b R R
( )
33
2
10 * 9
78
2
1
1 1
= =
+
=
n n
R W
U U



secv
1
1
P
2
P
ik
d
L i Li
d b =
1 1
( )
Lik
b R
U i Ui
d b =
1 1
( )
Uik
b R
RT 36721 44936 4108 13088 7 -4872 6
RT 3494 12608 4557 13537 6 -4423 8
RT 24163 42293 9065 18045 4 85 18
RT 21584 39924 9170 18150 3 190 16
RT 40403 77951 18774 27754 1 9794 3
RT 21322 40642 9660 18640 2 680 14
RT 48654 38428 -5113 3867 13 -14093 1
RT 19776 30948 5586 14566 5 -3394 10
RT 31387 24932 -3228 5752 10 -12208 2



III. Statistica matematica si biostatistica Estimarea bioechivalentei

163


secv
2
1
P
2
P
ik
d
2 2 i Li
d b = ( )
Lik
b R
2 2 i Ui
d b = ( )
Uik
b R
TR 65279 64049 -615 -615 17 -615 15
TR 50454 47631 -1411 -1411 15 -1411 12
TR 25033 21132 -1950 -1950 14 -1950 11
TR 34553 24823 -4865 -4865 11 -4865 7
TR 25217 24918 -149 -149 18 -149 17
TR 37065 29063 -4001 -4001 12 -4001 9
TR 37007 25463 -5772 -5772 9 -5772 5
TR 19996 17423 -1287 -1287 16 -1287 13
TR 35726 23702 -6012 -6012 8 -6012 4

Din tabel avem:
( ) 22
05 , 0 ; 9 ; 9
= = W w si ( ) ( ) 59 22 9 * 9 1
2 1
= = = w n n w
Intrucat
( )
22 33
U
w W si
( )
6 59 1
L
w W nu
putem afirma ca produsele sunt bioechivalente


2.13.3.4.Calculul parametric

LATIN SQUARE DESIGN : ANOVA TABLE for AUCtot
LATIN SQUARE with Log (neperian) option
SOURCE D.F SS MS F p
Period 1 0.000350993 0.000350993 0.00114772 0.9734 NS
Subject(Seq) 16 10.4047 0.650296 2.12643 0.07096 NS
Formulation 1 0.320187 0.320187 1.04699 0.3214 NS
Sequence 1 0.0100203 0.0100203 0.0327659 0.8586 NS
Error 16 4.89306 0.305816
Total 35 15.6284
--------------------------------------------------------------------------------
N Mean SD SEM GeoMean Geo SD
Formulation:num = R 18 10.2755 0.850093 0.200369 29012.8 2.33987
Formulation:num = T 18 10.4641 0.421689 0.0993931 35035.2 1.52453
--------------------------------------------------------------------------------
Root Mean Square Error = 0.553007 ; CV = 0.0533286
phi = 0.72353
Power of the test = 0.161064
1 - ( Power of the test ) = 0.838936
Minimum detectable difference = 0.188617
III. Statistica matematica si biostatistica Estimarea bioechivalentei

164

--------------------------------------------------------------------------------
BIOEQUIVALENCE TESTS FOR
Level R and level T
Reference Confidence Interval: [ 0.8, 1.25]
Geomean Ratio (Test/Reference) = 1.20758
90% standard confidence interval
(around the ratio:[test form]/[ref form])=[ 0.87528, 1.666]
t(0.05 - 16df) = 1.7459

Cannot conclude equivalence.
--------------------------------------------------------------------------------
TWO ONE-SIDED T-TESTS FOR
Level R and level T
Lower: t( 16df) = 0.1873
Upper: t( 16df) = 2.2338
t(0.05 - 16df) = 1.7459
Cannot conclude equivalence

LATIN SQUARE DESIGN : ANOVA TABLE for Cmax

LATIN SQUARE with Log (neperian) option
SOURCE D.F SS MS F p
Period 1 0.18169 0.18169 3.02264 0.1013 NS
Subject(Seq) 16 4.71008 0.29438 4.89739 0.001414 ***
Formulation 1 1.22793 1.22793 20.4283 0.000349 ***
Sequence 1 0.0137681 0.0137681 0.229051 0.6387 NS
Error 16 0.961752 0.0601095
Total 35 7.09523
--------------------------------------------------------------------------------
N Mean SD SEM GeoMean Geo SD
Formulation:num = R 18 6.72375 0.494661 0.116593 831.927 1.63994
Formulation:num = T 18 7.09312 0.316931 0.0747013 1203.66 1.37291
--------------------------------------------------------------------------------
Root Mean Square Error = 0.245172 ; CV = 0.0354889

90% standard confidence interval
(around the ratio:[test form]/[ref form])=[ 1.2544, 1.6687]
t(0.05 - 16df) = 1.7459
Cannot conclude equivalence.
III. Statistica matematica si biostatistica Estimarea bioechivalentei

165

2.13.4.Compararea rezultatelor
Este de observat ca testele neparametrice, la fel ca cele parametrice
indica faptul ca cele doua produse nu sunt bioechivalente. Aceasta deoarece
intr-adevar la aproape toti subiectii avem:
T
tot
R
tot
AUC AUC
Si totusi rezultatul este profund incorect deoarece intravariabilitatea
si distributia non-normala a rezultatelor produsului de referinta indica foarte
probabil si o intravariabilitate mare a produsului de referinta.
Dupa cum se vede in fig. 10, fig.11. avem o diferenta foarte mare
intre medicamentul de referinta si medicamentul testat dar aceasta diferenta
este o combinatie intre intravariabilitatea lui R si cea a lui T.

R T
TreatmentName
0
100000
200000
300000
400000
A
U
C
t
o
t
(
n
g
/
m
L
*
h
)
AUCtot vs TreatmentName
01 03
05 06
07 08
10 11
12 13
15 16
17 18
19 20
21 23
R T
TreatmentName
0
500
1000
1500
2000
C
m
a
x
(
n
g
/
m
L
)
Cmax vs TreatmentName
01 03
05 06
07 08
10 11
12 13
15 16
17 18
19 20
21 23

Fig. 10Valorile AUC
tot
pereche pentru R si T Fig. 11Valorile C
max
pereche pentru R si T

In acest caz, dupa cum au propus aproape toti cercetatorii in ultimii
ani ar trebui introduse criterii scalate adica largirea limitelor de
acceptare a bioechivalentei, in functie de intravariabilitatea referintei.
Din pacate aceasta nu se poate obtine decat din experimente
repetate, deci experimente in care medicamentul referinta este administrat
de doua ori.
In experimentul cross-over fara repetitie se obtine o intravariabilitate
sau din ANOVA care sunt o combinatie a variabilitatilor pentru
medicamentul testat si referinta si acestea nu se pot estima separat.
2
d
S
ra
SS
int



III. Statistica matematica si biostatistica Estimarea bioechivalentei

166


II. Statistica matematica si biostatistica Teste statistice de discordanta

167
2.14. TESTE STATISTICE DE DISCORDANTA

In ceea ce priveste valorile anormale , se pun in principal trei
probleme:
- decizia privind respingerea sau omisia acestor valori,
- analiza efectului lor de distorsionare a rezultatelor estimarilor
parametrilor populatiei,
- existenta unor factori neluati in seama si necesitatea elaborarii unui
alt model statistic, corespunzator realitatii.
In vederea realizarii primului obiectiv se aplica testele de
discordanta , numite si teste de respingere , dar decizia de respingere sau
non-respingere nu poate fi luata fara examinarea si a celorlate doua
probleme enuntate.
Putem defini intuitiv notiunea de discordanta (outlier) astfel: o
observatie care deviaza atat de tare de restul observatiilor incat poate fi
suspectata ca a fost generata printr-un mecanism diferit. Cand este vorba de
un set de date universale, caracteristica principala a unei observatii
discordante este departarea sau deviatia (masurata) la o scara adecvata)
fata de grupul majoritatii observatiilor (inlying observations). Cand este
vorba de date multivaluate / structurate, discordanta inseamna abaterea de la
modelul statistic (de ex. Regresia liniara) caruia i se supun celelalte valori.
In general, putem spune ca, intr-un esantion, o valoare (sau o submultime de
valori) este discordanta daca nu respecta patentul caruia ii apartin celelalte
valori ( este inconsistenta cu restul observatiilor).
In principiu exista doua mecanisme care pot da nastere unui esantion
ce pare sa contina valori outlier (daca excludem factorul de eroare umana
sau defectiunile aparaturii folosite). Aceste mecanisme dicteaza in buna
masura felul in care vor fi tratate aceste valori speciale.
a. Datele provin dintr-o distributie heavy tailed (graficul functiei de
repartitie se apropie relativ incet de asimptota data de axa Ox) precum
distributia Student T. In acest caz, valorile aparent indepartate de restul
reprezinta un factor firesc, intrisec legii de repartitie.
Acest fenomen nu este caracteristic distributiei normale sau
distributiilor gamma (ce manifesta o apropiere rapida de asimptota Ox),
drept pentru care nu vom discuta acest mecanism.
b. Datele provin din doua distributii diferite. Una dintre acestea,
distributia de baza genereaza observatii bune, in timp ce cealalta,
distributia contaminata creeaza observatii discordante sau
contaminanti. Daca distributia contaminanta are o descrestere
asimptomatica mai lenta decat cea de baza, atunci va fi evidenta tendinta
II. Statistica matematica si biostatistica Teste statistice de discordanta

168
contaminantilor de a se manifesta ca valori discordante, indepartate de restul
observatiilor.
n general exist o gam foarte larg de teste din care putem alege i
n mod natural ne punem problema care sunt criteriile de a alege un test sau
altul ntr-o situaie particular i cum putem defini performana testului ales.
Sunt patru aspecte principale care trebuiesc luate n considerare.
1. Modelul de baz i determinarea semnificaiei. n orice context un
test statistic poate fi construit pur i simplu pe baza intuiiei i s respingem
sau s acceptm valorile extreme. Totui avem nevoie de un criteriu de
respingere care s asigure o anumit semnificaie operaiei ceea ce impune
n mod esenial elaborarea unor ipoteze de lucru privind distribuia testului
statistic sau mcar s tim ceva despre distribuia de probabilitate pe coad.
2. Ipoteza alternativ care s ne permit definirea valorilor anormale.
3. Definirea performanei testului i a conceptului asociat de putere.
Alegerea dintre mai multe teste ar trebui s fie bazat pe performana lor
relativ. Evaluarea performanei relative, de exemplu calculul puterii trebuie
sau poate fi fcut cnd avem definit ipoteza alternativ i distribuia
testului statistic n condiiile ipotezei alternative. Probemele sunt foarte
complicate motiv pentru care pn n ultimii ani ele au fost comple ignorate.
4. Care sunt proprietile dorite pentru testul de discordan. Astfel ne
putem pune problema unui test uniform cel mai puternic sau mcar s ne
mulumim cu o optimalitate local sau cu certitudinea unei nedeplasri sau
cu satisfacerea unor proprieti de invarian.
Alternativ putem s construim teste folosind o metod larg acceptat
cum ar fi metoda verosimilii maxime a rapotului.

2.14.1. Construcia testelor de discordan
Testele aplicabile au fost clasificate n apte clase.
1. Statistici bazate pe raportul exces / dispersie.
Acestea sunt rapoarte ale diferenelor ntre valoarea aberant i
vecinul su cel mai apropiat sau imediat dup acesta n ir i intervalul
valorilor sau alte msuri ale dispersiei seleciei.
Ca exemplu avem
1
2
n n
n
x x
x x


Propus de Dixon pentru examinarea unei valori aberante superioare
i care evit valoarea x
1
sau
1 n n
x x


II. Statistica matematica si biostatistica Teste statistice de discordanta

169
unde este deviaia standard n modelul de baz.
Testul presupunea cunoscut i o repartiie normal a probelor.
Putem nlocui cu o estimare a sa dintr-o prob restrns din care s-au
eliminat valorile bnuite ca aberante.

2. Statistici bazate pe raportul dintre lungimea domeniul de valori /
dispersie.
Testele se obin din cele de mai sus prin nlocuirea numrtorului cu
lungimea domeniul valorilor. Ca exemplu avem
1 n
x x
s


unde s poate fi obinut din ntreg setul de valori sau dintr-un set restrns prin
eliminarea valorilor bnuite a fi aberante sau poate fi cunoscut din alte
msurtori.
Dezavantajul acestor teste este acela c el nu face distincie ntre
cazurile cnd avem o valoare aberant superioar, una inferioar sau de
amndou tipurile.
3. Statistici bazate pe raportul deviaie / dispersie.
Aceste teste nltur dezavantajul celor anterioare prin aceia c se
nlocuiete lungimea domeniului de valori cu distaa dintre o valoare
aberant i msur a tendinei centrale a datelor. De exemplu putem
considera raportul
1
x x
s


La fel ca i s , x poate fi calculat din intregul set de date sau dintr-o
parte a acestuia.
4. Statistici bazate pe sume de ptrate.
Aceste statistici se bazeaz pe suma ptratelor restricionate i suma
ptratelor pentru ntregul set de valori.
De exemplu raportul
( )
( )
2
2
, 1
1
2
1
n
n n
i
i
n
i
i
x x
x x

=
=

,
unde
2
1
, 1
2
n
i
i
n n
x
x
n

=
=

poate fi folosit pentru testarea a dou valori aberante


superioare x
n
i x
n-1
dintr-o populaie normal distribuit.
II. Statistica matematica si biostatistica Teste statistice de discordanta

170
5. Statistici pe baza raportului ntre valorile extreme i valorile medii.
Aceste statistici s-au dovedit n particular relevante pentru datele cu
distribuie de tip Gamma.

6. Statistici bazate pe momente de ordin superior.
Statistici care msoar asimetria sau curbura pot fi folosite i pentru
testarea valorilor aberante.
( )
( )
3
3
2
2
i
i
n x x
x x

i
( )
( )
4
2
2
i
i
n x x
x x



7. Statistici W.
Aceste teste se bazeaz pe rapotul dintre ptratul unei combinaii liniare a
tuturor datelor i suma ptratelor abaterilor fa de medie.
( )
( )
2
2

=
x x
x w
W
i
i i

(ponderile w , calculate in functie de parametrii selectiei , se gasesc in
tabele).
O situaie special apare atunci cnd avem un grup de valori
anormale superior sau inferior i cnd testele enumerate mai sus nu pot pune
n eviden aberaii datorit unui efect de mascare. De aceea s-au conceput
teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc).
Alte teste examineaz valorile extreme secvenial. n fapt acestea
examineaz n principal valoarea aberant maxim pe baza unui test deviaie
/ dispersie i dac x
n
se devedete valoare aberant el se repet operaia
pentru x
n-1
pe proba redus. Procedura se continu pn cnd se gsete o
valoare neaberant.
Aplicarea unui test sau altul ne poate duce la concluzii in general
diferite, in final decizia privind declararea unei valori ca discordante tinand
de analiza fenomenului.
Exemplu: 1, 5, 11, 4, 2, 6, 3
O prima masura de precautie pe care trebuie sa o luam este aceea de
a verifica faptul ca distributia datelor nu se modifica radical prin
schimbarea unitatilor de masura, deci la schimbari liniare sau la schimbarea
de la o distributie normala la una exponentiala.

II. Statistica matematica si biostatistica Teste statistice de discordanta

171
Prima operatiune, indiferent de testul aplicat, este aceea de asezare a
datelor in ordine crescatoare.
1, 2, 3 , 4, 5, 6 , 11
Rezultatul este bine sa fie vizualizat printr-o asezare a punctelor pe o
dreapta.

Fig. nr. 6
Motivul pentru care o prima sau ultima valoare pot fi considerate ca
discordante este acela ca aceste valori apar a fi foarte separate de de restul
datelor , in raport cu imprastierea datelor din selectie.
Aceasta ne duce in mod natural la ideia unei statistici bazata pe
raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar
D este o masura a dispersiei datelor .
Pe post de A putem lua de exemplu diferenta intre valoarea extrema
si urmatoarea valoare, cea mai apropiata de ea
6 7
x x , sau distanta intre
aceasta si restul datelor considerate ca un grup M x
7
, unde M este media
celorlalte 6 valori.
Pentru D putem considera fie lungimea intervalului de valori
, sau distanta intre urmatoarele doua valori
1 6
x x
5 6
x x care este cu mult
mai mic decat
6 7
x x , sau dispersia primelor 6 valori
Consideraiile de mai sus sugereaz urmtoarele statistici pentru
testarea valorilor extreme:
( )
7 6
6 1
5
6, 7 ; 1, 6 1
5
x x
y
x x

= = =

;
( )
7 6
6 5
5
6, 7 ; 5, 6 5
1
x x
y
x x

= = =


7
11 3, 5
2,14
3, 5
x x
T
s

= = =


Statisticile sunt de forma ( )
, ; ,
s r
q p
x x
y r s p q
x x


Am putea lua de exemplu, la numitor n prima statistic ntregul
domeniu de variaie al valorilor
( )
7 6
7 1
5
6, 7 ; 1, 6 0, 5
10
x x
y
x x

= = =


II. Statistica matematica si biostatistica Teste statistice de discordanta

172
iar n loc de
5
x x
T
s

=

sa folosim
5
x x
T
s

= , dar statisticile rmn n


esen aceleai.
Consideram spre exemplu valorile concentratiilor maxime ale
MELUOL , un metabolit activ al nicergolinei la 24 de voluntari sanatosi.
Pentru a lua o decizie cat mai corecta, vom examina atat valorile
individuale, cat si raportul valorilor pentru un acelasi voluntar.
Mai mult decat atat, pentru a avea si o imagine a acestor valori si a
raportului dintre ele, considera reprezentarile valorilor pentru medicamentul
de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a
dependentei T ( R ) ( care, daca valorile s-ar corela perfect, ar trebui sa
fie o dreapta).

Tabelul nr. 21:
Subject
CMAX,T
(ng/ml)
CMAX,R
(ng/ml) T/R T/R
CMAX,T
(ng/ml)
CMAX,R
(ng/ml)
1 65.70 48.98 134 46 2 2
2 7.85 6.73 117 47 3 3
3 10.11 21.76 46 56 3 3
4 3.94 2.65 149 62 4 4
5 29.54 22.60 131 71 4 4
6 10.58 14.84 71 78 4 5
7 6.84 5.95 115 88 5 6
8 14.79 16.54 89 89 7 7
9 17.29 6.57 263 90 7 7
10 11.61 8.75 133 92 8 7
11 27.48 14.82 185 102 10 9
13 5.24 3.72 141 106 11 14
14 32.11 36.33 88 111 12 15
15 12.49 20.29 62 115 12 15
16 4.23 4.60 92 117 13 15
17 7.01 14.96 47 131 15 15
18 1.96 1.76 111 133 16 15
19 3.09 3.03 102 134 17 17
20 15.91 15.01 106 141 22 20
21 21.54 14.94 144 144 27 22
22 3.34 4.30 78 149 30 23
23 3.75 6.72 56 185 32 36
24 12.67 14.08 90 263 66 49
N 23 23 media 111 14 13
Mean 14.31 13.475 StDev 48.6 14.2 11.4
II. Statistica matematica si biostatistica Teste statistice de discordanta

173

Fig. nr. 7
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
0 5 10 15 20 25 30
CMAX,T (ng/ml)
CMAX,R (ng/ml)

T(R)
R
2
=0.7497
0.00
10.00
20.00
30.00
40.00
50.00
60.00
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00


Fig. nr. 8



T
0
10
20
30
40
50
60
70
1 3 5 7 9 11 13 15 17 19 21 23
R
0
10
20
30
40
50
60
1 3 5 7 9 11 13 15 17 19 21 23
T / R
0
50
100
150
200
250
300
1 3 5 7 9 11 13 15 17 19 21 23

Observam dupa ordonare, ca valorile concentratiilor maxime pentru
voluntarul 1 sunt cele mai mari si, cel putin pentru T, mult mai mari
(aparent discordante) decat pentru ceilalti voluntari.

Voluntarul 9 apare normal in contextul valorilor individuale pentru
T si R dar raportul lor este cel mai mare, si probabil destul de indepartat de
celelalte rapoarte.

II. Statistica matematica si biostatistica Teste statistice de discordanta

174
In tabelul de mai jos sunt redate rezultatele aplicarii testelor Dixon si
Tn pentru R, T si T/R . Din punct de vedere al testului Dixon, toate
valorile sunt discordante.

Aplicand testul Tn , voluntarul 9 este de eliminat dat fiind raportul
T/R discordant.

Tabelul nr. 22:

voluntar 9 T/R Dixon (Xk-Xk-2)/(Xk-X3)= 0.55 >0.41
voluntar 1 T/R = 134 valoare normala
voluntar 1 R Dixon (Xk-Xk-2)/(Xk-X3)= 0.57 >0.41
voluntar 1 T Dixon (Xk-Xk-2)/(Xk-X3)= 0.58 >0.41

voluntar 9 T/R Tn = ( Xk-Xmediu)/S= 3.14 >2.82
voluntar 1 T/R Tn = ( Xk-Xmediu)/S= 0.48 <2.82
voluntar 1 R Tn = ( Xk-Xmediu)/S= 3.12 >2.82
voluntar 1 T Tn = ( Xk-Xmediu)/S= 3.62 >2.82

Acelasi test arata insa ca voluntarul 1 este anormal din punct de
vedere al celor doua valori, dar nu si din punct de vedere al raportului T/R.

Dat fiind ca decizia privind bioechivalenta este influentata doar de
intravariabilitate si nu depinde de intravariabilitate, voluntarul 1 nu este de
eliminat.

In final, decizia privind clasificarea unei valori drept discordante,
depinde de analiza fenomenologica si mai putin de rezultatul testelor
statistice.











II. Statistica matematica si biostatistica Teste statistice de discordanta

175
2.14.2. Criteriul Dixon pentru respingerea outliers
Tabelul nr. 23
Nivel de semnificatie k
5% 1%
3
( )
( )
1
1 2
10
X X
X X
r
k

=
daca cea mai mica valoare este suspecta
0.941 0.988
4 0.765 0.889
5
( )
( )
1
1
10
X X
X X
r
k
k k

=


daca cea mai mare valoare este suspecta
0.642 0.780
6 0.560 0.698
7 0.507 0.637
8
( )
( )
1 1
1 2
11
X X
X X
r
k


daca cea mai mica valoare este suspecta
0.554 0.683
9 0.512 0.635
10
( )
( )
2
1
11
X X
X X
r
k
k k

=


daca cea mai mare valoare este suspecta
0.477 0.597
11
( )
( )
1 1
1 3
21
X X
X X
r
k
k


daca cea mai mica valoare este suspecta
0.576 0.679
12 0.546 0.642
13
( )
( )
2
2
21
X X
X X
r
k
k k

=


daca cea mai mare valoare este suspecta
0.521 0.615
14
( )
( )
1 2
1 3
22
X X
X X
r
k


daca cea mai mica valoare este suspecta
0.546 0.641
15 0.525 0.616
16
( )
( )
3
2
22
X X
X X
r
k
k k

=


daca cea mai mare valoare este suspecta
0.507 0.595
17 0.490 0.577
18 0.475 0.561
19 0.462 0.547
20 0.450 0.535
21 0.440 0.524
22 0.430 0.514
23 0.421 0.505
24 0.413 0.497
25 0.406 0.489
II. Statistica matematica si biostatistica Teste statistice de discordanta

176
Valorile critice pentru t ca test bilateral la nivelul de semnificatie 5
% pentru eliminarea valorilor discordante:

Tabelul nr. 24:
Valoare T Valoare T
3 1.155 15 2.549
4 1.481 16 2.585
5 1.715 17 2.620
6 1.887 18 2.651
7 2.020 19 2.681
8 2.126 20 2.709
9 2.215 25 2.822
10 2.290 30 2.908
11 2.355 35 2.979
12 2.412 40 3.036
13 2.462 50 3.128
14 2.507 100 3.383



2.14.3. Valori discordante fata de corelatia liniara

Un tip special de valoare discordanta este cazul cand un punct
experimental pare a nu se potrivi cu modelul corespunzator celorlalte date.
Acest lucru este prezentat in figura 9 in contextul simplu al regresiei liniare.
Punctele P din interiorul cercului punctat corespund unui model de
regresie liniara. De remarcat totusi faptul ca elipsa ce am desenat-o noi in
jurul dreptei de regresie este arbitrara , dar sa presupunem ca avem
considerente fenomenologice care sa ne permita definirea unui domeniu in
interiorul caruia punctele sa poata fi acceptate ca urmand modelul liniar.
Daca presupunem ca variabila x nu este o variabila aleatoare, si
pentru un x dat se determina experimental mai multe valori y, si daca
acestea sunt distribuite normal, se poate calcula un interval de incredere in
afara caruia sa putem eticheta valorile drept discordante
II. Statistica matematica si biostatistica Teste statistice de discordanta

177


Fig. 9 Estimarea dreptei care descrie relatia intre variabilele y si x

Putem, la fel de bine considera dreapta de regresie drept valoarea
adevarata si sa consideram un domeniu centrat pe aceasta. Aceasta este
echivalent cu inlocuirea dispersiei in fiecare punct x cu o singura dispersie,
a intregii multimi de puncte (fig.10) .
Dupa cum s-a prezentat la capitolul privind regresia liniara, dreapta
adevarata y = + x (in cazul cand datele urmeaza efectiv un model
liniar) este aproximata de dreapta care aproximeaza cel mai bine punctele
experimentale y = a + b x , in sensul ca suma patratelor distantelor de la
puncte la dreapta este minima (dreapta prin cele mai mici patrate).

Fig.10 Distributia normala a punctelor in jurul valorilor de pe dreapta de regresie

Sa consideram in continuare cateva tipuri de puncte in afara
multimii de valori normale.
Fie de exemplu punctul A in fig. 11. El va fi o valoare discordanta
fata de multimea P sau in multimea P+A relativ la modelul regresiei liniare.
El este la o distanta mare de dreapta care fiteaza punctele, sau altfel spus,
includerea sa in multimea de date mareste semnificativ variatia reziduala.
II. Statistica matematica si biostatistica Teste statistice de discordanta

178
Important este, in afara de considerarea efectului punctului asupra
erorii reziduale, sa evaluam si efectul asupra parametrilor dreptei de
regresie. Parametrii acesteia sunt dependenti de punctele pe care le fiteaza.
Daca in loc de A consideram punctul experimental B obtinand
multimea de date P+B, B nu apare a fi o valoare discordanta (un punct
experimental discordant) relativ la estimarea regresiei liniare a modelului.
Dar punctul B are un efect considerabil asupra fitarii modelului,
intrucat includerea sa in multimea punctelor care determina dreapta prin
cele mai mici patrate creste substantial precizia cu care este estimata panta
dreptei de regresie.
Si aceasta deoarece x-ul sau este la o distanta considerabila fata de
x-ul celorlalte puncte din P. In fapt el este o valoare discordanta in ce
priveste coordonata x fata de complexul P+B. Spunem ca B este un punct cu
parghie mare. A se obseva ca punctul parghie este o componenta a
variabilei independente si nu a raspunsului. Astfel, daca in loc de B luam
punctul experimental discordant C (cu aceeeasi coordonata x ca a lui B),
obtinem multimea P+C si C are aceeasi parghie mare ca si B.
Totusi, in comparatie cu B, includerea lui C schimba substantial
estimarea liniei de regresie. Spunem ca C este un punct influential in
multimea P+C. Deasemenea C este o valoare discordanta (relativ la modelul
regresiei liniare ca in toate cazurile discutate). In multimea P+A valoarea
discordanta A are o parghie mai mica dar este influentiala pentru ordonata la
origine si mai putin pentru panta.
Pentru simplitate am introdus notiunile de valori discordante, puncte
parghie si date influentiale in termeni de puncte individuale. Dar, in
particular, aceste notiuni se aplica la fel de bine si grupurilor sau
submultimilor de puncte.

Fig. 11 Valori discordante fata de dreapta de regresie

II. Statistica matematica si biostatistica Teste statistice de discordanta

179
2.14.3.1.Drepte si puncte discordante
Problema discordantei se complica atunci cand in fapt datele nu se
inscriu pe o singura dreapta ci pe doua sau mai multe drepte in functie de
valorile lui x.
Exemplul cel mai sugestiv si cel mai important pentru
farmacocinetica in acest sens este acela al medicamentelor cu doua etape de
injumatatire, una initiala rapida (de exemplu distributia in compartimentul
profund) si una finala ( de exemplu eliminarea) , lenta , notate uzual cu
si .
Deci datele urmeaza un model biexponential si, dupa logaritmare, se
obtin doua domenii de dependenta liniara a logaritmului concentratiei de
timp , dupa cum se observa in fig.10 pentru concentratia plasmatica a
nicergolinei.
Concentration of nycergoline after oral administration
1
10
100
0 5 10 15 20 25 30
time ( hours)
c
o
n
c
.

(

n
g
/
m
l
)
Fig. 12
Datele de la 4 h la 8 h se inscriu pe o dreapta , iar datele de la 8 h la
24 h pe o alta dreapta. Deci avem un timp de injumatatire de distributie si un
timp de injumatatire de eliminare. O analiza pur si simplu statistica ar duce
la concluzia ca ultimele doua puncte reprezinta valori discordante.
Compararea datelor privind farmacocinetica nicergolinei la mai multi
voluntari duce la concluzia ca nu este vorba de o supraestimare a
concentratiilor la ultimele doua puncte ci efectiv avem doua faze de
eliminare din sange.
Din alt unghi privind lucrurile, intr-un grup de subiecti caracterizati
printr-o eliminare monoexponentiala si deci, in reprezentarea logaritmica cu
inscrierea punctelor dincolo de t
max
pe o dreapta, pot aparea unul sau mai
multi voluntari cu eliminare biexponentiala. In fapt este posibil ca toti
II. Statistica matematica si biostatistica Teste statistice de discordanta

180
subiectii sa aiba o eliminare bifazica, dar modelul aparent in functie de
intervalul de recoltare si evaluare a probelor de sange sa fie cand cel real,
cand unul simplificat.
Ca exemplu, prezentam cazul ibuprofenului. Ibuprofenul fiind cu
mult mai solubil in lipide urmeaza un model farmacocinetic cu cel putin
doua compartimente. Datele experimentale pot fi insa modelate la
majoritatea subiectilor cu un model monocompartimental. In fapt, apare o
degenerare a modelului prin compensarea unor procese ce afecteaza
concentratia plasmatica.
Suntem interesati in vederea predictiei, de modele cat mai simple.
Cand unul din subiecti apare efectiv cu o comportare mai complexa, poate fi
de preferat eliminarea lui ca outlier, desi in fond, el este mai aproape de
realitate decat ceilalti subiecti.
Si aici lucrurile sunt relative. Daca vom considera curba medie
pentru un lot de voluntari carora li s-a administrat oral omeprazol, vom
putea obtine o fitare corespunzatoare cu solutia unui model
monocompartimental. Unul dintre subiecti poate aparea discordant fata de
medie.
Introducerea unui time-lag ce corespunde unei intarzieri in
absorbtie (omeprazolul se administreaza, din cauza ca este instabil in mediu
acid, de regula sub forma de capsule enterosolubile) acesta revine si el in
rand cu ceilalti.

2.14.3.2. Voluntari discordanti in studii de bioechivalenta
Cazul cel mai reprezentativ este acela al medicamentelor al caror
metabolizare poate fi lenta la o mica parte din subiecti. Analiza curbelor din
figura 4 duce la ideea ca doi dintre voluntari sunt metabolizori lenti,
deoarece au concentratii mult mai mari decat restul voluntarilor
Plasma levels of propafenone after repeted administration of RYTMONORM (KNOLL) TO 24 healthy volunteers
0
300
600
900
96 144
time (hour)
c
o
n
c
e
n
t
r
a
t
i
o
n

(
n
g
/
m
l
)
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
XXI
XXII
XXIII
XXIV

Figura 13.
II. Statistica matematica si biostatistica Teste statistice de discordanta

181
Din punct de vedere statistic ei vor parea ca discordanti
indiferent de testul aplicat. Din punct de vedere al scopului urmarit, dupa
cum se vede din figura 14, ei nu ar trebui eliminati deoarece nu influenteaza
rezultatul final medicamentele apar a fi bioechivalente (fig.14)












Mean plasma levels of propafenone after repeted administration of
PROPAFENON (..) and RYTMONORM (KNOLL) to 24 healthy volunteers
0
100
200
300
96 144
time (hour)
c
o
n
c
e
n
t
r
a
t
i
o
n

(
n
g
/
m
l
)
T
R
Figura 14
De fapt, dupa cum este prezentat in capitolul privind evaluarea
statistica a bioechivalentei, ceea ce importa cu mult mai mult, este
intravariabilitatea, variabilitatea unui subiect fata de sine insusi, in cele doua
perioade ale experimentului.
Dupa cum se vede in figura 15, cei doi ouliers in ceea ce priveste
intravariabilitatea au si o variatie semnificativa intre cele doua perioade,
deci eliminarea lor poate fi luata in consideratie.
In acest caz insa, curbele din figura 14 vor deveni si mai apropiate si
nu se va schimba decizia privind bioechivalenta.
0
500
1000
c
o
n
c
e
n
t
r
a
t
i
o
n

(
n
g
/
m
l
)

Figura 15
II. Statistica matematica si biostatistica Teste statistice de discordanta

182
Uneori, unele curbe pot parea discordante prin aceea ca prezinta
doua sau mai multe maxime, ceea ce este neuzual in farmacocinetica. Daca
este vorba insa de oxicami (piroxicam, meloxicam, tenoxicam etc.), acest
fenomen este normal datorita circulatiei enterohepatice a acestor
medicamente. Deci curbele de meloxicam din figura 16 nu pot fi considerate
curbe discordante.

Mean plasma levels of meloxicam
0
0.8
1.6
0 1
time (h)
C
o
n
c
e
n
t
r
a
t
i
o
n

(
u
g
/
m
l
)
2
R
T

Figura 16.

In evaluarea bioechivalentei esentiala este compararea perechilor de
curbe apartinand aceluiasi voluntar.

Dupa cum se vede din figura 17, cele doua curbe difera foarte mult.
Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor, dar
difera foarte mult la acelasi individ in perioade diferite, ceea ce reprezinta o
intravariabilitate mare, caracteristica clasei conazolilor (ketoconazol,
fluconazol, itraconazol etc.).

Voluntarul prezentat are un raport mult prea mare atat intre
concentratiile maxime, cat si intre ariile de sub curba si el este efectiv
outlier.
II. Statistica matematica si biostatistica Teste statistice de discordanta

183
Figura 17.
Aparent acelasi caz ar fi si in figura 18. Spunem ca aparent, deoarece
in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt
foarte frecvente si este vorba efectiv de bio-inechivalenta.
Mean plasma levels of mefenamic acid
0
3.5
7
0 4 8 12 16 20
Time (hours)
24
R
T

Figura nr. 18
In concluzie, problema eliminarii unor puncte, sau a unor curbe, sau
a multimii curbelor pentru un subiect dat, nu este in principal o problema
de statistica ci una tinand de analiza fenomenului studiat, de variabilele ce-l
determina si de modelul teoretic urmat.

II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

185
2.15. Puterea testului. Calculul numarului de voluntari
2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru
obtinerea unei estimari a mediei cu o precizie fixata
Pentru un interval de incredere (1- ), pentru media une populatii
precizia estimarii este in fapt definita de lungimea intervalului. Cu cat
intervalul este mai mic, cu atat mai precisa va fi estimarea. De aceea,
marimea esantionului se poate alege pornind de la lungimea intervalului de
incredere care sa asigure o precizie stabilita anterior E, sau altfel spus, o
limita a erorii.
Astfel cand datele urmeaza o distributie normala, marimea
esantionului necesar va fi data implicit de relatia:
2
E Y z
n


= = (1)
De exemplu, presupunem ca dorim sa avem 95% incredere si ca
eroarea in media estimata sa fie mai mica de 10% din deviatia standard (i.e.,
E 0.1 ).
Deci,

* 1 . 0
2
=
n
z si ca urmare
( )
385 2 . 384
* 1 . 0
2
2 2
2
= =

z
n
Procedeul se extinde imediat la cazul estimarii intervalelor de
incredere pentru diferenta intre mediile a doua selectii dupa cum se arata in
tabelul urmator.
Tabelul 25 Determinarea marimii esantionului in functie de precizie:
Parametru Estimarea Intervalul de incredere Marimea esantionului

Y
n
z Y


2
2
2
2
E
z n

=
2 1

2 1

Y Y
n n
z Y Y
2
2
2
1
2
2 1 ) (

+


2
2
2
2
1 2
2
) (
E
z n

+
=
p
p
n
q p
z p


2
2
2

*
E
q p
z n

=
2 1
p p
2 1
p p
( ) ( )
n
p p
n
p p
z
p p
2 2 1 1
2
2 1
1 1


( )
2
2 2 1 1 2
2

*
E
q p q p
z n
+
=


II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

186
E poate fi luat o valoare absoluta, o fractie din sau o fractie din
valoarea mediei estimate. In lipsa unei estimari experimentale a lui p se
poate lua un numar maxim prin aceea ca se ia ( ) p p 1 maxim, deci
2
1
= p .
De retinut ca alegerea lui n astfel incat eroarea sa nu depaseasca un
anumit prag urmareste atingerea unei precizii date in estimarea lui cu
considerarea numai a erorii de tip I.
O abordare independenta de distributie poate fi obtinuta folosind
inegalitatea lui Cebasev:
1- = P{ }
2
2
1
nE
E Y

(2)
Inlocuind inegalitatea cu egalitatea si luand, la fel ca mai sus E = 0.1 si
=0,05 obtinem :
2
2
nE

= si 2000
01 , 0 05 , 0
2
2
2
2
=

= =

E
n
Observam ca cifra asiguratoare este mult mai mare din aceea ca nu avem
nici o informatie despre distributie.

2.15.2. Testarea ipotezelor. Calculul numarului de subiecti in functie de
probabilitatile erorilor de tipul I si tipul II fixate in prealabil
Pentru a calcula numarul de subiecti in functie si de puterea testului
trebuie specificata diferenta semnificativa clinic in cazul parametrului
masurat. In cele mai multe studii clinice obiectivul este demonstrarea
eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt
medicament. Indiferent de comparator, este important sa se specifice ce
diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta
diferenta o vom nota cu . Aceasta diferenta defineste grosismentul
microscopului definit de studiul clinic cu care comparam cele doua
medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci
va fi nevoie de un numar mic de subiecti.
Daca diferenta este relative mica, va fi nevoie de un grup de subiecti
mai mare. Daca , puterea tinde la 1, iar cand
avem 0 0 1 .
Practic se determina numarul de subiecti necesari asigurarii unei
anumite puteri pentru un risc dat sau, altfel spus selectarea unei
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

187
probabilitati pentru eroarea de tip II acceptabila in conditiile unui risc de
eroare de tip I fixat.
Raportul dintre si este ca cel din selectia de incertitudine a lui
Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea
erorii de tip II.

2.15.3. Testarea ipotezelor privind media unui lot
Presupunem ca testam urmatoarele ipoteze:
H
0
:
0
=
vs.
0
: >
a
H
cu riscul cand dispersia este cunoscuta. Simplificam ipoteza
alternativa alternativa, luand
2

+ =
0
:
a
H
unde >0 este o diferenta minima pe care o consideram semnificativa
clinic si vrem sa o punem in evidenta.

Daca diferenta este mai mare decat , va fi mai mic. Deci noi
luam in acest fel un asigurator (conservativ) asumandu-ne un risc cat
mai mic.
n
n
Deoarece, in ipoteza alternativa ca + =
0
, testul statistic

n
Y
/
) (
0


urmeaza o distributie standard normala. Puterea testului este data de relatia
{ }
0
0
1 0
1 var
( )
/ /
a
P H respinsa H ade ata
Y
P z
n n

= =


+
= > = +



.
1
n n
P z z P z z






= > = <




,
de unde , din definitia cuantilelelor

1
n n
z z z


= =

II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

188
si de aici

[ ]
2
2
2

+
=

z z
n
Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este
0
: <
a
H .
Pentru a testa ipoteza bilaterala
0
H :
0
=
vs. =
0
:
a
H sau + =
0
:
a
H
0
H este respinsa in zona critica, adica pentru
0
1
2
x
z
n

sau
0
1
2
x
z
n

.
Deci
0 0
1
1
2 2
1
x x
P z sau z
n n







= = =




0 0
1
2 2
* * P x z sau x z
n n





1
+ +


= =
0 1 0 1 1 1
1
2 2
x x
P z sau
n n n n






= + +



z
Deoarece media adevarata este
1
,
n
x

este repartizat . Prin


urmare
( 1 , 0 N )

=

2
1
1 0
2
1 0
1 1


z
n
z
n

II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

189
Pentru 5 . 0
1 0


se poate considera ca
0
2
1 0


z
n
, si deci

=

2
1
1 0


z
n

Conform definitiei avem ( )

= z ,
2 2
1

z z =

si ca urmare
2
1 0


z
n
z

= si


z z
n
+

=
2
1 0
.
Scotand pe n din ecuatie obtinem:
( )
2
1 0
2
2
2

+
=
z z
n
Daca impartim cu
2
1
obtinem:
( )
2
2
*100
1
CV

si
2
0 1
1
*100 %


=



si formula devine:
( )
( )
2
2
2
2
%
%
CV z z
n


+


=


Cazul distributiei binomiale
Fie Y variabila aleatoare Bernoulli cu probabilitatea de succes p si
probabiliatae de esec 1-p. Obiectivul studiului este de a alege intre
H
0
: p = p
0
si H
a
: p = p
1
(p
1
>p
0
)
din evaluarea unui esantion de marime n.
Proportia de selectie
1
1
n
i
i
P Y
n
=
=


urmeaza aproximativ o distributie normala cu media p si dispersia p(1-p)/n .
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

190
Pentru testarea ipotezelor enuntate ne folosim de aproximarea
normala

0
0 0
( )
( )
P p P E P
Z
D P p q
n

=

=
=

= + =

=
1 1
0
1 1
1 0
1 1
1
1
0
0 1
0
0
q p
q p
z
n
q p
p p
n
q p
p p
p p
n
q p
z p p p p z
n
q p
p p
o
o
o


1 1
0 0
1 1
q p
q p
z
n
q p
z

=
n
q p
q p
q p
z z
1 1
1 1
0 0

= +


In concluzie rezulta pentru n :
n
q p z q p z
=

+
2
0 0 1 1


2.15.4. Testul pentru compararea mediilor a doua populatii
O procedura asemanatoare ca mai sus poate fi aplicata pentru
determinarea marimii esantionului necesar pentru obtinerea unei puteri date
in compararea a doua metode de tratament. Fie
2 1
si mediile
tratamentului 1 si, respectiv, tratamentului 2. Cele doua ipoteze sunt:
:
0
H
2 1
= vs.
2 1
:
a
H
Presupunand ca
2
1
si sunt cunoscute si considerand o ipoteza
alternativa specifica, simplificata
2
2

=
2 1
:
a
H formula care da puterea
testului este prin definitie
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

191
{ }
0
1 1
2 2
1 2
1
2 2
1 var
a
d d
P H respinsa H ade ata
Y Y Y Y
P z sau z

= =



= > = +




unde
2
2
2
1
2
1
n n
d

+ =
Dar, in ipoteza alternativa, statistica
d
Y Y



) ( 2 1
este o variabila
normala standard, z
Facand aceleeasi operatii ca mai sus, de punere in evidenta a
variabilei normal repartizate, si neglijand
1
2
1 2
2 d
Y Y
P z

= +



se obtine:
2
1
1 2
2
( )
1
d d
Y Y
P z






= > = +



.
De aceea
2 d
z

=


,
de unde,

d
z z



=
2
.
Daca presupunem ca
2 1
n n n = = si atunci
2 2
2
2
1
= =
2
2 2
2 2
2
2
d
z z
n




+ = =


si deci

II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

192
2
2
2
2
2
2
2
2
2
2
1
2 ) (

+
=

+ +
=

z z z z
n
Pentru un test unilateral, formula de mai sus pentru determinarea
marimii esantionului devine:
[ ]
2
2
2
2
2
1
) (

+ +
=

z z
n
De retinut ca atunci cand dispersia populatiei este necunoscuta,
alegerea marimii lotului nu este o problema usoara.
De exemplu, in testarea ipotezei nule in expresia
H
0
:
0
=
vs.
0
: >
a
H
cand valoarea adevarata este + =
0
, statistica
n s
Y
/
) (
0
+

urmeaza o
distributie t necentrata cu parametrul de ne-centrare / = .

Tabelul de mai jos contine marimea calculata a loturilor pentru
testul t privind meda si respectiv, diferenta dintre mediile tratamentelor
respective, pentru diferite valori ale lui - diferenta semnificativa




















II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

193

Tabelul nr. 26:
Test unilateral Test bilateral
05 . 0 =
Riscul
1 . 0 =
=
0.01 0.05 0.1 0.2 0.5
=
0.01 0.05 0.1 0.2 0.5


2 1

=
0.15 122 0.20 137
0.20 70 0.25 88
0.25 139 101 45 0.30 61
0.30 122 97 71 32 0.35 102 45
0.35 90 72 52 24 0.40 108 78 35
0.40 101 70 55 40 19 0.45 108 86 62 28
0.45 80 55 44 33 15 0.50 88 70 51 23
0.50 65 45 36 27 13 0.55 112 73 58 42 19
0.55 54 38 30 22 11 0.60 89 61 49 36 16
0.60 46 32 26 19 9 0.65 76 52 42 30 14
0.65 39 28 22 17 8 0.70 66 45 36 26 12
0.70 34 24 19 15 8 0.75 57 40 32 23 11
0.75 30 21 17 13 7 0.80 50 35 28 21 10
0.80 27 19 15 12 6 0.85 45 31 25 18 9
0.85 24 17 14 11 6 0.90 40 28 22 16 8
0.90 21 15 13 10 5 0.95 36 25 20 15 7
0.95 19 14 11 9 5 1.00 33 23 18 14 7
1.00 18 13 11 8 5 1.1 27 19 15 12 6
1.1 15 11 9 7 1.2 23 16 13 10 5
1.2 13 10 8 6 1.3 20 14 11 9 5
1.3 11 8 7 6 1.4 17 12 10 8 4
1.4 10 8 7 5 1.5 15 11 9 7 4
1.5 9 7 6 1.6 14 10 8 6 4
1.6 8 6 6 1.7 12 9 7 6 3
1.7 8 6 5 1.8 11 8 7 5
1.8 7 6 1.9 10 7 6 5
1.9 7 5 2.0 9 7 6 4
2.0 6 2.1 8 6 5 4
2.1 6 2.2 8 6 5 4
2.2 6 2.3 7 5 5 4
2.3 5 2.4 7 5 4 4
2.4 2.5 6 5 4 3
2.5 3.0 5 4 3
3.0 3.5 4 3
3.5 4.0 4
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

194
2.15.5. Compararea a doua proportii

Cand variabilele rezultate sunt cu doua valori posibile (tratamentele
fie imbunatatesc, fie nu imbunatatesc starea pacientului) variabilele care ne
intereseaza mai mult sunt proportiile pacientilor a caror stare s-a ameliorat
si nu media unor masuratori date. Fie p
1
si p
2
proportia de succes (e.g.
vindecare sau imbunatatire) in grupul in care s-a facut tratamentul si,
respective in grupul de control. Marimea esantionului se poate determina
similar cu cazul testului t bilateral obtinandu-se pentru n :

2
2
2 1
2 2 1 1
2
) (
) 1 ( ) 1 ( ) 1 ( 2
p p
p p p p z p p z
n

+ +
=


unde
2
2 1
p p
p
+
= .


2.15.6. Marimea esantionului pentru comparari de mai multe medii prin
analiza dispersionala (ANOVA)
Pentru analiza dispersionala pe o singura cale cu n observatii pe
fiecare tratament, obiectivul principal este de a testa ipoteza privind
provenienta esantioanelor din aceiasi populatie. Folosind notatiile de la
capitolul privind analiza dispersionala avem:
0
H
0 :
2 1 0
= = = =
k
H , si cu ipoteza alternativa
zero este nu un putin cel H
i a
:

Reamintim ca:

+ =

=
k
i
i
k
n
k
SSA
E MSA E
1
2 2
1 1
) ( si
2
) 1 (
) ( =

=
n k
SSE
E MSE E

Astfel, pentru o deviatie data de la ipoteza nula , masurata prin
, valori mari ale lui micsoreaza sansele de obtinere a
valorii F
A
= MSA/MSE in zona critica a testului.
0
H

=

k
i
i
k n
1
2
) 1 /(
2

Sensibilitatea testului descrie puterea procedurii de a detecta


diferentele intre mediile grupurilor si reprezinta, in fapt, puterea testului.
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

195
Aceasta putere se interpreteaza ca probabilitatea ca F sa cada in zona critica
atunci cand ipoteza nula este falsa si mediile tratamentelor difera intre ele.
Conform ipotezei nule F
A
=MSA/MSE urmeaza o distributie F cu
(n
1
,n
2
)

grade de libertate, unde k N n k v si k v = = = ) 1 ( 1
2 1
.
Deci, pentru analiza dispersiei one-way, puterea este data de:
{ }

> =
= > =

=
0
1
) , , (
var ) , , ( 1
1
2
2 1
2 1
k
i
i A
a A
k
n
v v f F P
ata ade este H v v f F P


(3)
Pentru valori date pentru si puterea poate fi
crescuta folosind esantioane mai mari. Problema revine la proiectarea unui
experiment cu o valoare a lui n astfel incat sa avem asigurata o putere data.

=

k
i
i
k n
1
2
) 1 /(
2

In ipoteza alternativa ca urmeaza o distributie


noncentrata cu un parametru de noncentralitate
A
k
i
i
F , 0
1
2

=

unde
2
1
2
2
2


=
=
k
i
i
n
.
Asfel relatia (3) devine
{ } ) , , , ( 0
1
) , , ( 1
2 1
1
2
2 1
v v f F P
k
n
v v f F P
A
k
i
i A
> =

> =

=

relatie care defineste implicit numarul necesar de subiecti.


2.15.7. Modelul crossover
Ipoteze punctuale privind egalitati.
FieY
ijk
raspunsul voluntarului i in secventa k in perioada j.
Consideram un model care neglijeaza efectele carryover inegale:

ijk k j j ik ijk
e T P S Y + + + + =
) , (
,
(4)
unde i = 1,2, , este numarul de voluntary, j este perioada, k = 1, 2 este
secventa.
k
n
In modelul de mai sus este media totala, este efectul aleatoriu
al voluntarului i in secventa k, este efectul de perioada j, este
efectul direct al tratamentului administrat in perioada j, secventa k, adica
ik
S
j
P
) , ( k j
T
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

196
Placebo pentru k = j
) , ( k j
T =
Medicamentul testat pentru k j, k = 1, 2; j = 1, 2
si eroarea in masuratori.
ijk
e
Pentru modelul (4) se presupune ca{ }
ik
S sunt distribuite
independent si identic cu media zero si dispersia si
2
S
{ }
ijk
e sunt distribuite
independent cu media zero si dispersia . Se presupune ca
2
{ }
ik
S si { }
ijk
e
sunt independente intre ele. Sa testam urmatoarele ipoteze:

0
:
T P
H =
vs :
a T
H
P
(5)
Consideram diferentele intre perioade pentru fiecare voluntar in
interiorul fiecarei secvente definite:
), (
2
1
1 2 k i k i ik
Y Y d =
unde i = 1,2, , , k = 1, 2.
k
n
Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum
urmeaza:

1 2
1 1

T
P
d
d
Y Y
T ,
n n

=
+
unde ) (
2
1
12 . 21 .

+ = Y Y Y T , . 11 . 22
1
(
2
P ) Y

= + Y Y si

= =

+
=
2
1 1
2
.
2 1
) (
2
1

k
n
i
k ik d
k
d d
n n
,

=
k
n
i
ijk
k
jk
Y
n
Y
1
1
. ,

=

=
k
n
i
ik
k
k d
n
d
1
.
1

Conform ipotezei nule, T
d
are o distributie t cu 2
2 1
+ n n grade de
libertate.
Daca nu se accepta ipoteza nula, atunci
1 2
(1 / 2, 2).
d
T t n n > +
In ipoteza alternativa simplificata + =
p T
puterea testului T
d

poate fi evaluat similar.
In scop de echilibrare, presupunem ca n n n = =
2 1
; ceea ce inseamna
ca fiecare secventa va avea acelasi numar de voluntari.
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

197
L
Cele doua ipoteze de mai sus sunt de regula inlocuite cu doua
perechi de ipoteze (metoda Schuirmann)
01
:
T P
H
vs.
1
:
a T P
H
L
>
si
02
:
T P
H
U

vs.
U R T a
H :
2
,
unde
L
si
U
sunt limitele pentru echivalenta semnificative clinic.
Dupa cum se observa ipoteza nula este ca medicamentele nu sunt
bioechivalente. Cu aceasta prezumtie de vinovatie este micsorat riscul
pacientului. Daca studiul nu dezvinovateste medicamentul testt, acesta nu
poate fi introdus in terapie.
Putem sa nu acceptam ipoteza nula a inechivalentei daca:
1 2
1 2
( , 2)
(1/ ) (1/ )
T P
L
L
d
Y Y
T t
n n



= >
+
n n + si
1 2
1 2
( , 2)
(1/ ) (1/ )
T P
U
U
d
Y Y
T t
n n



= <
+
n n +
Fie =
T P
si ) (
S
puterea testului bilateral Schuirmann
pentru un dat.
In cazul bioechivalentei observam ca, in contextul in care se doreste
minimalizarea riscului pacientului, avem particularitatea ca functioneaza
intr-un fel prezumtia de vinovatie, in sensul ca

este ipoteza ca
medicamentele nu sunt bioechivalente iar puterea testului este probabilitatea
de a accepta ipoteza bioechivalentei in cazul cand acestea sunt echivalente
0
H
( ) i pacientulu riscul ata ade H H respinge P = = var
0 0

( )
0
var
a
P accepta H H ade ata riscul producatorului = =
( ) ata ade H H respinge P
a
var 1
0
=
In scopul calcularii puterii reformulam putin ipotezele in sensul
ca vom lua
0
H
= =
u L

In acest context problema testului devine o problema de
probabilitate de a detecta o diferenta pe care o consideram ca
semnificativa clinic; in cazul bioechivalentei aceasta diferenta este de 20%.
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

198

Ipoteza complexa Ipoteza simplificata
L R T
H :
01

R T a
H = :
1

u R T
H :
02

R T a
H = :
2

=
R T
H :
01

R T a
H = :
1

=
R T
H :
02

R T a
H = :
2


Analizam in continuare cazul

=
R T
H :
01
vs. 0 :
1
=
R T a
H


( )
0 1 ,2
1 ,2 2
1 var
2

2 2

a n
d
n T R
d d
x
P respinge H H ade ata P t
n
x
P t
n n






+

= = = =




= =



2 T R


1 ,2 2
1 1
2 2

n T
d d
x
P t
n n
R




= =



,2 2 1 ,2 2
2
n n
d
t t
n



=

1 ,2 2 ,2 2 1 ,2 2 1 ,2 2
2

n n n
d
t t t t
n

= = +
n

( )
2
2
1 ,2 2 1 ,2 2
2

2 *
d
n n
n t t



= +


In fapt noi am notat
T R X X X =
si
2 2
d
=
,
dar dupa cum s-a arata anterior,
2
2
2
e
d

=
, deci
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

199
( )
2
2
1 ,2 2 1 ,2 2
2
1
*
2
e
n n
n t t



= +


Impartind termenii raportului cu
2

si tinand cont ca
*100
e
CV

=

se obtine pentru numarul de subiecti in fiecare secventa:
( )
2
2
1 ,2 2 1 ,2 2
'2
1
*
2
n n
CV
n t t

= +

,
unde
'
*100

=

Pentru cazul bioechivalentei si pentru intreg experimental,
'
0, 2 =
( )
2
2
1 ,2 2 1 ,2 2
2
*
20
n n
CV
n t t

= +

Pornind de la grupul 2 de ipoteze se obtine
=
R T
H :
01

0 :
02
=
R T
H

( ) ata ade H H respinge P
a
var 1
0
=

2 2,
2 2,
1 0

2
0

2 2
n T R
n T R
X
P t
n
X
P t
n n





= = =





= +



=


si asa mai departe.






II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

200
Cazul cand exista o diferenta intre medicamente

Consideram in continuare cazul cand diferenta intre cele doua medii
nu mai este zero ci are o valoare data
0
:

0 T R
=

De regula pentru produsele bioechivalente
0
este mai mic decat
7% din
R
.
Consideram din nou o ipoteza simplificata:
=
R T
H :
02
vs
2
:
a T R
H
0
= si notam

R T
X X X =
si vom folosi statistica
0
2 2
( )
1/ 1/ 2/
T R T R
n
d d
X X X
T
n n n


= =
+


Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti
necesari pantru a asigura o putere data :
( ) ( )
0
0
1 , 2 2
2
0 0
0
1 , 2 2
2
1 v
2
2 2
a
T R
n
T R
n
P respinge H H ade ata
X
P t
n
X
P t
n n






= = =

= = =





= + =



ar

0
2 2 0
1 , 2 2
2
2
n T
n
P T t
n

= + =




Deci
0
, 2 2
1 , 2 2
2
2
n
n
t t
n

+ =

de unde
( )
2
2
,2 2 2
,2 2
2

2 *
n
n
n t t


= +




Observam ca puterea depinde de , iar numarul de subiecti necesar
pentru detectarea unei diferente semnificative clinic data este cu atat mai
mare cu cat cele doua medicamente sunt mai apropiate.

II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

201
2.15.8. Calculul comparativ al numarului de subiecti necesari in
testarea bioechivalentei terapeutice a medicamentelor.

2.15.8.1. Calculul in testarea bioechivalentei
Medicamentele bioechivalente nu difera niciodata in ceea ce
priveste concentratiile plasmatice cu mai mult de 20 % , diferenta fiind in
medie mai mica de 7 % . Studiile de bioechivalenta au rostul de a
verifica statistic faptul ca doua medicamente unul de referinta si unul testat
difera in ceea ce priveste concentratiile in sange cu mai putin de 20 %,
diferenta care este considerata nesemnficativa clinic. Aceasta valoare
a dus insa si la multe confuzii si controverse. S-a considerat ca este posibil
ca un medicament sa aiba concentratii 80 % din medicamentul de referinta
iar altul sa aiba concentratii 120 % din medicamentul de referinta. In acest
fel, pacientul care ar schimba intre ele cele doua medicamente de referinta
ar avea la un moment dat o variatie de 40 % in nivelele plasmatice.
Concluzia este falsa deoarece porneste de la o exprimare literar folclorica a
definitiei matematice a bioechivalentei. Definitia exacta cere ca intervalul
de incredere 90 % pentru diferenta intre nivelele plasmatice medii ale
medicamentului testat si a celui de referinta sa sa fie mai mic decat 20 % :
9 , 0 25 , 1 8 , 0


R
AUC
T
AUC
P

i 9 , 0 25 , 1 8 , 0
max
max


R
c
T
c
P


Intrucat lungimea intervalului de incredere este proportionala cu
variabilitatea medicamentului, cu cat aceasta este mai mare, cu atat
diferenta medie intre parametrii farmacocinetici trebuie sa fie mai mica.
Practic se ajunge la aceea ca medicamentele bioechivalente difera in medie
in ceea ce priveste concetratiile plasmatice, cu mai putin de 5-6 % ceea ce
se si verifica efectiv in practica , dupa cum se poate vedea mai jos

Statistica pe 273 aplicaii generice n 1997
1


Pentru 127 studii de bio-echivalen in vivo

AUC 0-t final (t-last) 3,47 2,84%
AUC 0 Infinit 3,252,97%
C max 4,293,72%

1
Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu,
Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995,
1999
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

202

De observat ca media diferenei ntre generic i inovator e mai mic
dect diferena minim de 5% in uniformitatea coninutului permis de USP.

2.15.8.2. Calculul in testarea echivalentei clinice
Obiectiv de demonstrat:
Testarea bioechivalentei pornind de la nivelele concentratiilor
plasmatice necesita zeci de subiecti in timp ce testarea echivalentei
terapeutice necesita zeci de mii de subiecti .
Calculul numarului de subiecti necesari pentru demonstrarea unui
efect de reducere a unui marker biologic pentru o afectiune data, in cazul in
care acesta ia valori numerice continue si avem dovezi ca datele sunt
distribuite normal se face in functie de diferenta semnificativa terapeutic
in valorile markerului, de riscul asumat si de puterea testului 1 .
Presupunem ca testam urmatoarele ipoteze:
0 0
: = H vs.
0
: >
a
H
cu riscul cand dispersia este cunoscuta. Pentru ipoteza alternativa
specifica, spunem
2

+ =
0
:
a
H

unde >0 este o diferenta pe care o consideram semnificativa clinic.
Numarul de subiecti necesari pentru testarea acestei ipoteze este
( )
2
2
2
2
2
1 0
2
2
2

+
=

+
=



z z z z
n

In cazul bioechivalentei se ia un risc de 10 % si o putere de 90 %.
Diferenta semnificativa clinic pe care vrem sa o depistam este de
20 %.
64 , 1 05 , 0
2
2
= =

z ; 3 , 1 1 , 0 = =

z si 2 , 0 =
Pentru un medicament cu variabilitate moderata - 20 % ( dincolo de
30 % spunem ca medicamentul este cu variabilitate mare) , inlocuind in
formula se obtine
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

203
9
2 . 0
) 28 . 1 64 . 1 ( 2 . 0
2
2 2
2
2
2
2

+
=

+
=

z z
n



2.15.8.3. Cazul compararii efectelor clinice
Cnd variabilele rezultate sunt cu dou valori posibile (tratamentele
fie mbuntesc, fie nu mbuntesc starea pacientului) variabilele care ne
intereseaz mai mult sunt proporiile pacienilor a cror stare s-a ameliorat
i nu media unor msurtori date.
Fie i proporia de succes (vindecare sau mbuntire) n
grupul n care s-a fcut tratamentul i, respectiv n grupul de control.
Mrimea eantionului se poate determina similar cu cazul testului t bilateral.
1
p
2
p
Consideram ipotezele:

=
2 1
2 1 0
:
:
p p H
p p H
a


=
0 :
0 :
2 1
2 1 0
p p H
p p H
a

Pentru a calcula numarul de subiecti in functie si de puterea testului
trebuie specificata diferenta semnificativa clinic in cazul parametrului
masurat. In cele mai multe studii clinice obiectivul este demonstrarea
eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt
medicament. Indiferent de comparator, este important sa se specifice ce
diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta
diferenta o vom nota cu . Aceasta diferenta defineste grosismentul
microscopului definit de studiul clinic cu care comparam cele doua
medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci
va fi nevoie de un numar mic de subiecti.
Daca diferenta este relative mica, va fi nevoie de un grup de subiecti
mai mare. Daca , puterea tinde la 1, iar cand
avem 0 0 1 .
Practic se determina numarul de subiecti necesari asigurarii unei
anumite puteri pentru un risc dat sau, altfel spus selectarea unei
probabilitati pentru eroarea de tip II acceptabila in conditiile unui risc de
eroare de tip I fixat.
Raportul dintre si este ca cel din selectia de incertitudine a lui
Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea
erorii de tip II.
Ipoteze ce urmeaza a fi testate vor fi:
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

204

=
=
2 1
2 1 0
:
0 :
p p H
p p H
a

Cunoscandu-se puterea testului = 1 vom determina marimea
esantionului.
Conform definitiei puterea testului este:
( ) ( ) ata ade H H respinge P ata ade H H accepta P
a a
var var 1 1
0 0
= = =
Deci,
=

=

2 1
2
1
2 1
2 1
1 1


1 p p z
n n
q p
p p
P

+ =

2 1
2 1
2
1
2 1
1 1
p p
n n
q p z p p P


Vom scadea din ambii membri ai inecuatiei precedente si vom obtine:
=

+ =

2 1
2 1
2
1
2 1
1 1
1 p p
n n
q p z p p P

=
+

+

=

2 1
2
2 2
1
1 1
2
2 2
1
1 1
2 1
2
1
2
2 2
1
1 1
2 1

1 1



p p
n
q p
n
q p
n
q p
n
q p
n n
q p
z
n
q p
n
q p
p p
P


Dar,
( 1 , 0


2
2 2
1
1 1
2 1
N
n
q p
n
q p
p p
Z
+

= ) si obtinem:
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

205

=
+

+
=

2 1
2
2 2
1
1 1
2
2 2
1
1 1
2 1
2
1

1 1

1 p p
n
q p
n
q p
n
q p
n
q p
n n
q p
z Z P


( )

= =

=
+

+


1 1

1 1

1
2 1
2
2 2
1
1 1
2
2 2
1
1 1
2 1
2
1
p p
n
q p
n
q p
n
q p
n
q p
n n
q p
z Z P

Deci,
=

=
+

+


2 1
2
2 2
1
1 1
2
2 2
1
1 1
2 1
2
1

1 1

1 p p
n
q p
n
q p
n
q p
n
q p
n n
q p
z Z P

=
+

+
=
2 1
2
2 2
1
1 1
2
2 2
1
1 1
2 1
2

1 1

p p
n
q p
n
q p
n
q p
n
q p
n n
q p
z Z P
Dar,
( )

= =
2 1
p p z Z P , deci
2
2 2
1
1 1
2
2 2
1
1 1
2 1
2

1 1

n
q p
n
q p
n
q p
n
q p
n n
q p
z z
+

+
=


II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

206
Aducand la acelasi numitor obtinem:

+ = +
2 1 2 2
2 2
1
1 1
1 1


n n
q p z
n
q p
n
q p
z


Vom determina diferenta

+ +

+ =
2
2 2
1
1 1
2 1
2

1 1

n
q p
n
q p
z
n n
q p z


( )

+
+
+
=
2 1
2 2 1 1 1 2
2 1
2 1
2

n n
q p n q p n
z
n n
n n q p
z


Ridicand la patrat obtinem:
( )
2 1
2
2 2 1 1 1 2 2 1
2 2

n n
q p n q p n z n n q p z

+ + +
=

sau, altfel scris:
2
2
2 2
1
1 1
2 1
2
2

1 1

+ +

+ =
n
q p
n
q p
z
n n
q p z


Considerand n n =
1
si kn kn n = =
1 2
vom obtine:
( )
2
2
1 1 2 2
2
2
1 1 2 2
2
1 1

1

p q p q
z pq z
n kn n kn
k
p q k p q
z pq z
kn kn




= + + + =






+
+
= +

( )
2
2
2 2 1 1
2
1

+ + +
=
q p k q p z k q p z
kn


Deci,
( )
k
q p k q p z k q p z
n
2
2
2 2 1 1
2
1

+ + +
=


II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

207
In cazul in care 1
2 1
= = k n n si
2
2
2 2 1 1
2
2

+ +
=
q p q p z q p z
n


unde
2
2 1
p p
p
+
= .

2.15.8.4. Cazul aspirinei.
Dintre pacientii cu infarct miocardic mor , intr-un interval de un an circa 10
%
2
, iar aspirina se pare ca reduce acest numar de decese cu 10 pana 30 %
din riscul celor care nu iau aspirina.
Ne propunem in continuare sa calculam numarul de pacienti cu
infarct miocardic ce trebuiesc urmariti pe un an de zile pentru a detecta o
reducere cu 20% a riscului de mortalitate , deci de la de la 10% la 8%.
Ne alegem ricul 05 , 0 = si o putere a testului de 0.9 ( deci =0,1)
10% 8%
% 20
10 , 0
1
= p , 08 , 0
2
= p si 09 , 0 % 9
2
% 18
2
% 8 % 10
= = =
+
= p p
02 , 0 08 , 0 1 , 0 = =
este riscul evenimentului (infarct) n absena tratamentului minus
riscul evenimentului n prezena tratamentului sau procentulul riscului
evenimentului la lotul martor minus procentul riscului evenimentului la
lotul tratat.
300 . 4
02 , 0
92 , 0 * 08 , 0 9 , 0 * 1 , 0 28 , 1 91 . 0 * 09 . 0 * 2 96 . 1
2

+ +
= n
Deci n studiile infarctului miocardic, aproximativ 10% dintre
pacieni mor n decursul unui an. Un test clinic ar avea nevoie de
aproximativ 430 decese n grupul de control (adic, de aproximativ 4300
pacieni n grupul de control i 4300 n grupul de persoane tratate) pentru a
obine 90% putere de detectare, 20% reducerea mortalitii la un nivel de
5% ( 05 , 0 = ).
n al doilea exemplu calculm numrul de subieci pentru cazul n
care avem o reducere cu 20% a riscului de mortalitate de la 30% la 24%.

2
Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II.
Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor
Modification, JAMA 260 (15), 2259-2263, 1988
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

208
=0,05 si =0,1
30% 24%
% 20
30 , 0
1
= p , 24 , 0
2
= p si 27 , 0 % 27
2
% 54
2
% 24 % 30
= = =
+
= p p
06 , 0 24 , 0 30 , 0 = =
150 . 1
06 , 0
76 , 0 * 24 . 0 7 , 0 * 3 , 0 28 , 1 73 . 0 * 27 . 0 * 2 96 . 1
2

+ +
= n
Rezultatul se nmulete cu doi pentru c testul se efectueaz pe
dou loturi identice.
Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. Numarul de
morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor)
350
100
30
* 1150
Rezultatul calculelelor pentru alte combinatii de rata
evenimentului si reducerea riscului sunt date in tabelul de mai jos.
Procentul de mortalitate %
Reducerea riscului % 10 15 20 30 40
10% 1800 1700 1600 1400 1200
20% 430 400 390 350 300
30% 180 170 165 150 130
40% 100 90 87 80 70
50% 60 55 53 50 45
Test bilateral n care =0,05; P=0,09.
Avem la dispozitie doua exprimari, amandoua corecte in masura
explicarii clare privind modul de calcul al scaderii. Astfel daca mortalitatea
scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20%
relativ la valoarea de referinta.
Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi
in studiu noi evaluam doua ipoteze privind mediile populatiei:
0 0
: = H si + =
0
:
A
H
deci diferenta este una absoluta.
Daca insa plasam efectul intr-un cadru mai larg de comparare a
diverselor efecte in diverse boli, ideea ca orice tratament nu modifica un
marker biologic cu mai mult de 30% din valoarea sa, este un rezultat mult
mai general, global aplicabil multimii markerilor, este semnificativ pentru
boala in sine care este caracterizata de o multime mare de parametri
masurabili sau nu.
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

209
2.15.8.5. Calculul numarului de subiecti necesari demonstrarii
echivalentei terapeutice a doua medicamente care sunt bioechivalente
Cnd compar aspirina 100% cu aspirina 80% presupun ca
medicamentul care elibereaza numai 80 % din cantitatea de aspirina
declarata are numai 80 % din actiunea celui care elibereaza intrega
cantitate. Deci diferenta considerata mai sus intre aspirina si placebo ( 0.02)
va scadea la 80 % , deci va fi de 0.016 .Diferenta intre testat si referinta
care trebuie depistata pentru a respinge bioechivalenta cu ajutorul efectului
de reducere a ratei de mortalitate a bolnavilor cu infarct intr-un interval de
un an va fi
004 , 0 016 , 0 020 , 0 = = diferenta echivalentei terapeutice
In cazul in care tratez cu aspirina 100% avem 10% 8%, iar
in cazul aspirinei 80% avem 10% 8,4%

% 20

% 16
08 , 0
1
= p 92 , 0 1
1 1
= = p q
084 , 0
2
= p 916 , 0 1
2 2
= = p q
082 , 0
2

2 1
=
+
=
p p
p 918 , 0 1 = = p q
n acest caz
2
004 , 0
916 , 0 * 084 . 0 92 , 0 * 08 , 0 28 , 1 918 . 0 * 082 . 0 * 2 96 . 1

+ +
n
8776 9 n in fiecare grup, deci un total de circa 197552 de pacienti cu
infarct, de urmarit un an.



Concluzii

Literatura medicala abunda de folclor privind cazuri in care doua
medicamente bioechivalenta nu au fost echivalente clinic dar, studiile
sistematice in acest sens lipsesc. Din modul de prezentare a problemei
rezulta clar ca autorii nu au nici cea mai mica idee despre ce inseamna
bioechivalenta si cu ata mai putin stiu care este numarul de subiecti necesari
pentru a demonstra ceea ce in fapt nu se poate demonstra.
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

210

Reprezentativ un astfel de studiu in cazul amiodaronei
3
se refera la
un sondaj de opinie in randul medicilor de familie. Indiferent de numarul
foarte mare al ignorantilor asupra subiectului rezultatul nu poate fi
considerat ca o concluzie stiintifica.


























3
James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically
Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology,
vol. 85, may 1, 2000
II. Statistica matematica si biostatistica Distributia binomiala

211
2.16. DISTRIBUTIA BINOMIALA

2.16.1. Compararea proportiilor cu testul exact Fisher

Consideram toate rezultatele posibile a doua incercari independente,
in primul caz si in al doilea caz, toate cu aceeasi probabilitate de
succes P. Notam numarul succeselor cu si .
1
n
2
n
1
k
2
k

Tabelul nr. 27

1
k
1 1
n k
1
n
2
k
2 2
n k
2
n
1 2
k k +
1 2 1 2
( ) n n k k + +
1 2
n n +




unde:
-
1
k
si
2
k
numarul succeselor
-
1 1
n k si
2 2
n k numarul esecurilor
-
1
n ,
2
n numarul de incercari si
1 2
k k + fixate

Consideram rezultatele particulare
1 1
x k = si
2 2
x k = . Calculam
probabilitatea obtinerii acestor rezultate si , cand se dau marimile
esantioanelor si si numarul total de succese obtinute ( ), cu
presupunerea ca probabilitatea de succes P este aceeasi pentru fiecare din
cele doua incercari.
1
k
2
k
1
n
2
n
1
k k +
2
Definim si ca fiind evenimentele (
1
E
2
E
1 1
x k = ,
2 2
x k = )
respectiv(
1 2
x x + =
1 2
k k + ).
Probabilitatea ca sa se obtina datele din tabel este:
{ } { }
{ }
{ }
1 2
1 1 2 2 1 2 1 2 1 2
2
,
P E E
P x k x k x x k k P E E
P E
= = + = + = = (**)
unde
(
reprezinta realizarea concomitenta a evenimentelor si .
)
1 2
E E
1
E
2
E
Daca se realizeaza , adica (
1
E
1 1
x k = ,
2 2
x k = ), atunci automat se
intampla , deoarece nu putem avea
2
E
1 1
x k = si
2 2
x k = fara a avea simultan
(
1 2
x x + ) = (
1 2
k k + ).
II. Statistica matematica si biostatistica Distributia binomiala

212
De aceea probabilitatea evenimentului
( )
1 2
E E este aceeasi cu
probabilitatea evenimentului , adica
1
E
{ }
1 2
P E E =
{ }
1
P E . Inlocuind in
relatia (**) se obtine
{ }
{ }
{ }
1
1 1 2 2
1 1 2 2 1 2 1 2
2 1 2 1
( )
,
( )
P E
P x k x k
P x k x k x x k k
P E P x x k k
= =
= = + = + = =
+ = +
2

2
2 1
1
2
( )
( )
( )
E
P E E
P E
P E

=
Din definitia distributiei binomiale si vor fi date de
formulele:
1
( ) P E
2
( ) P E
1 1 1 1 2 2
1 2
1
( ) (1 ) (1 )
k n k k k n k
n n
P E C p p C p p
2 2
k
=
2 1 2 1 2 1 2 1
1 2
)
2
(
( ) (1 )
n k k k k n k k
n n
P E C p p
+ + +
+

=
+

( ) ( )
( )
1 2
1 2
2
1 2
1 2
1 2 1 2 1 2
1 2
1
1 2 1 1 2 2 1 2
! !
! !
( )
! !( )!( )! !
k k
n n
E
k k
n n
C C
k k n n k k
n n
P E
k k n k n k n n
C
+
+
+ + +

= =
+


De obicei in tabelele de contingenta se foloseste notatia din tabelul
de mai jos. Cu aceasta notatie probabilitatea rezultatelor devine
Tabelul nr. 28

A a b a+b
B c d c+d
a+c b+d

( )
2
1
( )!( )!( )!( )!
( ) ,
! ! ! !( )!
( )!( )!( )!( )! 1 1
( )! ! ! ! ! ! !
E
a b c d a c b d
P E P a c a c
c d a b a b c d
a b c d a c b d
C
a b c d c d a b c d a b ! !
+ + + +
= + = =
+ + +
+ + + +
=
+ + +
=


Regula de calcul se poate obtine mai usor daca observam ca la
numarator avem factorialele totalurilor marginale, iar la numitor numerele
din tabel si totalul general.




II. Statistica matematica si biostatistica Distributia binomiala

213
Exemplu.
Din studii anterioare se stia ca proportia de reactii adverse, in special
dureri de cap, la voluntarii sanatosi dupa administrarea isosorbit mononitrat
(ISMN) este de circa 30%.
S-a testat o noua formulare T comparativ cu formularea de referinta
in ceea ce priveste biodisponibilitatea. Protocolul experimentului clinic a
cerut, pe langa compararea biodisponibilitatii, si inregistrarea efectelor
adverse. Experimentul a fost de tip incrucisat, pe 24 voluntari din care, in
prima perioada 12 au primit medicamentul de referinta (R) si 12
medicamentul testat (T). Doi voluntari dintre cei care au primit referinta au
abandonat experimentul. In final numarul voluntarilor cu dureri de cap a
fost de 3 pentru R si 5 pentru T. Deci punand datele in tabelul 2x2 se obtine:

Medicament Reactii adverse (RA) Total
Da Nu
R 3 9 12
T 5 5 10
Total 8 14 22

Proportia de RA la ISMN a fost gasita mai mare medicamentul testat:
5 3
10 12
> .
Se poate afirma ca acest lucru este adevarat cu probabiliatatea 90%.
Verificam in acest scop ipotezele:
0
:
:
T R
A T R
H P P
H P P
=
>
cu = 0,10.
Aplicam testul Fisher. Sa calculam pentru inceput probabilitatea de a
se obtine exact rezultatul obtinut in experiment.. Conform cu cele
reprezentate mai sus, luand =12, =10 si
1
n
2
n
1
k k
2
+ = 8
3 9 12
8!14!12!10!
5 5 10 0,173
3!5!5!9!22!
8 14 22
P


= =




Mai departe trebuiau calculate si probabilitatile pentru combinatiile
mai putin probabile decat combinatia obtinuta experimental si cu proportii
mai mari pentru . Avem de exemplu:
T
P
II. Statistica matematica si biostatistica Distributia binomiala

214
2 10 12
8!14!12!10! 1
6 4 10 0, 04
22! 2!6!4!10!
8 14 22
P


= =





1 11 12
1
7 3 10 0, 0045
1!7!11!3!
8 14 22
P c


= =



si

0 12 12
1
8 2 10 0
0!8!12!2!
8 14 22
P c


= =




Deci
( )
5
1,173 0, 04 0, 0041 0 0,10
10
P p

= + + + >


. P = 0,213.
Deci, in ipoteza ca cele doua medicamente nu difera in ceea ce
priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de
5
10
este 0,213.
Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse
este mai mare in medicamentul testat decat in cel de referinta doar din
intamplare.
Este de mentionat o restrictie importanta a testului Fisher si anume
aceea ca numarul total de cazuri de un anumit tip este constant (in cazul
nostru am ales in consecinta numai combinatiile pentru care numarul total
de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in
experiment ). De altfel, raportat la un experiment anterior acesta ar fi trebuit
sa fie 6-7. Desi aceasta restrictie este bine cunoscuta ca incorecta, testul
Fisher se aplica in toata lumea fara precautii in ceea ce priveste
verosimilitatea asimilarii practic a tuturor sumelor marginale constante.
In continuare sa comparam rezultatul cu rezultatul obtinut din
compararea proportiilor experimentale folosind aproximarea normala.
Pentru a verifica ipotezele
0 1 2
1 2
:
:
A
H p p p
H p p
= =
>
cu = 0,10, calculam
II. Statistica matematica si biostatistica Distributia binomiala

215
( )
1 2
1 2
1 2
1 1
2 2
1 1
1
p p
n n
Z
p p
n n

+


=

+


, unde
11
4
10 12
5 3

2 1
2 1
2 1
2 2 1 1
=
+
+
=
+
+
=
+
+
=
n n
k k
n n
p n p n
p
5 3 1 1
10 12 20 24
0, 77
4 7 1 1
11 11 10 12
Z

+


= =

+




( ) ( )
0, 77 0, 77 0, 22 P Z = = ceea ce este foarte apropiat de rezultatul
obtinut cu metoda Fisher. Mai departe comparam cele doua proportii de RA
folosind testul
2
. Revenim la tabel
3
9 12
5 5 10
8 14 22
si calculam valorile asteptate pornind de la estimarea combinata a
probabilitatii:
1 2
1 2
3 5 4

12 10 11
k k
p
n n
+ +
= = =
+ +


Valorile asteptate vor fi
1 1
2 2
4
( ) 12 4, 36
11
4
( ) 10 3, 64
11
E k n p
E k n p
= = =
= = =

Iar celelalte valori se obtin prin scadere din si . Deci, dupa scrierea
datelor asteptate, tabelul devine:
1
n
2
n

3 (4,36) 9 (7,64) 12
5 (3,64) 5 (6,36) 10
8 14 22
si mai departe:
II. Statistica matematica si biostatistica Distributia binomiala

216
( ) ( ) ( ) ( ) ( )
2 2 2 2 2
2
3 4, 36 9 7, 64 5 3, 64 5 6, 36
1, 46
4, 36 7, 64 3, 64 6, 36
i i
i
O E
E


= = + + +

i
O
=
= valorile observate
i
E = valorile asteptate (expectation)

Daca vom cauta in tabele, vom gasi ca valoarea de prag pentru
distributia
2
cu un singur grad de libertate pentru aria de 0,90 este 2,71.
Deoarece 1,46 este mai mic decat 2,71, se accepta ipoteza ca cele
doua proportii sunt egale sau, mai exact spus, nu se poate respinge ipoteza
ca sunt egale.
Dupa cum s-a discutat la prezentarea testului
2
aplicat in
compararea proportiilor acesta este echivalent pentru un singur grad de
libertate cu aplicarea distributiei normale. Valoarea obtinuta la aplicarea
testului Z ridicata la patrat ar trebui sa dea valoarea obtinuta prin statistica
2
, dar .
2
0, 77 1, 46

Daca insa, in calculul statisticii Z renuntam la aplicarea corectiei de
continuitate obtinem:
5 3
0
10 12
1, 21
4 7 1 1
11 11 10 12
Z

= =

+



si . 46 , 1 21 , 1
2

Deci, testul
2
este echivalent cu testul Z fara corectia de
continuitate.











II. Statistica matematica si biostatistica Distributia binomiala

217
2.16.2. Tabele de contingenta R x C
Un tip special de experimente clinice este acela in care mai multe
grupuri de subiecti sunt comparate in ceea ce priveste un raspuns , numit si
marker ce nu iau valori numerice ci un numar finit de stari cum ar fi
agravat, neschimbat, vindecat, ameliorat.
Se poate intampla adesea ca si atunci cand raspunsul reprezinta o
variabila aleatoare continua, din punct de vedere clinic sa fim interesati in
incadrarea acestor valori in anumite intervale. Daca spre exemplu masuram
viteza de sedimentare a hematiilor ( VSH ), dat fiind nespecificitatea acestui
parametru sa ne fie mai util sa catgorisim valoare obtinuta ca normala ( de
exemplu intre 0 si 5 mm/h), crescuta moderat ( 5 40 mm/h ) sau foarte
mare ( peste 40 mm/h).
Uneori procesul este invers, de cuantificare a unor stari prin
asocierea unor numere pe o anumita scara, de exemplu o scara vizuala
privind durerea sau o scara de apreciere a eficientei unui tratament
antireumatic, cum este de exemplu indicele WOMAC, ce vine sa integreze o
serie mai mare de semne clinice mai mult sau mai putin subiective, mai
mult sau mai putin corelate intre ele.
In toate cazurile de mai sus putem fi interesati in frecventa
diferitelor raspunsuri in cadrul unor grupuri constituite ad-hoc in raport cu
obiectivele studiului , de exemplu barbati emei, lot tratat lot netratat etc.
La modul general, experimente de tipul celor de mai sus duc la niste
tabele pe care se numesc tabele R x C , unde R este numarul de grupuri (
row ) si C numarul de coloane. Cazul cel mai simplu si de altfel si cel
mai frecvent este cazul tabelelelor 2 x 2 , de exeplu vindecat, nevindecat sau
toxic, non toxic etc. Aceste tabele se mai numesc si tabele de
contingenta, termenul de contingenta fiind etimologic unul preluat din
geometrie ( tangent, cotangent etc).
De regula, in aceste tabele suntem interesati sa verificam ipoteze
privind proportiile privind prevalenta unor simpome sau efecte in aumite
grupe si, in acest caz problema se reduce la compararea unor frecvente, care
subiect a fost tratat la capitolul verificarea ipotezelor statistice.
O formulare echivalenta, in contextul aranjarii rezultatelor in tabele,
cu ipotezele privind frecventele , se refera la relatiile intre linii si coloane.
Consideram spre exemplu un tabel generic privind rezultatele comparative,
pe loturi paralele, obtinute cu doua medicamente, unul de referinta R, si
unul testat T (tabelul 29).



II. Statistica matematica si biostatistica Distributia binomiala

218
Tabel 29. Exemplu de tabel de contingenta 2x3

lipsa efect efect moderat vindecat
R 20 30 40
T 15 30 50

Ipoteza nula ca tratamentele sunt echivalente se traduce in ipoteza
privind independenta liniilor, sau altfel spus, rezultatele nu implica diferente
intre tratamente.
In fapt liniile nu depind de criteriile dupa care se face impartirea
intre ele, nu depind de nivelele factorului dupa care se face clasificarea. In
fond ele nu sunt independente intre ele ci, in ipoteza avem aceiasi linie
indiferent de nivel.
0
H
Relatiile intre liniile si coloanele tabelelor de contingenta pot fi
testate cu ajutorul testului
2
cu (R-1)(C-1) grade de libertate.
( )
2
2
( 1)( 1)
i i
R C
i
O E
E


unde O sunt valorile observate iar E sunt valorile asteptate (Expected).
Pentru calculul valorilor asteptate va trebui sa completam tabelul cu
totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2
obtinut din tabelul29 prin considerarea numai a doua raspunsuri : lipsa
efect si vindecat

Tabel 30. Exemplu de tabel de contingenta 2x2

lipsa efect vindecat
R 20 40 60
T 15 50 65
total 35 90 125

Rescriem tabelul sub o forma generica ( tabelul 31)
Tabel 31. Tabel de contingenta 2x2 generic
lipsa efect vindecat
R
1 1
n k
1
k
1
n
T
2 2
n k
2
k
2
n
total
( )
1 2 1 2
( ) n n k k + +
1 2
k k +
1 2
n n +
II. Statistica matematica si biostatistica Distributia binomiala

219
Problema compararii celor doua tratamente o putem reduce la
compararea celor doua frecvente de pacienti vindecati
1
1
k
n
si
2
2
k
n
.
In acest scop presupunem ca cele doua variabile si sunt
distribuite binomial cu acelasi parametru
1
k
2
k
p ( proportia celor care raspund la
tratament). Dupa cum s-a aratat la capitolul privind distributia binomiala
mediile si dispersiile sunt date de formulele
( )
1 1
E k n p = ;
( )
2 2
E k n p = ;
( )
1 1
D k n p = q ;
( )
2 2
D k n p = q
Dar, atunci cand p este mic
2
(1 ) npq np p np p np = = si deci
( ) ( )
i i
D k E k
Mai departe, cand este suficient de mare variabila aleatoare
standardizat
i
n
( )
( )
k E k
k np k np O E
z
npq np E
D k


= = =

se aproximeaz ca
fiind normal repartizat.
In aceste conditii
( )
2
i i
i
O E
E

este prin definitie repartizata


2

iar o estimare natural a lui p este
2 1
2 1
n n
k k
p
+
+
= si respectiv
( ) ( )
1 2 1 2
1 2
n n k k
p
n n
+ +
=
+

In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si
35
0.28
125
=
E(k
1
)= 60x90/125=43.2 E(k
2
)= 65x90/125=46.8
E( )=60x35/125=16.8 E(
1
n k
1 2 2
n k )= 65x35/125=18.2
Formam acum un tabel completat cu valorile asteptate ( tabelul 32)
Tabelul 32 Valorile observate si valorile asteptate
lipsa efect vindecat
R 20 (16.8) 40 (43.2) 60
T 15 (18.2) 50 (46.8) 65
total 35 90 125
si calculam valoarea testului
II. Statistica matematica si biostatistica Distributia binomiala

220
( ) ( ) ( ) ( )
2 2 2
2
1
2
20 16.8 15 18.2 40 43.2 50 46.8
16.8 18.2 43.2 46.8
1 1 1 1
3.2 1.62
16.8 18.2 43.2 46.8


= + + +

+ + + =


2
=

Pentru o semnificatie de 95%, valoarea de prag a lui
2
1
este 3.84 .
Deci putem spune ca liniile sunt independente si deci tratamentele
sunt echivalente.

Aplicatie:
Vom testa reactia diferitelor persoane la razele solare in functie de
culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor
(albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si
sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de
expunere.
Valorile observate sunt prezentate in tabelul urmator:
Reactii adverse
Culoare ochilor Jupuire Eritem Non - reactie
Total
Albastri 25 28 6 59
Verzi 5 5 7 17
Caprui 6 10 15 31
Total 36 43 28 107
Valorile asteptate sunt prezentate in tabelul urmator:
Reactii adverse
Culoare
ochilor
Jupuire Eritem Non - reactie
Total
Albastri
85 , 19
107
36
* 59 = 71 , 23
107
43
* 59 = 44 , 15
107
28
* 59 =
59
Verzi
72 , 5
107
36
* 17 = 83 , 6
107
43
* 17 = 45 , 4
107
28
* 17 =
17
Caprui
43 , 10
107
36
* 31 = 46 , 12
107
43
* 31 = 11 , 8
107
28
* 31 =
31
Total 36 43 28 107
Testul statistic este:
( )( )
( ) ( ) ( ) ( )
14 , 18
11 , 8
11 , 8 15
...
71 , 23
71 , 23 28
85 , 19
85 , 19 25
2 2 2 2
2
4
2
1 3 1 3
=

+ +

= =


i
i i
E
E O

Pentru un nivel de semnificatie 10 , 0 = avem si cum
vom respinge ipoteza : reactia nu depinde de culoarea ochilor.
49 , 9
2
4
=
49 , 9 14 , 18
0
H


II. Statistica matematica si biostatistica Distributia binomiala

221
2.16.3.Teste de independenta la clasificarea dupa doua criterii

Problema tabelelor de contingenta este problema demonstrarii
faptului ca doua criterii de clasificare introduse pe aceiasi populatie sunt
independente.
Doua criterii se pot considera independente daca distributia dupa un
criteriu este aceiasi indiferent daca mai aplicam sau nu si al doilea criteriu
de clasificare.
De exemplu daca rezultatele obtinute prin aplizarea a doua
tratamente si gruparea dupa varsta sunt independente , ne asteptam sa avem
aceleasi proportii de ameliorari si/sau vindecari in toate grupele de varsta
cu cele doua medicamente. Ipoteza nula este aceea ca cele doua criteriide
clasificare sunt independente. Verificarea acestei ipoteze se face folosind
exact acelasi test ca mai sus
( )
2
2
( 1)( 1)
i i
R C
i
O E
E


dar interpretarile calculelor sunt diferite.
Consideram din nou tabelul 30 , unde cele doua criterii de clasificare
sunt medicamentul administrat si efectul obtinut.

Tabelul 33. Clasificarea pacientilor dupa tratament si efecte
lipsa efect efect moderat vindecat total
R 20 30 40 90
T 15 30 50 95
total 35 60 90 185

Sa estimam probabilitatile asteptate in fiecare celula in conditiile
incare cele doua criterii sunt independente ( ceea ce semnifica in fapt
echivalenta medicamentelor R si T).
Estimam la inceput probabilitatile marginale, pornind de la
totalurile marginale.
Probabilitatea ca un pacient luat la intamplare din lotul selectat sa nu
prezinte o ameliorare a starii sale este de 35/90=0.39 ; probabilitatea ca la
un subiect oarecare efectul sa fie moderat este 60/90=0.67 si probabilitatea
vindecarii este 90/185. Similar, probabilitatile caun subiect sa fi primit
medicamentul de referinta este 90/185 si respectiv 95/185 ca sa fi primit
medicamentul testat.
Una din definitiile independentei a doua evenimente A si B este
aceea ca ( ) ( ) ( ) P A B P A P B =
II. Statistica matematica si biostatistica Distributia binomiala

222
In conditiile ipotezei nule ca cele doua siteme de clasificare ( efectul
si medicamentul 0 sunt independente, pentru prima celula a tabelului
rezulta:

( ) ( ) ( )
092 . 0
185
90
*
185
35
*
= =
= = R medicament P efect lipsa P R medicament efect lipsa P

Probabilitatea ca un subiect sa simta o ameliorare la administrarea
medicamentului R va fi
60 90
185 185
si asa mai departe.
Valorile asteptate se obtin apoi prin inmultirea probabilitatii
clasificarii intr-o celula data cu numarul total de subiecti deci , pentru prima
celula avem 0.092*185=17 .
Observam ca aceasta valoare se poate calcula mai usor deoarece
185
90 * 35
185 *
185
90
*
185
35
= deci valoarea asteptata pentru o celula data se
poate obtine ca produsul intre totalurile marginale impartit la totalul general.
Se observa ca am intrat deja in algoritmul prezentat anterior pentru
tabelele 2x2.




















II. Statistica matematica si biostatistica Distributia binomiala

223
2.16.4. Tabelele 2x2 corelate

In experimentul anterior, in fapt am comparat numarul de reactii
adverse la doua grupuri paralele de subiecti. In evaluarea rezultatelor si in
concluziile obtinute desigur ca un rol important l-a avut si intervariabilitatea
subiectilor, care este in general destul de mare. Nu am avut nici o informatie
privitoare la omogenitatea celor doua loturi.
Dupa cum s-a prezentat de mai multe ori in paginile anterioare, in
experimentul biologic se recurge ori de cate ori este posibil la experimentul
incrucisat, in care fiecare subiect este propriul sau martor.
O evaluare mult mai relevanta in ceea ce priveste efectele adverse
comparative pentru cele doua medicamente o obtinem daca vom compara
frecventa acestora la acelasi lot, sa zicem lotul 1 (de 12 subiecti) care in
perioada a 1
a
a primit R si in perioada a 2
a
a primit T. Observam ca R a
avut ra la 3 voluntari, iar T la 5 voluntari.
De fapt, la o examinare mai amanuntita rezultatele sunt conform
tabelelor urmatoare:
1 2 3 4 5 6 7 8 9 10 11 12
R ra - - - ra - - - - ra - -
T - ra - ra - - ra - - ra - ra

R
ra N- ra Total
ra 1 4 5 T
N- ra 2 5 7
Total 3 9 12
Deci un subiect a avut RA la amandoua medicamentele si 5 nu au
avut la nici unul din cele doua medicamente, comportamentul lor nu ne da
informatii despre diferentele intre medicamente, ci numai despre toxicitatea
substantei active. Informatia despre o eventuala diferenta este cuprinsa in
intregime in celelalte doua cifre (2 si 4).
Daca medicamentele ar fi complet echivalente ar fi de asteptat ca
numarul celor care au avut reactii adverse la R si nu au avut la T sa fie
aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au
avut la R. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel.
Deci avem in fapt de evaluat tabelul:
ra la R si n-ra la T 2
ra la T si n-ra la R 4
Total 6
ra = reactii adverse
n-ra = non-reactii adeverse
II. Statistica matematica si biostatistica Distributia binomiala

224
Folosind direct distributia binomiala cu
1
2
p = si n = 6, obtinem:
( )
2
0
2
k k n k
n
P x C p q

=

si deoarece p = q =
1
2

( )
( )
2
0 1 2 6
6
0
6 5 1 22
2 1 6
2 2 64
k n
n n n n
P X C p C C C p


= = + + = + + = =

0, 34

Sau folosind aproximarea normala:
( ) ( )
0
1 1
2 3
0, 5
2 2
2 0
1 1, 5
6
4
x np
P X
npq


+ +




= = = = =








, 41 0, 34
Deci acelasi rezultat.
Concluzia este ca nu putem respinge ipoteza echivalentei celor 2
medicamente in ceea ce priveste reactiile adverse. Daca am fi aplicat un test
de comparare tabelului aparent, de exemplu folosind aproximarea normala a
datelor din tabel, am fi obtinut:
46 , 0
14
3
3
14
12
1
12
1
12
1
12
1
*
12
7
*
12
4
24
1
24
1
12
3
12
5
= =

+

= Z ( ) 32 , 0 46 , 0 =
Concluzia este aceiasi ca nu se poate respinge ipoteza ca cele doua
medicamente au avut proportii de substante active diferite doar din
intamplare. In fapt, in esenta numarul de date este prea mic pentru a putea
asuma, la un risc acceptabil, ca cele doua medicamente au toxicitate diferita.












II. Statistica matematica si biostatistica Distributia binomiala

225
2.16.5. Teste de omogenitate
In unele situatii practice, numarul subiectilor pentru fiecare nivel al
unuia din criterii este fixat dinainte. De exemplu numarul de barbati si
numarul de femei inrolati in studiu sau numarul de subiecti pe diferite
categorii de varste. Daca vom testa nivelele efectului unui medicament
clasificarea dupa acest criteriu va fi o variabila aleatoare.
Problema pe care ne-o punem in acest caz este aceea a omogenitatii:
sunt esantioanele omogene in raport cu un criteriu dat?
Ipoteza nula in acest caz este aceea ca toate esantioanele provin
dintr-o populatie omogena si deci frecventele in interiorul celor doua
grupe nu difera semnificativ.

Exemplu
Consideram o clasificare a fumatorilor in ceea ce priveste numarul
de tigari fumate si varsta. Fixam in prealabil numarul de subiecti din grupele
de varsta 20-30, 30-40, 40-50, peste 50 ani si stabilim nivelele de fumatori
0-10, 10-20, peste 20 tigari/zi.
Presupunem ca am obtinut tabelul de mai jos:

Nr. tigari Varsta (ani)
20-30 30-40 40-50 > 50 total
0-10 20 30 40 50 140
10-20 30 40 30 30 130
> 20 50 50 50 20 170
total 100 120 120 100 440

Deci vom considera ipotezele:
H
0
: cele 4 categorii de varsta sunt omogene in ceea ce priveste consumul de
tigari.
H
A
: cele 4 categorii de varsta nu sunt omogene in ceea ce priveste consumul
de tigari.

Calculam ca mai sus valorile asteptate: valoarea asteptata va fi
produsul totalurilor marginale, impartit la numarul total de subiecti.

Exemplu: in prima celula
100 140
31, 8
440
etc

= .
Intr-adevar, daca populatiile sunt omogene sau echivalente si toate
esantioanele provin din aceeasi populatie in ceea ce priveste consumul de
II. Statistica matematica si biostatistica Distributia binomiala

226
tigari, cea mai buna estimare a proportiei in totalul populatiei, a celor ce
consuma mai putin de 10 tigari/zi este 100/440 acelasi pentru celelalte
categorii de fumatori. Ne vom astepta in acest caz sa gasim de exemplu
(100/440) 140 fumatori 0-10 tigari in categoria de varsta 20-30 ani.



II. Statistica matematica si biostatistica Aplicatii in epidemiologie

227
2.17. APLICATII IN EPIDEMIOLOGIE

2.17.1. Studii cohort
Studiile epidemiologice se ocupa de punerea in evidenta a unor
factori (de exemplu fumatul) care cresc riscul de aparitie a unor boli de
exemplu cancerul pulmonar. O abordare corecta a acestor studii trebuie sa
se bazeze pe urmarirea in timp a doua loturi unul expus la factorul
considerat de risc si un lot martor care nu este expus factorului de risc.
Un astfel de studiu se numeste studiu Cohort. Radacina indo-
europeana ghort inseamna in esenta loc ingradit. In latina avem hortus
gradina, in limbile slave gorod oras, in romana gard, in engleza yard
curte, etc.
Deci un studiu cohort indica faptul ca subiectii studiului sunt
separati intr-un fel, ingraditi si urmariti. Aceste studii prezinta dezavantajul
ca necesita un timp indelungat pentru a fi efectuate, pentru ca trebuie
asteptat uneori un numar mare de ani. In cazul bolilor rare numarul
subiectilor ce ar trebui urmariti pentru a se ajunge la un numar de bolnavi
care sa permita evaluari statistice demne de incredere ar trebui sa fie urias.

2.17.2. Studii case report
In locul studiilor prospective, controlate, pe subiecti sanatosi, se
poate recurge la alte studii, retrospective pe bolnavi, studii case report,
pe baza rapoartelor de caz, a fiselor de observatii si a altor documente.
In astfel de studii retrospective se compara numarul bolnavilor care
au fost expusi la un factor de risc cu numarul bolnavilor care nu au fost
expusi. In contextul aceluiasi exemplu dat mai sus, se compara numarul
bolnavilor de cancer pulmonar fumatori, cu numarul bolnavilor care nu sunt
fumatori. Lucrurile sunt ceva mai complexe in cazul celor care au fumat o
perioada de timp si apoi s-au lasat, sau cazul celor care nu au fumat dar au
fost expusi sistematic fumului de tigara.
Aparent celor doua tipuri de studii ar fi echivalente, dar de fapt nu
sunt. Consideram urmatorul exemplu fictiv: se impart bolnavele de cancer
de col uterin care au murit in primul an de la depistarea bolii in doua
categorii:
prima categorie cele cere au numele Maria sau Ileana
a doua categorie cele care au alte nume
Rezultatul obtinut este acela ca numele Maria si Ileana creste
semnificativ riscul de cancer.
Rezultatul este evident fals. Greseala nu este de statistica ci apare
din aceea ca loturile nu sunt omogene in ceea ce priveste provenienta din
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

228
mediul rural si din orase. Maria si Ileana sunt mai mult nume de la sate
acolo unde asistenta medicala este, din pacate, foarte precara. Depistarea
bolii se face mai tarziu sau prea tarziu si tratamentul este si el bolnav.
Intr-un studiu prospectiv se poate urmari omogenitatea loturilor
printr-o judicioasa stabilire a criteriilor de includere / excludere in / din
studiu, ceea ce este mult mai dificil la un studiu preponderent post
mortem.

2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case -
report) a riscului din cauza expunerii la un factor dat.

Riscul expunerii.
Riscul expunerii se defineste prin formula
( )
( ) D P
D P
R
NE
E
= se evalueaza
intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea
imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi
(E expus, D disease = boala)
Dar, in case study, noi nu expunem subiectii, ci consideram
bolnavi. Deci eveniment produs este boala, si obtinem: ( )
D
P
Pentru simplificare, ne situam in cazul bolilor rare ( ) 1 = ND P
Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula
Bayes

( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( )
( ) ( ) ( ) E P D P E P
D P E P
ND P E P D P E P
D P E P
D P
ND D
D
ND D
D
E
+

+
=
si, similar, la cei neexpusi:

( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( )
( ) ( ) ( ) NE P D P NE P
D P NE P
ND P NE P D P NE P
D P NE P
D P
ND D
D
ND D
D
NE
+

+
=

Inlocuind in raport se obtine

( ) ( ) ( ) ( ) ( ) [ ]
( ) ( ) ( ) [ ] ( ) ( ) D P NE P E P D P E P
NE P D P NE P D P E P
R
D ND D
ND D D
+
+
=
si daca simplificam prin ( ) D P , se obtine:
( ) ( ) ( ) ( ) [ ]
( ) ( ) ( ) [ ] ( ) NE P E P D P E P
NE P D P NE P E P
R
D ND D
ND D D
+
+
=


II. Statistica matematica si biostatistica Aplicatii in epidemiologie

229
Riscul retrospectiv (odds ratio)

Consideram raportul defectelor - odds ratio OR care se obtine
intr-un studiu retrospectiv (case-study):
Rapoartele odds sunt rapoartele intre proportia celor expusi si
proportia celor de neexpusi in populatia de bolnavi si respectiv acelasi
raport in populatia de sanatosi. Spre exemplu se considera proportia
factorilor intr-un lot de bolnavi de cancer pulmonar si proportia fumatorilor
intr-un lot din intreaga populatia. Raportul acestor proportii, numit odds
ratio, este o masura a riscului de imbolnavire al celor expusi.
) ( ) (
) ( ) (
) (
) (
) (
) (
E P NE P
NE P E P
NE P
E P
NE P
E P
OR
ND D
ND D
ND
ND
D
D
= =
In exemplul nostru:
= OR
sanatosi de populatia in r fumatorilo proportia
avi bo de populatia in r fumatorilo proportia ln

In cazul bolilor rare ar trebui determinat numarul de imbolnaviri
intr-un lot expus comparativ cu un lot neexpus pe perioade foarte lungi ceea
ce este foarte scump si, in general, nu este fezabil datorita iesirii din studiu a
foarte multi dintre subiecti. In aceasta situatie insa, daca aproximam ca
probabilitatea imbolnavirii este aproximativ zero ( ( ) 0 D P ) si
probabilitatea de neimbolnavire este aproape 1( ( ) 1 ND P ), riscul obtinum
retrospectiv OR este o estimare a riscului din cauza expunerii R. Intr-
adevar,

( ) ( ) ( ) ( ) [ ]
( ) ( ) ( ) [ ] ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( )
( ) ( ) NE P E P
NE P E P
NE P E P NE P D P E P
NE P E P D P NE P E P
NE P E P D P E P
NE P D P NE P E P
R
D ND
ND D
D ND D D
ND D D D
D ND D
ND D D
=
+
+
=
+
+
=

Si comparand cele doua rezultate am obtinut OR R








II. Statistica matematica si biostatistica Aplicatii in epidemiologie

230
2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv
(odds ratio) in studiile de control de caz

Riscul relativ estimat retrospectiv (odds ratio - OR) este
intotdeauna pozitiv si rareori trece de 10. Distributia sa de probabilitate nu
este normala la marimile de esantioane obisnuite. Transformarea
logaritmica ( ) OR ln este de obicei folosita pentru a duce la distributii
aproximativ normale.
Daca vom considera un lot testat si unul de referinta avem, dupa
definitie:
1
T
T
T
p
O
p
=

;
1
C
C
C
p
O
p
=

unde C = control si T = testat


( )
( )
1
1
T
T
C C T
p p
O
OR
O p p

= =

C
si ln ln ln ln ln
1 1
C T
T C
T C
p p
OR O O
p p
= =


Observam ca daca riscul nu difera in cele doua loturi,
, o estimare a lui se obtine din frecventa
experimentala:
1
T
OR p p = =
C
OR


( )

( )
1
1
T
C T
p p
OR
p p

C
unde
T
T
T
x
p
n
= si
C
C
C
x
p
n
=
Deoarece nu este normal distribuit se foloseste in practica

OR
lnOR
In vederea obtinerii unei estimari a dispersiei lui aplicam asa
zisa metoda
lnOR

Metoda de calcul aproximativ a dispersiei unei functii f de
variabila aleatoare x,
( ) ( )
D f x prin dezvoltarea lui f in jurul lui :
( ) ( ) ( )( )
f x f f x = +
( ) ( ) ( ) ( )( )
E f x f f = +
( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )
2
2
2
D f x E f x f E f x x f x D x
= = =



In cazul in care
( )
ln
1
p
f p
p
=

vom avea:
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

231
( ) ( ) ( )
( )
( )
( )
2
2
1
ln ln *
1 1
1
1 1 1
*
1 1
p p
p p
D f p D p
p p
p p
p p n np p




= =





= + =



n
=


Aplicand regula in cazul nostrum se obtine formula lui Woolf:
( ) ( )
( ) ( )
1 1
ln
1 1
1 1 1 1 1 1 1 1 1 1
1 1
T T T C C C
T T T C C C
D OR
n p p n p p
n p p n p p a b c d
= + =


= + + + = + +



+

Intervalul de incredere
Intervalul de incredere de 95% este egal cu:
( )
d c b a
OR
1 1 1 1
96 , 1 ln + + +
Intervalul de incredere in scala originala de risc relativ estimat este
prin urmare dat de [ ]
U L
OR OR ; sau
( ) ( )
[ ]
U L
OR OR
e e
ln ln
; unde

si

sunt limitele inferioare si superioare ale lui
( )
L
OR ln
(
U
OR ln ) ( ) OR ln
Observatie:
Intervalul [ ]
U L
OR OR ; nu este simetric fata de media riscului relativ
estimat.

2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc
relativ intr-un studiu case report, cu o precizie data
1

Se doreste o eroare mai mica de
Se poate face o estimare a numarului de subiecti in ipotezele:
Esantioanele sa fie egale n n n = =
2

1
Riscul relativ estimat este mai mare de 1.
OR
W
OR
OR R O
L
L
=



1
Woolf B. On estimating the relationship between blood group and disease, Human
Genet., 19, 251-3, 1955
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

232
( ) ( )
( )
( ) ( ) [ ] ( ) [ ]


= =
= = = =
OR SE z OR SE z OR
OR
OR OR
L L
e OR OR e e
e e W R O OR OR
L
ln * ln * ln
ln
ln ln
2
1
2
1
*


( ) ( ) [ ]
( ) ( )

= =

2 2 1 1 2
1
2
1
1
1
1
1 1
* ln * 1 ln
P P P P n
z OR SE z


Rezolvand obtinem:
( ) ( )
( ) [ ]
2
2 2 1 1
2
2
1
1 ln
1
1
1
1

=

P P P P
z
n



2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor
privind riscul relativ estimat retrospectiv (OR)
Ipoteza nula este de obicei 1 :
0
= OR H Aceasta este echivalenta cu
si ipoteza alternativa este
2 1 0
: P P H =
2 1
: P P H
A

Prin urmare, pentru a calcula marimea esantioanelor necesare pentru
testarea ipotezelor privind riscul relativ estimat retrospectiv, se poate folosi
aceeasi abordare ca cea folosita la testarea ipotezei vs
2 1 0
: P P H =
=
2 1
: P P H
A

Formula corespunzatoare este:
( ) [ ] ( ) ( ) [ ]
( )
2
2 1
2
2 2 1 1 1
2
1
1 1 1 2
P P
P P P P z P P z
n

+ +
=


, unde
2
2 1
P P
P
+
=
In studiile de control a cazului, - rata de expunere de control este
de obicei cunoscuta cu o precizie mare. In acest caz este folosita expresia
modificata.
2
P
( ) [ ] ( ) ( ) [ ]
( )
2
2 1
2
2 2 1 1 1 2 2
2
1
1 1 1 2
P P
P P P P z P P z
n

+ +
=






II. Statistica matematica si biostatistica Aplicatii in epidemiologie

233
2.17.7. Originea conceptului OR (Odds Ratio) propus de ctre Woolf.
Woolf a ajuns la conceptul de odds ratio pornind de la studiul
datelor din literatur medical referitoare la predispoziia ctre anumite boli
existent la anumite grupe sanguine.
Mai muli cercettori au evideniat
2
c exist o predispoziie ctre
cancerul gastric la subiecii cu grupa sangvin A i o predispoziie ctre
ulcerul peptic la cei cu grupa sangvina 0 . Pentru cancer frecventele sunt de
2% si respectiv 1% si deci, pentru un lot de 5000 subiecti cu grupa A si
5000 de subiecti cu grupa 0 s-ar obtine rezultatele:

B+
(bolnavi cu cancer gastric)
B-
(control)
p
(Procent de boala in grupa)
Grupa sangvina A 100 (a) 5000 (b) 2%
Grupa sangvina 0 50 (c) 5000 (d) 1%
Total 150 10.000

Consideram in continuare un studiu retrospective si calculam:

1
p proporia celor cu grupa A n lotul de bolnavi:
1
100 2
150 3
p = =

2
p proporia celor cu grupa A n lotul control:
2
5000 1
10000 2
p = =
Avem:
1 2
2 1
0,1667
3 2
p p = =
Consideram ca proportiile de 1% si 2% sunt adevarate si in cazul in
care lotul de control include cele doua grupuri de sange in alt raport decat
1:1, de exemplu 9:1

B+
(bolnavi cu cancer gastric)
B-
(control)
Grupa sangvina A 180 (a) 9000 (b)
Grupa sangvina O 10 (c) 1000 (d)
190 10.000


2
Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the
ABO blood groups, Brit Med J, 1, 799, 1953

II. Statistica matematica si biostatistica Aplicatii in epidemiologie

234
In acest caz :
1 2
180 9000
0, 047
190 10000
p p = =
Intuitiv, dac n-ar exista o predispoziie pentru cancer de stomac la
cei cu grupa A, cele dou proporii ar trebui s fie egale. i totui, dup cum
se poate observa, cele dou proporii din exemplul de mai sus difer
semnificativ. Acesta este un exemplu n care intuiia sau logica
convenional ne poate induce n eroare i n care metodele statistice ne pot
veni n ajutor.
Woolf a observat deci c diferena ntre cele dou proporii depinde
de numrul de subieci cu grupa A i cu grupa 0 din lotul de control, deci
difer de la un studiu clinic la altul, chiar dac rata specific de atac n
interiorul unui grup sangvin dat rmane constant.
El a artat deci, c dac de exemplu n lotul de control avem 5000 de
subieci cu grupa A, si 5000 de subieci cu grupa 0 se obine un rezultat, i
n cazul n care exist 9000 de subieci cu grupa A si respectiv 1000 de
subieci cu grupa 0 se obtine un rezultat mult diferit de primul caz..
Rezultatele sunt foarte diferite n condiiile n care proporia de bolnavi n
cele dou grupe rmn constante 2% i 1%.
n aceste condiii el a propus nlocuirea testului de comparare a celor
dou proporii aa cum s-a enutat, cu compararea raportului ratelor de
inciden 100/5000 i 50/5000.
Ratele de inciden reprezint proporiile de bolnavi n cadrul grupei
sangvine A (a/b) i proporia de bolnavi din cadrul grupei sangvine 0 (c/d):
a
ad
c
OR
b
bc
d
= =
Pentru compararea ratelor de incidenta, se testeaz ipotezele:
vs
0
: 1 H OR =
1
: 1 H OR
n studiile case-control (caz martor) OR (Odds Ratio) msoar
asocierea dintre o expunere i riscul de dezvoltare a unei boli. n cazul
bolilor rare, dupa cum s-a aratat mai sus, OR red o estimare destul de
precis a riscului relativ (RR).




II. Statistica matematica si biostatistica Aplicatii in epidemiologie

235
2.17.8. Metoda Mantel-Haenszel de calcularea OR in studii case-
control stratificate
3

Cand avem mai multe studii clinice epidemiologice, de exemplu
unul pe femei si unul pe barbati, in ipoteza ca nu exista diferente
semnificative intre cele doua sexe in ceea ce priveste riscul unei anumite
boli induse de un factor de risc dat, este natural sa reunim loturile si sa
facem calculele pentru populatia reunita. Daca insa nu putem presupune
acest lucru, o metoda alternativa de calcul este metoda Mantel-Haenszel
.Metoda Mantel-Haenszel este folosit pentru a estima pooled odds ratio
din mai multe straturi sau mai multe studii similare:

1
1
k
i i
i
i
MH
k
i i
i
i
a d
n
OR
bc
n
=
=


n a b c d , unde
i i i i i
+ + + =
Strat / Studii Cazuri Control Total
Expusi
1
a
1
b
11
n
Neexpusi
1
c
1
d
01
n
1
Total
11
m
01
m
1
n
......... ........................ ............ ............ .............
Expusi
j
a
j
b
1 j
n
Neexpusi
j
c
j
d
0 j
n
j
Total
1 j
m
0 j
m
j
n
......... ........................ ............ ............ .............
Expusi
K
a
K
b
1K
n
Neexpusi
K
c
K
d
0K
n
K
Total
1K
m
0K
m
K
n
Notam OR
i i
= . Deoarece
i i
i
i i
a d
b c
i i i i i
a d bc = si deci =

, avem:

3
Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective
studies of disease, JNCI 1959, 22:719-748
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

236

i i i i i i
i i
i i i
MH i
i i i i j j
i i j
j
a d bc bc
n n n
OR w
bc bc b c
n n
n

= = = = =




i
,
unde
i i
i
i
j j
j
bc
n
w
b c
n
=

poate fi interpretata ca ponderea componentei in


suma.
i

Facem observatia ca ponderile sunt in fapt estimari ale inversului


dispersiilor componentelor
i
w
i
.
In anumite conditii restrictive, aplicand metoda verosimilitatii
maxime se poate arata ca
4
dispersia lui
MH
OR

se calculeaz conform
ecuaiei:

( ) ( )
1
1
2
1 1
1
1
2
1
* *
*
ln
2
2
*
2
K
K
j j j j j j j j
j j j j
j
j j j j j
j j
MH
K K
K
j j j j
j j
j j
j j
j
j
K
j j j j
j
j j
K
j j
j
j
b c a d b c a d
a d a d
n n n n
n n
D OR
a d b c
a d
n n
n
b c b c
n n
b c
n
=
=
= =
=
=
=
+ +
+
+



= + +








+
+







Intervalul de ncredere se poate obine folosind ecuaia:

( ) ( )
2
exp log MH MH OR z D OR





4
P.Silocks, An easy approad to the Robins Breslow. Greendland variance estimation,
Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110)
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

237

Exemplu . Consideram rezultate dintr-un studiu privind incidenta cancerelor
de gura efectuat in Olanda

Femei Fumtoare Nefumtoare Total
Paciente cu Leucoplakie localizare mucoas
obraji
6 5 11
Control (femei populaie Olanda) 30.3 69.7 100
Total 36.3 74.7 111


Brbai Fumtori Nefumtori Total
Pacieni cu Leucoplakie localizare mucoas
obraji
11 1 11
Control (brbai populaie Olanda) 36.7 63.3 100
Total 47.7 64.3 112

Vom aplica relatia

1
1
k
i i
i
i
MH
k
i i
i
i
a d
n
OR
bc
n
=
=


in care avem:
1
6 a =
2
11 a =
1
5 b =
2
1 b =
1
30, 3 c =
2
36, 7 c =
1
69, 7 d =
2
63, 3 d =
1
111 n =
2
112 n =

In cazul nostru obtinem:

1 1 2 2
1 2
1 1 2 2
1 2
6*69.7 11*63.3
111 112
5.9
5*30.3 1*36.7
111 112
MH
a d a d
n n
OR
b c b c
n n
+
+
= =
+ +
=

deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul
fumatorilor decat in cazul nefumatorior .

TABELE STATISTICE

239
Tabele pentru z



z 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0754
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2258 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549
0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2996 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4639
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
TABELE STATISTICE

240
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

TABELE STATISTICE

241
Tabele pentru t


55 , 0
t
60 , 0
t
70 , 0
t
75 , 0
t
80 , 0
t
90 , 0
t
95 , 0
t
975 , 0
t
99 , 0
t
995 , 0
t
1 0,158 0,325 0,727 1,000 1,376 3,08 6,31 12,71 31,82 63,66
2 0,142 0,289 0,617 0,816 1,061 1,89 2,92 4,30 6,96 9,92
3 0,137 0,277 0,584 0,765 0,978 1,64 2,35 3,18 4,54 5,84
4 0,134 0,271 0,569 0,741 0,941 1,53 2,13 2,78 3,75 4,60
5 0,132 0,267 0,559 0,727 0,920 1,48 2,02 2,57 3,36 4,03
6 0,131 0,265 0,553 0,718 0,906 1,44 1,94 2,45 3,14 3,71
7 0,130 0,263 0,549 0,711 0,896 1,42 1,90 2,36 3,00 3,50
8 0,130 0,262 0,546 0,706 0,889 1,40 1,86 2,31 2,90 3,36
9 0,129 0,261 0,543 0,703 0,883 1,38 1,83 2,26 2,82 3,25
10 0,129 0,260 0,542 0,700 0,879 1,37 1,81 2,23 2,76 3,17
11 0,129 0,260 0,540 0,697 0,876 1,36 1,80 2,20 2,72 3,11
12 0,128 0,259 0,539 0,695 0,873 1,36 1,78 2,18 2,68 3,06
13 0,128 0,259 0,538 0,694 0,870 1,35 1,77 2,16 2,65 3,01
14 0,128 0,258 0,537 0,692 0,868 1,34 1,76 2,14 2,62 2,98
15 0,128 0,258 0,536 0,691 0,866 1,34 1,75 2,13 2,60 2,95
16 0,128 0,258 0,535 0,690 0,865 1,34 1,75 2,12 2,58 2,92
17 0,128 0,257 0,534 0,689 0,863 1,33 1,74 2,11 2,57 2,90
18 0,127 0,257 0,534 0,688 0,862 1,33 1,73 2,10 2,55 2,88
19 0,127 0,257 0,533 0,688 0,861 1,33 1,73 2,09 2,54 2,86
20 0,127 0,257 0,533 0,687 0,860 1,32 1,72 2,09 2,53 2,84
21 0,127 0,257 0,532 0,686 0,859 1,32 1,72 2,08 2,52 2,83
22 0,127 0,256 0,532 0,686 0,858 1,32 1,72 2,07 2,51 2,82
23 0,127 0,256 0,532 0,685 0,858 1,32 1,71 2,07 2,50 2,81
24 0,127 0,256 0,531 0,685 0,857 1,32 1,71 2,06 2,49 2,80
25 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,79
26 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,78
27 0,127 0,256 0,531 0,684 0,855 1,31 1,70 2,05 2,47 2,77
28 0,127 0,256 0,530 0,683 0,855 1,31 1,70 2,05 2,47 2,76
29 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,76
30 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,75
40 0,126 0,255 0,529 0,681 0,851 1,30 1,68 2,02 2,42 2,70
60 0,126 0,254 0,527 0,679 0,848 1,30 1,67 2,00 2,39 2,66
120 0,126 0,254 0,526 0,677 0,845 1,29 1,66 1,98 2,36 2,62
0,126 0,253 0,524 0,674 0,842 1,28 1,645 1,96 2,33 2,58

TABELE STATISTICE

243
Tabele pentru
95 , 0
F


2
1


1 2 3 4 5 6 7 8 9 10
1 161 200 216 225 230 234 237 239 241 242
2 18,5 19,0 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4
3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20
28 4,20 3,43 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91
3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83



TABELE STATISTICE

244





2
1


12 15 20 24 30 40 60 120
1 244 246 248 249 250 251 252 253 254
2 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5
3 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53
4 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63
5 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,37
6 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67
7 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23
8 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93
9 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54
11 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40
12 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30
13 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,25 2,21
14 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13
15 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07
16 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,06 2,01
17 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96
18 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92
19 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88
20 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84
21 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81
22 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78
23 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76
24 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73
25 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71
26 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,75 1,69
27 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,73 1,67
28 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,71 1,65
29 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,70 1,64
30 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62
40 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1,51
60 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39
120 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25
1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,22 1,00


TABELE STATISTICE

245
Tabele
2



Aria Numar grade
de libertate 0,025 0,950 0,975 0,990
1 0 3,842 5,024 6,635
2 0,0501 5,992 7,378 9,210
3 0,216 7,815 9,348 11,345
4 0,484 9,488 11,143 13,277
5 0,831 11,071 12,833 15,086
6 1,237 12,592 14,449 16,812
7 1,690 14,067 16,013 18,475
8 2,180 15,507 17,535 20,090
9 2,700 16,919 19,023 21,666
10 3.247 18,307 20,483 23,209
11 3,816 19,675 21,920 24,725
12 4,404 21,026 23,337 26,217
13 5,009 22,362 24,736 27,688
14 5,629 23,685 26,119 29,141
15 6,262 24,996 27,488 30,578
16 6,908 26,296 28,845 32,000
17 7,564 27,587 30,191 33,409
18 8,231 28,869 31,526 34,805
19 8,907 30,144 32,852 36,191
20 9,591 31,410 34,170 37,566
21 10,283 32,671 35,479 38,932
22 10,982 33,924 36,781 40,289
23 11,689 35,173 38,076 41,638
24 12,401 36,415 39,364 42,980
25 13,120 37,653 40,647 44,314
26 13,844 38,885 41,923 45,642
27 14,573 40,113 43,195 46,963
28 15,308 41,337 44,461 48,278
29 16,047 42,557 45,722 49,588
30 16,791 43,773 46,979 50,892

BIBLIOGRAFIE

247

1. W.J.Westlake: Use of confidence intervals in analysis of
comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 1, 1972.
2. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics
Bul.,180-83,1947
3. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis
of variance, J. Am. Stat. Assoc.,47,583-621,1952
4. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley,
New York, 1973
5. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley,
New York, 1973
6. Chow, S.C. & Liu, J.P. (1992) Design and analysis of bioavailability
and bioequivalence studies. New York, Marcel Dekker (cap. 3) [1].
7. Saporta, C. (1990) Probabilit, Analyse des donnes et statistique.
Paris, Ed. Technip (cap. 15) [2].
8. Vaduva, I. (1970) Analiz dispersional. Bucureti, Ed. Tehnic
(cap. 4) [3].
9. K.A.Brownlee, Statistical Theory and metodology in Science and
Engineering, J. Wiley, New York, 1960
10. D. Ceausescu, Tratarea statstica a datelor chimico analitice, Ed.
Tehnica, Bucuresti, 1973
11. M. Tiron, teoria erorilor de masurare si metoda celor mai mici
patrate, Ed. Tehnica, Bucuresti, 1972
12. F. Gremy, D. Salmon, Bases statistiques pur la recherchemedicale et
biologique, Dunod, Paris, 1969
13. M. R. Spiegel, Probability and statistique, McGraw Hill, New
York, 1980
14. D. Ceausescu, Utilizarea statisticii matematice in chimia analitica,
Ed. Tehnica, Bucuresti, 1980
15. M. Iosifescu, T. Postelnicu, Curs de biomatematica, Univ.
Ecologica, Bucuresti, 1990
16. M. Iosifescu, Gh. Mihoc, R. Teodorescu, Teoria probabilitatilor si
statistica matematica, Ed. Tehnica, Bucuresti, 1966
17. S. Bolton, Statistics, in Remington: The Science and Practice of
Pharmacy, 9 th ed., Mark publ., Easton, Pennsylvania, 1995
18. United States Pharmacopoeia, ed. XXIII, cap. Statistical Procedures
for Bioequivalence Studies Using a Standard Two treatment Crossover
design, 1995
19. P. G. Welling, F.L.S. tse, S. Dighe, Pharmaceutical Bioequivalence,
cap. 3, C.M. Metzler: Statistical criteria, M. Dekker, New York, 1991
BIBLIOGRAFIE

248
20. V.W.Steinijans, D. Hauschke, Update on the statistical analysis of
bioequivalence studies, Int. J.Clin.Pharmacol. Ther. Toxicol,. 28(3), 105
110, 1990
21. M. Rowland (ed), Variability and Drug Therapy: Description,
Estimation and Control, Raven Press, New York, 1985
22. S.C. Chow, J.P.Liu, Design and Analysis of Biovailability and
Bioequivalence Studies, M. Dekker, London, New York, 1992
23. A. Rescigno. A. Marzo, U. Thyroff Friesinger, A new measure of
bioequivalence, 1 st European Congress of Pharmacology, Milano, june
1995, poster nr. 19
24. A Marzo, Open questions in bioequivalence, 1 st European
Congress of Pharmacology, Milano, june 1995, poster nr. 18
25. E. Beyssac, C. Lauro. Marty, H-l Chabard, J-M Aiache, Study of
bioequivalence metrics, 6-th European Biopharmaceutics and
Pharmacokinetics, Atena, aprilie 1997
26. C. Mircioiu, V. Voicu: Degenerated, solutions of pharmacokinetics
models for some lipophilic drugs, Canad. J. Physiol, Pharmacol. 72
(suppl.1), 305, 1994
27. C. Mircioiu, V. Voicu, M. Jiquidi: Mathematical algoritms and
computer programs as source of variability in population drugs, 1-st
Congress of the European Association for Clinical Pharmacology and
Therapeutics, September, 27-30, 1995, Paris
28. C. Mircioiu: Mathematical variability in pharmacokinetics, 6-th
Europ. Congress of Biopharmaceutics and Pharmacokinetics, Atena, 22-24
April 1996, Europ. J. Drug Metab. Pharmacokin. (special issue), abstract
371
29. Choi L., Caffo B., Rohde C., A survey of the likelihood approach to
bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 4894
30. Zhang Z., A law of Likelihood for composite hypotheses, ar
Xiv:0901.0463 (math. ST)
31. W.J.Westlake: Use of confidence intervals in analysis of
comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 1, 1972
32. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics
Bul.,180-83,1947
33. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis
of variance, J. Am. Stat. Assoc.,47,583-621,1952
34. W.H.Kruskal, W.A.Wallis; Use of ranks in the one criterion
analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952
35. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley,
New York, 1973
BIBLIOGRAFIE

249
36. R.A.Fischer, Statistical Methods for Research Works, 13-th
Editions, Hafner, New York, 1958
37. C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs
with active metabolites, Biointernational 2005, Octomber 24
th
-26
th
, London
38. J. Grizzle, Two period change-over design and its use in clinical
trials, Biometric, 21, 467-480, 1965
39. C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30,
209-317, 1974
40. Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and
Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E.
Henney, JAMA 282: 1995, 1999
41. Salim Yusuf: Overview of Result of Randomized Clinical Trials in
Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with
Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988
42. James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not
Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The
American Journal of Cardiology, vol. 85, may 1, 2000
43. Woolf B. On estimating the relationship between blood group and
disease, Human Genet., 19, 251-3, 1955
44. Aird I, Bentall HH, Roberts JAF: The relationship between cancer of
stomach and the ABO blood groups, Brit Med J, 1, 799, 1953
45. Mantel N., Haenszel W, Statistical aspects of the analysis of data
from retrospective studies of disease, JNCI 1959, 22:719-748
46. P.Silocks, An easy approad to the Robins Breslow. Greendland
variance estimation, Epid. Perspectives & Innov. 2, 2005
(http:www.epiperspectives.com/content/2/110)
47. C.Mircioiu, Statistica aplicata in farmacie si studii clinice, Ed.
Universitara Carol Davila, Bucuresti, 2007












CUPRINS
I. ELEMENTE DE TEORIA PROBABILITATILOR
1.1. Campuri de probabilitate 1
1.1.1. Corp borelian 2
1.1.2. Spatii masurabile 3
1.1.3. Probabilitate 5
1.1.4. Probabilitate conditionata 7
1.1.5. Formula probabilitatii cauzelor (Bayes) 7

1.2. Variabile aleatoare 11
1.2.1. Definitie 11
1.2.2. Operatii cu variabile aleatoare 11
1.2.3. Functia de repartitie 12
1.2.4. Densitatea de repartitie 13
1.2.5. Valoarea medie 14
1.2.6. Dispersia 16
1.2.7. Inegalitatea lui Cebasev 18
1.2.8. Teorema lui Bernoulli (legea numerelor mari) 19

1.3. Distributii de probabilitate 21
1.3.1. Distributia normala 21
1.3.2. Distributia binomiala 23
1.3.3. Distributia Poisson 24
1.3.4. Aproximarea normala a distributiei binomiale 25
1.3.5. Repartitia
2
Helmert - Pearson 25
1.3.6. Repartitia STUDENT 27
1.3.7. Repartiia F (Behrens - Fisher Snedecor) sau distribuia
raportului a dou dispersii
28

II. STATISTICA MATEMATICA SI BIOSTATISTICA
2.1. Teorema limita centrala (A.M.Leapunov) 29
2.2. Teorema lui Cebev 29
2.3. Metoda verosimilitatii maxime 30
2.4. Teoria selectiei 31
2.4.1. Populatii si selectii. Inferenta statistica 36
2.4.2. Media de selectie 38
2.4.3. Dispersia de selectie 39
2.4.4. Covarianta de selectie 39
2.4.5. Coeficientul de corelatie de selectie 40
2.4.6. Proprietati ale caracteristicilor de selectie 41


251
CUPRINS

2.5. Estimatii 44
2.5.1. Estimarea intervalului de incredere pentru medii 45
2.5.2. Estimarea intervalului de ncredere 1 pentru diferenei a
dou medii
47
2.5.3. Estimarea intervalelor de ncredere pentru dispersie 50
2.5.4. Estimarea intervalului de ncredere raportul a dou dispersii 50
2.5.5. Utilizarea intervalelor de ncredere n studiile de comparare
a biodisponibilitii medicamentelor
51

2.6. Verificarea ipotezelor statistice 53
2.6.1. Ipoteze asupra mediei 54
2.6.2. Ipoteze asupra diferenelor a dou medii 56
2.6.3. Estimarea dispersiei 58
2.6.3.1 Estimarea raportului a doua dispersii 58
2.6.3.2 Compararea mai multor dispersii: testul Bartlett, testul rapid
Cochran, testul Hartley
59
2.6.3.3 Utilizarea testului t in analiza comparativa a medicamentelor 60

2.7. Teste neparametrice 63
2.7.1. Media si dispersia unui esantion dintr-o populatie finita 64
2.7.2. Testul de rang Wilcoxon 67
2.7.3. Ajustarea pentru valori egale in testul Wilcoxon 70
2.7.4. Teste referitoare la perechi de observatii 71
2.7.4.1 Testul semnelor 71
2.7.4.2 Testul Wilcoxon pentru observatii perechi 73
2.7.4.3 Testul H 74
2.7.5. Alegerea intre testele laplaciene si testele neparametrice 76
2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul
Friedman
77

2.8. Regresia liniara 79
2.8.1. Estimatii si ipoteze asupra coeficientului b 79
2.8.2. Estimarea dispersiei punctelor dreptei de regresie 84
2.8.3. Calculul intervalelor de ncredere pentru dreapta de regresie
n cazul stabilitii formelor farmaceutice
86
2.8.4. Studiul stabilitii medicamentelor 88
2.8.5. Regresia ponderata 89
2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia 95
2.8.7. Stabilirea dreptei de regresie in bioanalitica 100

252
CUPRINS

2.9. Metode statistice de analiza factorilor de variabilitate in
experimentul biologic (ANOVA)
105
2.9.1. Analiza functionala unifactoriala 106
2.9.1.1 Aplicarea ANOVA in testarea ipotezei privind depdendenta
liniara a datelor
109
2.9.1.2 Compararea parametrilor farmacocinetici ai unui medicament
dupa administrarea pe mai multe cai
110
2.9.1.3 Conditii necesare pentru aplicarea analizei dispersionale 112
2.9.2. Analiza dispersionala multifactoriala 114
2.9.2.1 Modelul variabilei aleatoare 116
2.9.2.2 Scindarea sumei patratelor abaterilor 117
2.9.2.3 Variatia unui parametru farmacocinetic atat in functie de calea
de administrare cat si in functie de numarul de administrari
118
2.9.2.4 Compararea biodisponibilitatii unei substante active administrate
in preparate diferite si in perioade diferite de tratament
120


2.10. Estimarea efectelor intr-un experiment standard cross over
prin teste t
121
2.10.1. Modelul statistic 121
2.10.2. Testarea efectului secventei de administrare 122
2.10.3. Efectul direct al medicamentului 125
2.10.4. Efectul perioadei 129

2.11. Estimarea efectelor prin ANOVA 131
2.11.1. Modelul statistic general 131
2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua
medicamente, incrucisat, cu 2 perioade si 2 secvente
134
2.11.3. Calculul variabilitatii interindividuale 137
2.11.4. Calculul efectelor de secventa 138
2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor 139

2.12. Legatura intre ANOVA si testul t in compararea efectelor 143
2.12.1. Compararea intre modelul statistic general si modelul
statistic specific cross over
143
2.12.2. Testarea efectului secventei de administrare folosind metoda
ANOVA
143
2.12.3. Testarea efectului perioadei folosind ANOVA 144


253
CUPRINS
2.13. Estimarea bioechivalentei 147
2.13.1. Metode parametrice de estimare a bioechivalentei 147
2.13.1.1 Metoda intervalului de incredere 147
2.13.1.2 Metoda celor doua testari unilaterale Schuirmann 147
2.13.1.3 Transformarea logaritmica a datelor 148
2.13.2. Metode non-parametrice de estimare a bioechivalentei 149
2.13.3. Compararea rezultatelor metodelor parametrice si non
parametrice in estimarea bioechivalentei unor forme
farmaceutice cu meloxicam
151
2.13.3.1 Estimarea egalitatii mediilor plasmatice folosind testul non
parametric Wilcoxon
153
2.13.3.2 Estimarea bioechivalentei prin calculul non parametric al
intervalelor de incredere
156
2.13.3.3 Estimarea bioechivalentei folosind testul non parametric
Wilcoxon, pornind de la un model care ia in considerare si
efectele de perioada
159
2.13.3.4 Calculul parametric 163
2.13.4. Compararea rezultatelor 165

2.14. Teste statistice de discordanta 167
2.14.1. Constructia testelor de discordanta 168
2.14.2. Criteriul Dixon de respingere a outliers 175
2.14.3. Valori discordante fata de corelatia liniara 176
2.14.3.1 Drepte si puncte discordante 179
2.14.3.2 Voluntari discordanti in studii de bioechivalenta 180

2.15. Puterea testului. Calculul numarului de voluntari 185
2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru
obtinerea unei estimari a mediei cu o precizie fixata
185
2.15.2. Testarea ipotezelor. Calculul numarului de voluntari in
functie de probabilitatile erorilor de tipul I si tipul II fixate
in prealabil
186
2.15.3. Testarea ipotezei privind media unui lot 187
2.15.4. Testarea pentru compararea mediilor a doua populatii 190
2.15.5. Compararea a doua proportii 194
2.15.6. Marimea esantionului pentru comparari de mai multe medii
prin analiza dispersionala (ANOVA)
194
2.15.7. Modelul cross over. Ipoteze punctuale privind egalitati 195
2.15.8. Calculul comparativ al numarului de subiecti necesari in
testarea bioechivalentei terapeutice a medicamentelor
201
2.15.8.1 Calculul in testarea bioechivalentei 201
254
CUPRINS
2.15.8.2 Calculul in testarea echivalentei clinice 202
2.15.8.3 Cazul compararii efectelor clinice 203
2.15.8.4 Cazul aspirinei. 207
2.15.8.5 Calculul numarului de subiecti necesari demonstrarii
echivalentei terapeutice a doua medicamente care sunt
bioechivalente
209

2.16. Distributia binomiala 211
2.16.1. Compararea proportiilor cu testul exact Fisher 211
2.16.2. Tabele de contingenta R x C 217
2.16.3. Teste de independenta la clasificarea dupa doua criterii 221
2.16.4. Tabelele 2x2 corelate 223
2.16.5. Teste de omogenitate 225

2.17. Aplicatii in epidemiologie 227
2.17.1. Studii cohort 227
2.17.2. Studii case report 227
2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case -
report) a riscului din cauza expunerii la un factor dat
228
2.17.4. Intervalul de incredere pentru riscul relativ estimat
retrospectiv (odds ratio) in studiile de control de caz
230
2.17.5. Calcularea marimilor esantionului pentru estimarea unui
risc relativ estimat intr-un studiu case report, cu o precizie
data
231
2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor
privind riscul relativ estimat retrospectiv (OR)
232
2.17.7. Originea conceptului OR (Odds Ratio) propus de ctre
Woolf
233
2.17.8. Metoda Mantel-Haenszel de calcularea OR prin
combinarea mai multor experimente clinice
235

Anexe Tabele statistice pentru z 239
Tabele statistice pentru t 241
Tabele statistice pentru Fischer 243

Tabele statistice pentru
2

245

Bibliografie 247
Cuprins 251


255

S-ar putea să vă placă și