Sunteți pe pagina 1din 253

Constantin Mircioiu

Roxana Colette Sandulovici

STATISTICA APLICATA IN FARMACIE SI STUDII CLINICE


Editia a II a

EDITURA UNIVERSITARA CAROL DAVILA BUCURESTI, 2009

Prof. dr. farm., mat. CONSTANTIN MIRCIOIU Dr. farm., mat. ROXANA COLETTE SANDULOVICI

STATISTICA APLICATA IN FARMACIE SI STUDII CLINICE


Editia a II - a pentru

cursul de biostatistica Facultatea de Farmacie, Universitatea de Medicina si Farmacie Carol Davila, Bucuresti cursul de biostatistica doctoranzi Universitatea de Medicina si Farmacie Carol Davila, Bucuresti

cursul de biostatistica si farmacocinetica Masterul de Biostatistica Facultatea de Matematica, Universitatea Bucuresti

EDITURA UNIVERSITARA CAROL DAVILA BUCURESTI, 2009

PREFATA La numai un an dupa prima aparitie a cartii de fata, conceput initial ca un curs pentru studentii din anul IV ai facultatii de farmacie, contextul stiintific si didactic s-a schimbat semnificativ statistic. In urma experientei cursurilor si seminariilor din cadrul facultatilor de farmacie si facultatilor de matematica a aparut necesitatea de a revizui o parte din material in scopul cresterii ponderii exemplelor din cadrul cercetarilor experimentale si studiilor clinice, mai dificile de urmarit decat exemplele ideale, dar mai ilustrative in ceea ce priveste modul de rezolvare a unor probleme reale, complexe. S-au adaugat in primul rand cateva capitole noi de biostatistica reala: estimarea bioechivalentei prin metode non-parametrice, problema amplu dezbatuta in acesti ani in contextul propunerii de a schimba regulile americane si europene de evaluare a bioechivalentei, estimarea retrospectiva a factorilor de risc in cazul bolilor rare, relatia intre evaluarea bioechivalentei si a echivalentei terapeutice, aplicarea ANOVA in estimarea modelelor liniare. Necesitatea acestor din urma capitole au aparut, in primul rand, in cadrul masteratului de Biostatistica organizat de Facultatea de Matematica in colaborare cu Facultatea de Farmacie si au facut obiectul unor dezbateri multidisciplinare la care au participat matematicieni, medici, farmacisti, chimisti si biologi in cadrul seminariilor de biostatistica aplicata la studiile clinice. O alta directie a dezvoltarii a privit evaluarea statistica a datelor clinice in cadrul unor studii clinice concrete analizate la cursurile si seminariile de biostatistica la scoala doctorala de pe langa Universitatea de Medicina si Farmacie Carol Davila. In final, dincolo de insusirea unor reguli de baza privind evaluarile statistice in capitolele mentionate s-a incercat sa se acrediteze conceptul fundamental privind validarea in spirala: validarea rezultatelor prin analiza statistica, validarea rezultatelor statistice prin evaluarea fenomenologica, remodelarea fenomenelor, extrapolarea experimentului, evaluarea statistica, s.a.m.d. Rezumand intr-o singura fraza bunele intentii ale autorilor - acestia au vrut sa transmita ideea ca aplicarea in analiza datelor clinice numai a bunului simt sau numai a regulilor formale de calcul te pot rataci si uneori chiar sminti. Autorii Bucuresti, 2009

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

1.1. CMPURI DE PROBABILITATE Teoria matematic a probabilitilor pornete de la faptul c fiecrui rezultat posibil al unui experiment aleator, rezultat pe care l vom denumi eveniment, i se asociaz o valoare numeric, numit probabilitatea evenimentului respectiv. Aceast valoare este o caracteristic obiectiv a evenimentului n condiiile experimentului dat. S efectum, de exemplu, un experiment de m ori. Dac n cele m experiene un eveniment A s-a produs de k ori, atunci 0 k m, de unde rezult pentru frecvena relativ: k 0 1 m adic frecvena relativ a unui eveniment este ntotdeauna un numr cuprins ntre 0 i 1. innd cont c frecvena relativ oscileaz n jurul probabilitii evenimentului considerat i c probabilitate este acea caracteristic a evenimentului care ne indic n ce proporii se produce evenimentul n cazul repetrii experimentului de un numr foarte mare de ori, rezult c i probalitatea este tot un numr ntre 0 i 1. Din definiia probabilitii ca generalizare a conceptului de frecven relativ, rezult c probabilitatea unui eveniment imposibil este 0, iar probabilitatea unui eveniment sigur este 1. Evenimentele pot fi simple, n sensul c nu se pot descompune mai departe, sau compuse din alte evenimente ce se petrec simultan. n acest context putem considera dou operaii ntre evenimente. Scriem A B i nelegem prin aceasta un eveniment care const n producerea evenimentelor A i B, simultan. Scriem A B pentru cazul cnd se produce cel puin unul din cele dou evenimente. Fiind date dou rezultate A i B ale unui experiment efectuat de n ori, s presupunem c A s-a obinut de k1 ori i B de k 2 ori. Evenimentul A B, deci obinerea unui eveniment din cele dou rezultate, s-a obinut ca k +k k k atare, de 1 2 = 1 + 2 ori, ceea ce sugereaz o regul de tipul n n n Probabilitate (A B) = Probabilitate (A) + Probabilitate (B) n cele ce urmeaz vom introduce o prezentare axiomatic a conceptului de probabilitate, dup Kolmogorov 1 .
Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din Moscova, a avut contribuii deosebite n analiza matematic, analiza funcional i teoria
1

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

1.1.1. Corp borelian 1.1.1.1. Definiie: Fie E o mulime i K o familie nevid de pri ale lui E, K (E) cu proprietile: 1. A K CA K 2. ( Ai )iN K

Ai K

3. E K Deci, este nchis la operaiile de complementare i reuniune. Se spune, n acest caz, c familia K, mpreun cu operaiile menionate, formeaz un corp bolerian. Denumirea de borelian vine de la matematicianul Emil Borel, unul dintre fondatorii teoriei probabilitilor. 1.1.1.2. Consecin: Un corp borelian este o familie nchis fa de operaiunea de intersecie, indiferent de numrul elementelor sale pe care le intersectm: ( Ai )iN K Ai K Demonstraia se face imediat folosind faptul c proprietile 1 i 2. 1.1.1.3. Propoziie: Fiind dat o familie de corpuri boreliene (Ki )i I , intersecia lor este tot un corp borelian. Demonstratia se face imediat, folosind proprietile corpului borelian i ale operaiilor de intersecie, reuniune i complementare. 1.1.1.4. Definiie:

A = C A
i i i i

probabilitilor. Cartea sa Grundbegriffe der Wahrscheinlichketetsrechnung, Berlin, 1933, a nsemnat o revoluie n teoria probabilitilor, artnd c, formal, aceast teorie se poate trata ca un caz particular de teorie a integralei (sau teoria msurii).

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

Fie H o familie oarecare de pri ale unei mulimi E . H poate fi completat la un corp borelian, numit corpul generat de , dac i se adaug E i toate mulimile ce se formeaz prin reuniune, intersecie i complementare pornind de la elementele H . Dac lum pe dreapt, mulimea intervalelor deschise de forma ( , a ) , a R , corpul borelian generat se numete simplu borelianul pe dreapta i constituie baza teoriei probabilitilor, aa cum va fi ea abordat n prezenta lucrare. Deoarece orice interval nchis se poate obine prin operaiile meionate din intervale deschise i invers, orice interval deschis poate fi generat pornind de la intervale nchise, borelianul pe dreapta este n acelai timp generat de mulimea intervalelor nchise. ntr-adevr, se poate scrie:

[a, b] = =1 a 1 , b + 1 i (a, b ) = =1 a + 1 , b 1 n n
n n n n

1.1.1.5. Definiie: O familie ( Ai )i I se numete desfacere a lui E dac: 1. I este cel mult numrabil; 2. i, j Ai Aj = 3. Ai = E 1.1.2. Spaii msurabile 1.1.2.1.1. Definiie O mulime E mpreun cu un corp borelian K formeaz un spaiu msurabil (E,K). Elementele lui K se numesc mulimi msurabile. 1.1.2.2. Definiie Fiind date (E,K) si (F,L) spaii msurabile, o funcie f: (E,K) (F,L) se numete funcie msurabil dac ndeplinete condiia: A, A L f-1(A) K sau, altfel spus: f-1(L) K 1.1.2.3. Proprieti a) Dac f i g sunt msurabile, atunci f g, f +g i f*g sunt msurabile. 3

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

b) Dac f este continu, atunci f este borelian msurabil. 1.1.2.4. Observaie Se poate face un paralelism ntre spaiile topologice i spaiile msurabile, ntre funciile continue i funciile msurabile. Astfel, o funcie este continu dac preimaginea oricrei mulimi deschise este o mulime deschis iar msurabil este atunci cnd preimaginea oricrei mulimi msurabile este msurabil. Deasemenea, dac f i g sunt dou funcii continue, atunci f + g i f*g sunt continue. 1.1.2.5. Definiie Se numete msur orice funcie pozitiv definit pe corpul mulimilor msurabile, : K R+ , aditiv pe orice familie ( Ai )i I numrabil de mulimi msurabile disjuncte: n, m, An Am = 1 An = 1 ( An )

a) ntr-adevr, dac lum A1 = A , A2 = ( ) = ( ) = 2 ( ) ( ) = 0

( ) = 0

1.1.2.6. Consecine

b) Fie un ir de mulimi A1 A2 ... i fie A = An , atunci ( An ) ( A) Demonstraie: Fie Bn = An + 1 \ An . Mulimile Bn sunt disjuncte i An = B1 B 2 ... Bn . n n Din aditivitatea lui rezult ( An ) = Bi = (Bi ) = sn i =1 i =1 sn s = i =1 Bi = n =1 An = ( A)

Altfel, An = {n, n + 1,...},

A = An i ( Ai ) < ( An ) < ( A)

) (

= dar ( An ) =

1.1.2.7. Exemple a) Fie definit dup cum urmeaz: ( A) = dac A este infinit i ( A) = numrul elementelor din A , dac A este finit. Aceast msur se numete n mod natural msura de numrare. b) Fie un punct exterior x0 E fixat. Definim: 4

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

x ( A) = 0 dac x0 A Msura este utilizat n mecanica cuantic i se numete msura lui Dirac.
0

x ( A) = 1 dac x0 A i
0

1.1.3. Probabilitate Vom defini probabilitatea ca o msur particular. 1.1.3.1. Definiie: Fiind dat un spaiu msurbil (E, K ) . O funcie P: K [0,1] cu proprietile: a) P msur i b) P (E ) =1 se numete probabilitate. Deci, probabilitatea ar fi o msur normat. 1.1.3.2. Proprieti: Pe baza proprietilor msurii i a faptului c P (E ) =1, se pot demonstra cu uurin urmtoarele proprieti: 1. A B P( A / B ) = P( A) P(B ) 2. (n ) , An An + 1 P( An ) = lim n P( An ) 3. (n ) , An An + 1 P( An ) = lim n P( An ) 4. P( A B ) = P( A) + P(B ) P( A B ) 6. P( ) = 0 7. P(CA) = 1 P( A) n contextul teoriei probabilitilor, mulimile msurabile devin evenimente, spaiul msurabil devine cmp de evenimente, iar E devine evenimentul total. 1.1.3.3. Definiie: Un cmp de evenimente (E, K ) nzestrat cu probabilitatea P, se numete cmp de probabilitate. 1.1.3.4. Definiie: Un eveniment care nu mai poate fi inclus n alt eveniment 5 5. P An P( An ) , numit subaditivitate numrabil

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

A K , B K , A B sau A B = se numete eveniment elementar sau atom. 1.1.3.5. Observaii Prezentarea axiomelor teoriei probabilitilor n contexul mai larg al teoriei msurii, dincolo de formalismul simplu i rigoare, ofer i avantajul unor interpretri fenomenologice i picturale pentru unele formule. Astfel, dac probabilitatea este o msur, la fel ca aria pentru figurile plane (Fig. 1), formula: P ( A B ) = P ( A) + P ( B ) P ( A B ) se poate citi ca: aria ( A B ) = aria ( A) + aria ( B ) aria ( A B )

ceea ce pare ca evident.

Fig. 1.

Definiia clasic elementar a probabilitii deriv n mod natural din noiunea de frecven, despre care am vorbit mai sus. Dac un eveniment A se poate realiza n m feluri diferite dintr-un numr total n de evoluii posibile (e j ) j =1, n , egal probabile, atunci :
1 m i b) P ( A ) = n n 1.1.3.6. Exemplu Exemplul clasic de cmp de probabilitate finit l constituie evenimentele ce pot aprea atunci cnd, dintr-o urn n care se afl bile albe i negre se extrag n bile. Dac proporia bilelor albe n urn este p, i deci a celor negre este q = 1 p , probabilitatea evenimentului A, ca din n bile extrase, k s fie albe, conform definiiei clasice definite mai sus, se calculeaz imediat i este: k P ( A) = Cn p k q n k

a) P ( e j ) =

De exemplu, evenimentul ca din trei bile extrase, dou s fie albe a - i una s fie neagr - n - se poate descompune n felul urmtor : A = ( a a n ) ( a n a ) ( n a a ) i 6

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

P ( A) = P ( a a n ) + P ( a n a ) + P ( n a a ) = p 2 q + p 2 q + p 2 q = 3 p 2 q = C32 p 2 q32
1.1.4. Probabilitate condiionat Fie B un eveniment a crei probabilitate este diferit de 0. Probabilitatea unui eveniment A, reprezint proporia n care ne ateptm s se realizeze A n cadrul tuturor evenimentelor cmpului de probabilitate la care aparine A Probabilitatea lui A se mai poate analiza ns i n contextul n care tim c s-a produs anterior evenimentul B. Probabilitatea evenimentului A condiionat de B se noteaz, n acest caz, cu: P(A/B) sau PB(A). Dac s-a constatat experimental o frecven de apariie kA i, respectiv kB, pentru A i B, frecvena relativ de apariie a lui A, cnd deja a aprut B, va fi: kAB k AB = n P (A B ) kB kB P (B ) n n acest context apare natural definiia probabilitii evenimentului A, condiionat de B, prin formula: P (A B ) PB ( A) = P (B ) Un caz special l constituie acela n care probabilitatea de apariie a evenimentului A este aceiai, indiferent dac s-a produs sau nu evenimentul B: P(A) = PB(A) Spunem, n acest caz, c evenimentele A i B sunt evenimente independente. Observm c, rescriind formula anterioar P(A B ) P( A B ) = PB( A) * P(B ) = P( A) * P(B ) PB ( A) = P(B ) se poate lua ca definiie c dou evenimente sunt independente atunci cnd: P ( A B ) = P ( A) * P ( B ) 1.1.5. Formula probabilitii cauzelor (Bayes) Fie A1, A2,, An o desfacere a lui E pe care, n contextul teoriei probabilitilor, o numim sistem complet de evenimente. Ea reprezint n acelai timp o desfacere pentru E ct i pentru orice eveniment X E . E = Aj

X = ( Ai X )

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

S presupunem c i, P( Ai ) 0 . n aceste condiii avem urmtoarea teorem: 1.1.5.1. Teorema probabilitii cauzelor Probabilitatea producerii oricrui eveniment X, este egal cu suma probabilitilor de producere a lui X, condiionate de evenimentele complete ale sistemului ( Ai )i = 1, n i P(Aj )PAj (X ) PX ( Aj ) = P( Ai )PAi( X ) Demonstraie:

Dat fiind c evenimentele Ai X sunt disjuncte, avem P( X ) = P( Ai X ) .

P (X Aj ) P (X ) P ( Aj ) P ( X Aj ) P (X Aj ) P ( Aj ) deci, PX(Aj) = = = P( Ai X ) P ( Ai ) i P ( Ai X ) i P ( Ai )
Din definiie avem PX(Aj) =

P( Aj )PAj ( X ) P( Ai )PAI ( X )

PX(Aj) poate fi interpretat ca fiind probabilitatea ca X s aib cauza Aj. n acest caz, formula calculeaz probabilitatea lui X n funcie de probabilitile cauzelor care ar fi putut determina evenimentul X. Probabilitile P(Ak) se numesc apriorice, pentru c ele se cunosc nainte de eveniment. Probabilitile PX(Aj) sunt probabilitile acelorai cauze, dar dup ce s-a ntmplat evenimentul X, i se numesc din acest motiv, probabiliti aposteriorice. Exemplu, cnd un pacient intoxicat este adus la urgen el prezint anumite simptome i medicul, folosind experiena sa, rezultatele determinrilor n snge i un sistem computerizat elaboreaz o list cu probabilitile ca intoxicaia s se fi fcut cu o anumit substan. n fizica statistic parametrii termodinamici sau cuantici ai unui sistem rezult din nsumarea unui numr foarte mare de evenimente. Probabilitatea de trecere de la o stare iniial la o stare final este dat de suma probabilitilor de trecere pe anumite ci Ai ponderate fiecare cu 8

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

probabilitatea, sau altfel spus ponderea lor, p(Ai). Deoarece numrul cilor poate fi de puterea continuului, n locul sumelor apar integrale. Sau, dac s-ar produce o crim, aposteriori, ne punem problema ierarhizrii suspiciunilor privind potenialii criminali. Problema nu este de loc teoretic dac suntem de exemplu o societate de asigurri sau dac testul este un test de malignitate. Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor din lumea aceasta i legtura lor cu cauza final Dumnezeu. Formula probabilitii cauzelor ne arat cum se transform probabilitile apriorice n probabiliti aposteriorice, dup apariia evenimentului X. De exemplu, tiind c un medicament se absoarbe n, i se elimin din snge pe mai mult ci, cu diferite probabiliti date de considerente fizico-chimice i fiziologice, n funcie de rezultatul unor determinri a concentraiei ale acestora n sngele unui pacient, ne putem pune problema stabilirii ponderilor efective ale acestor ci, n scopul individualizrii tratamentului. 1.1.5.2. Observaie: Putem deasemenea s considerm cazul particular al desfacerii evenimentului total n dou evenimente A i complementul su CA. Formula lui Bayes devine n acest caz: PA( X )P( A) PX(A) = PA( X )P( A) + PCA( X )P(CA) 1.1.5.3. Aplicaie: Dac, de exemplu, P(B) este proporia (probabilitatea) unei boli n populaie i cunoscnd proporia n care un test diagnostic este pozitiv la bolnavi PB(+) i la sntoi PNB(+) putem calcula probabilitatea ca un pacient la care rezultatul testului este pozitiv s fie bolnav: PB ( + ) P ( B ) P+ ( B ) = PB ( + ) P ( B ) + PNB ( + ) P ( NB ) unde: PB ( + ) este probabilitatea ca un bolnav s fie catalogat pozitiv de ctre test i se numete sensibilitatea testului. PNB ( ) este probabilitatea ca un sntos s fie catalogat negativ de ctre test i se numete specificitatea testului. 9

I.

Elemente de teoria probabilitatilor Campuri de probabilitate

Problema devine teribil de important dac, de exemplu, este vorba de un test de depistare a cancerului

10

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.VARIABILE ALEATOARE 1.2.1. Definiii: a) Se numete variabil aleatoare (ntmpltoare sau statistic) o funcie real f definit pe mulimea K a evenimentelor, cu proprietatea c, oricare ar fi numrul real a, mulimea x K pentru care f ( x ) a este un eveniment din K . n termeni de teoria msurii, o variabil aleatoare este o funcie f : ( E , K , P ) ( R, B ) , msurabil. Practic vorbind avem definit probabilitatea ca variabila s aib valori mai mici dect orice numr dat a. b) O variabil aleatoare se numete variabil aleatoare simpl dac ia un numr finit de valori: f : E R , f ( E ) finit i P ( f ( x ) = xi ) = P ( f 1 ( xi ) ) = pi c) Vom lucra, n cele ce urmeaz, ca regul, cu variabile aleatoare independente, adic variabile ce iau valori independente una de cealalt: P (( f ( x ) = xi ) (g ( y ) = y j )) = P ( f ( x ) = xi ) * P (g ( y ) = y j ), xi , y j 1.2.2. Operatii cu variabile aleatoare: Se poate verifica uor c variabilele aleatoare formeaz o algebr, adic suma, i produsul a dou variabile aleatoare este tot o variabil aleatoare; mai mult compunerea a dou variabile aleatoare este tot o variabil aleatoare. Trebuie n acest context s fim ateni la independena sau nonindependena variabilelor aleatoare implicate n operaie. De exemplu putem citi X+X unde X este o variabil aleatoare n dou feluri. Putem, de exemplu, s considerm un experiment repetat de dou ori rezultatele fiind independente 1 2 1 2 2 3 4 1 1+1 1 = 1 1 1, 2 2 2 2 4 2 4 n timp ce, dac considerm c X i X nu iau valori independent, atunci 2 4 X + X = 2X = 1 1 2 2 11

I.

Elemente de teoria probabilitatilor Variabile aleatoare

Putem reprezenta grafic aceste probabiliti. 1 2 3 De exemplu, X = 1 1 1 apare sub forma 4 2 4

Fig. 2 Reprezentarea probabilitatilor

grafica

Fig. 3 Curba cumulativ a distribuiei

1.2.3. Functia de repartitie Funcia de repartiie asociat lui f este funcia F ( x ) , F : definit de formula: F ( x ) = P ( f x ) = P ( f 1 ( , x ) )

[ 0,1]

Importana acestei funcii const n faptul c, dac F ( x ) este dat se poate determina probabilitatea ca f s ia valori ntr-un interval I , oricare ar fi acel interval. 1 n cazul n care f ia un numr finit de valori, de exemplu { ,2,3}, cnd cunoatem P( f k ) k = 1,2,3 , cunoatem practic i P( f = k ) k = 1,2,3 . ntr-adevr, P( f = 1) = P( f 2) P( f = 2) = P(( f 3) ( f 2)) = P( f 3) * P( f 2) = P( f 3) * (1 P( f 2)) P( f = 3) = 1 P( f = 1) P( f = 2)

Ca regul general: P ( f = k ) = 1 P ( f k + 1) P ( f k ) Deci am determinat o distribuie de probabilitate care poate fi reprezentat sub forma unei matrici: 1 2 3 P( f = k ) = p p p 2 3 1

12

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.3.1.Proprieti Funcia de repartiie are urmtoarele proprieti: a) a b F ( a ) F ( b ) b) lim F ( a ) = 0 c) lim F ( a ) = 1


a + a

d) F este continu la stnga.

1.2.3.2. Dac F este continu spunem c f este variabil aleatoare continu. n acest caz, probabilitatea ca f s ia orice valoare particular este 0 , P ( f ( x ) = ) = 0

1.2.3.3. Exemplu : Dac ne punem problema probabilitii ca temperatura n camer s fie t =20,347562 aceasta este evident zero i de fapt problema nici nu are sens n msura n care temperatura este o valoare medie n jurul creia avem fluctuaii continue. Dac ne punem problema ca temperatura s fie ntr-un anumit interval noiunea de funcie de repartiie capt un coninut concret. 1.2.4. Densitatea de repartitie Fie F ( x ) funcia de repartiie a unei variabile aleatoare . Dac exist o

funcie ( x ) , integrabil pe intervalul ( ,+ ) , cu proprietatea c pentru


F x atunci, ( x ) se numete densitatea de repartiie sau densitatea de

orice x

este verificat egalitatea:

( x) =

probabilitate a variabilei aleatoare , n acest caz, probabilitatea ca variabila aleatoare s ia valori ntr-un interval ( , a ) este dat de formula:

P ( ( x ) a ) = F ( a ) = ( t )dt i respectiv:
a

P ( b ( x ) a ) = F ( a ) F ( b ) = ( t )dt ( t )dt = ( t )dt


b a b

13

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.5. Valoarea medie Se numete valoare medie (sau speran matematic) a unei valori aleatoare f, numrul M ( f ) = xipi , atunci cnd este o variabil aleatoare simpl i,

respectiv

M(f )=

x ( x )dx , atunci cnd este o variabil aleatoare continu,

cu densitatea de probabilitate . n literatur, operatorul de medie se mai noteaz i cu E, de la expectation speran n englez. n cazul variabilelor simple se observ c valoarea medie a variabilei f este media ponderat a valorilor sale xi, cu ponderile pi, care reprezint frecvenele de apariie ale valorilor respective.
1.2.5.1.Proprieti ale mediei: Dac f i g sunt independente, atunci avem: a) M ( af ) = aM ( f )

b) M ( f + g ) = M ( f ) + M ( g ) c) M ( f * g ) = M ( f ) * M ( g ) Vom schia o demonstraie a proprietii b): M ( f + g ) = k ,l P ( Fk Gl )( xk + xl ) =


= k

( P ( F G )) x + (
l k l k l

P ( Fk Gl ) xl

Dar, pe de alt parte, folosind proprietile interseciilor i reuniunilor de mulimi, respectiv distributivitatea interseciei fa de reuniune i a interseciei fa de reuniune, i faptul c l Gl = E avem

P(F
l

Gl ) = P Fk
k

( G )) = P ( F )
l l k

i similar, Deci,

P(F
k

Gl ) = P ( Gl )

M ( f + g ) = k P ( Fk )xk + l P ( Gl )xl = M ( f ) + M ( g )

14

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.5.2. Definitie: a) Noiunea de medie se generalizeaz, definindu-se momentul de ordin k al unei variabile aleatoare: M k ( f ) = xik pi , atunci cnd este o variabil aleatoare simpl i

respectiv,

Mk ( f ) =

x k ( x ) dx , atunci cnd este o variabil aleatoare

continu. b) Se numete moment centrat de ordin k al variabilei aleatoare f momentul de ordinul k al abaterii sale fa de medie. k M kc ( f ) = (xi f ) p i
c i respectiv, k =

[x M ( f )] (x )dx
+

,n cazul unei variabile aleatoare

continue. Dispersia de selecie, sau varianta unui ir de rezultate numerice ale unui experiment este media aritmetic a ptratelor abaterilor acestor valori fa de media lor aritmetic X . Dac x1 , x2 ,..., xn sunt cele n valori ale seriei, dispersia de selecie a
2 acestora, s X , este:
2 sX

n Dup cum vom vedea mai departe la statistic, o formul mai util
n 1 Dispersia de selectie este indicatorul principal al mprtierii datelor unui experiment. Dispersia unei variabile aleatoare este conceptul ce generalizeaz dispersia de selecie.
2 pentru dispersia de selecie este: s X

(x X ) =
i
i

(x X ) =

15

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.6. Dispersia Dispersia variabilei aleatoare X se noteaz cu D ( X ) sau 2 i este, n particular, momentul centrat de ordinul doi:
+ 2 D ( X ) = 2 = M ( X M ( X ) ) = ( x M ( X ) ) ( x ) dx , atunci cnd variabila aleatoare este continua, i respectiv 2 2 2 = M ( X M ( X ) ) = ( xi X ) pi , atunci cnd variabila aleatoare este discret. Rdcina ptrat a dispersiei, , se numete abaterea medie ptratic a variabilei X, iar sx abaterea standard.

a) b)

1.2.6.1.Proprieti Pentru orice variabil aleatoare X i orice constante a i b D ( aX + b ) = a 2 D ( X )

Dac X, Y sunt dou variabile aleatoare independente D ( X + Y ) = D ( X ) + D (Y )

Demonstraie: Pentru orice dou variabile aleatoare X i Y , cu mediile X i respectiv Y , avem

D ( X + Y ) = M ( X + Y X Y ) = M ( X X ) + M (Y Y ) +
2 2 2

+2M ( X X )(Y Y ) = D ( X ) + D (Y ) + 2M ( X X )(Y Y ) Dar, atunci cnd X i Y sunt independente M ( XY ) = X Y ,


M ( X X )(Y Y ) = M ( XY X Y Y X + X Y ) = = X Y X Y X Y + X Y = 0

M ( X X )(Y Y ) = 0 i deci D ( X + Y ) = D ( X ) + D (Y )

c) ntre dispersie, valoarea medie i momentul de ordinul doi exist relaia:

D ( f ) = M ( f 2 ) ( M ( f ))

Demonstraie:

16

I.

Elemente de teoria probabilitatilor Variabile aleatoare


2

2 2 = M ( f 2 ) 2 X + X = M ( f 2 ) ( M ( f ) )

2 D ( X ) = ( xi X ) pi = xi2 pi 2 xi X pi + X pi = 2

1.2.6.2.Observaie

Dac numim M ( f 2 ) media ptratului si

( M ( f ))

ptratul

mediei formula capt o formulare uor de reinut:Dispersia este egal cu media ptratului, minus ptratul mediei. 2 2 Relaia se mai poate scrie sub forma M ( X 2 ) = X + X i am putea s-o numim teorema lui Pitagora n probabilitate.
1.2.6.3.Exemplu n modelul clasic al urnei cu bile pe care l-am prezentat mai sus, probabilitatea evenimentului din n bile extrase, k sunt albe era k p k = C n p k q nk . Media variabilei aleatore X care da numrul de bile albe din n bile extrase va fi, prin definiie, k M ( X ) = kCn p k q n k

Pentru a calcula aceast sum considerm urmtoarea identitate n ( pt + q ) = Cnk p k t k q nk , pe care o derivm n raport cu t

(( pt + q ) ) = ( C
n

k n

p k t k q n k )

np ( pt + q )

n 1

Am obinut, deci, M ( X ) = np Folosind aceiai identitate, dar derivnd de dou ori se arat c: D ( X ) = npq . Cunoaterea mediei i dispersiei unei variabile aleatoare d o indicaie asupra intervalului n care se afl valorile variabilei, cu cea mai mare probabilitate. Mai exact, dup cum arat teorema urmtoare, cu ct ne ndeprtm mai mult de valoarea medie, cu att valorile respective sunt mai puin probabile ca valori ale variabilei date.

k t = 1 np = Cn p k kq n k

k = Cn p k kt k 1q n k i apoi facem

17

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.7. Inegalitatea lui Cebev

Dac 2 este dispersia variabilei aleatoare X , probabilitatea ca modulul abaterii sale de la valoarea medie s ia valori mai mari dect un numr 0 este mai mic dect

2 . 2

2 P( x m ) 2
Demonstraie: 2 2 Pornim de la definiia dispersiei 2 = M ( xi m ) = ( xi m ) p i

i mprim suma n doi termeni: unul corespunztor valorilor xi pentru care

xi m i unul corespunztor valorilor lui xi pentru care xi m .

2 = ( xi m ) pi =
2

xi m

( x m)
i

pi +

xi m

( x m)
i

pi

Dac neglijm primul termen al sumei i minorm nlocuindu-l cu n al doilea termen, se obine 2 2 pi = 2 p k1 + p k2 + ... + p kn ,
xi m

xi m

cu p k1 + p k 2 + ... + p kn suma
x ki m .

probabilitilor

valorilor

xk i pentru

care

2 2 P ( x m ) ceea ce implic urmtoarea relaie:


P( x m )

Dar pk1 + pk2 + ... + pkn = P ( x m ) i deci am obinut

2 . 2 Deoarece suma ntre probabilitatea unui eveniment A i probabilitatea evenimentului contrar CA este 1, avem P ( CA) = 1 P ( A) i inegalitatea se mai poate scrie sub forma 2 P ( xi m ) 1 2

18

I.

Elemente de teoria probabilitatilor Variabile aleatoare

1.2.7.1.Exemplu:

Fie = 3 , atunci inegalitatea Cebev d: 1 8 P ( xi m 3 ) = 1 = = 0.88 9 9 Exprimat n cuvinte, aceast inegalitate aparent banal, spune din punct de vedere fenomenologic, enorm de mult:
Probabilitatea ca orice variabil aleatoare s ia valori mai ndeprtate de valoarea sa medie dect de trei valori standard, este mai mic dect 0,12.

Vom vedea mai departe c, n cazul n care variabila aleatoare are suplimentar unele proprieti de regularitate, aceast probabilitate este chiar mult mai mic. Aceiai inegalitate ne permite nelegerea legturii ntre frecvena i probabilitate, legtura care exprim nsi fundamentarea statisticii pe teoria probabilitilor. S considerm variabila aleatoare care d numrul de bile albe ntr-o extracie de n bile din urn. Pentru aceast variabil avem urmtoarea teorem, care se generalizeaz n teoria probabilitilor n forme care depesc ns cadrul acestei lucrri.
1.2.8. Teorema lui Bernoulli (legea numerelor mari):

Dac se noteaz cu p probabilitatea ca un eveniment A (de exemplu k apariia bilei albe) s se realizeze ntr-un experiment i f n = este n frecvena cu care se realizeaz evenimentul A n n experimente identice consecutive, irul ( f n ) converge ctre p n probabilitate. Altfel spus:
Frecvena experimentala tinde n probabilitate la probabilitatea teoretic.

19

I.

Elemente de teoria probabilitatilor Variabile aleatoare

Demonstraie: k lim n P p = lim n P( k np n ) = lim n P( k M (k ) n ) n Dar, aplicnd inegalitatea lui Cebev: P ( k M (k ) n )

2 i deci n 2 2

k 2 lim n P p lim n 2 2 = 0 n n Teorema lui Bernoulli afirm numai c inegalitatea f n p nu

are ansa s fie realizat sau c inegalitatea f n p are anse mari s fie ndeplinit dac n este suficient de mare

20

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

1.3. DISTRIBUII DE PROBABILITATE 1.3.1. Distribuia normal Spunem c o variabil aleatoare este normal repartizat N m, 2 , atunci cnd densitatea sa de probabilitate este data de formula:

1 2 (x, m, ) = e 2 2 O prim condiie ca ( x ) s fie distribuie de probabilitate este aceea

( x m )2

(x )dx = P( f (t ) +) = 1

Pentru a verifica aceast condiie, vom demonstra mai intai, folosind integrala dubl, ca:

x2 2

dx = 2
+ x2 2 0

Fie I = e
2 + 0

dx = e
0

y2 2

dy ,
x2 + y 2 2

I = e

x2 2

dx * e
0

y2 2

dy = e
D

dxdy

Facem schimabarea de variabila: x = cos si y = sin unde

( 0 , ) si 0 , .
2 Vom obtine:

I =
2

2 0

2
2

d d =

2
0

2
2

d = e
2

2
2

+ = 0 2

Am obtinut ca I 2 = Dar,

I =
+ x2 2

2 2
2 = 2 2

x2 2

dx = 2* e

dx = 2* I = 2*

n cazul nostru, dac facem schimbarea de variabil u =

xm

(x )dx =

1 2

( x m )2
2 2

avem

dx =

u2 2

du = 1
21

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

Vom arta n continuare c o variabil aleatoare normal repartizat are media m i dispersia 2 . S calculm mai nti media:

M [X ] = 1

2
+

xe

( x m )2
2 2

dx =
2

(x m + m)e

( x m )2
2 2

dx =

(x m) 2 = e 2

1 xm

dx + m =

ue

u2 2

2 du + m = 0 + m = m

Integrala este nul deoarece funcia de integrat este impar. Pentru calculul dispersiei ne folosim de identitatea: D ( X ) = M X M ( X ) = M ( X 2 ) M ( X )
2 2

M X

( )
2

=
=

1 2
1 2

+ + 1 1 2 2 = x 2e 2 dx = (m + u ) e 2 du = 2 2 2 2 u u u2 + 2 2 2 m e 2 + 2m u e 2 + u e 2 du = u2 2 + 2 2 m 2 + u e 2 du

( x m )2

u2

Calculm separat integrala rmas i obinem: 2 u2 u2 u2 u + + + + 2 2 2 2 2 u e du = u ue du = ue 1* e


u2 2

du = 2

unde am integrat prin pri, lund u = i ue = 1 Deci am obinut M (X 2 ) = m 2 2 + 2 2 i nlocuind n 2 expresia lui D( X ) obinem: 1 D( X ) = m 2 2 + 2 2 m 2 = 2 2 Pornind de la proprietile operatorilor de medie i dispersie M ( X m) = M ( X ) m D( X m ) = D( X ) i

22

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

X 1 D = 2 D ( X ) a a se obine c, dac o variabil aleatoare este normal repartizat N (m, ) , X m variabila aleatoare redus este repartizat N (0,1) , deci cu distribuia

de probabilitate

(x ) = e

x2 2
t x2 2

Funcia de repartiie asociat este funcia (t ) = e

dx numit

funcia lui Laplace i ale crei valori se gsesc n tabelele din practic toate crile de statistic i probabiliti.

1.3.2. Distribuie binomial Distribuia binomial apare, aa cum s-a artat mai sus, la descrierea evenimentelor asociate extraciilor dintr-o urn cu bile albe i bile negre. Distribuia variabilei aleatoare numrul de bile albe din n bile extrase se poate reprezenta i sub form matricial: 1 k n 0 X = 0 0 n C p q C 1 p1 q n 1 ... C k p k q n k ... C k p n q 0 n n n n Dup cum am artat media i dispersia unei variabile aleatoare repartizate binomial sunt M = np si D = npq

Repartiia binomial apare ntotdeauna atunci cnd un experiment cu numai dou rspunsuri posibile se repet de n ori. Un caz particular l prezint experimentele care se repet de un numr foarte mare de ori, iar evenimentul n a crui apariie suntem interesai are o probabilitate foarte mic, categorisit uzual ca eveniment rar. La limit, cnd n , p 0 , dar np rmne constant, np = , se obine distribuia Poisson.

23

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.3. Distribuia POISSON Considerm deci c np = i trecem la limit dup n


lim n C p q
k n k nk

= lim n

n ( n 1) ... ( n k + 1) k 1 = *lim n lim n 1 k k! n n n(n 1)...(n k + 1) dar lim n =1 nk


nk

n(n 1)...(n k + 1) k 1 k! nk n

nk

lim n 1 n

nk

n = lim n 1 n

nk ( ) n

= e i deci,
nk

k! Deci, distribuia Poisson este dat de matricea k n 1 0 ... k n ... X = e e e e 1! k! n! Calculnd, dup definiie, media i dispersia unei variabile aleatoare distribuite Poisson i innd cont c

limn C p q

k n

k 1 k
k
k!

k
k 0

k!

=e

k 0

k
k!

= e

k 2

k (k 1)

k
k!

= 2 e

= e se obine

M ( X ) = k 0 k

k e
k!

=e

(k 1)! = e (k 1)! = e e =
k 1 k 1

k 1

k 2k kk k = e k 0 2 k 0 + 2 k 0 = k! k! k! k! k k k = e k 1 [k (k 1) + k ] 2e = e k 2 k (k 1) + k 1 k 2 = k! k! k! = e (2e + e ) 2 = D( X ) = e k 0 24

(k )2 k

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.3.1. Exemplu: Numrul evenimentelor adverse la un medicament dat este repartizat Poisson. Cel mai mult este utilizat distribuia Poisson n fizica statistic. 1.3.4. Aproximarea normal a distribuiei binomiale Ca o regul general, dac np i nq sunt mai mari sau egale cu 5, poate fi folosit aproximarea normal. Pentru distribuiile binomiale n care p<0,5 aproximarea este bun pentru valori ale lui np i nq mai mici dect 5. k p k np n = n aceste condiii, este aproximativ normal distribuit cu pq npq n media 0 i deviaia standard 1. Aceast transformare nlesnete de obicei calculul probabilitilor binomiale. 1.3.5. Repartitia 2 Helmert - Pearson Se consider n observaii independente x1, x2, , xn (variabile aleatoare independente) normal distribuite N ( m, 2 ) .

, i = 1, n sunt de asemenea independente, iar suma ptratelor lor va avea o distributie ce poate fi determinat. n Se definete X = 1 u i2 .

Variabilele standard ui =

xi m

Distribuia variabilei X rezultate se noteaz 2(n) i este diferit pentru fiecare valoare a lui n, iar parametru n se definete ca numrul de gradelor de libertate. Vom determina n continuare parametrii (media i dispersia) unei variabile distribuite 2. Pentru a afla media distributiei 2 este necesar aflarea lui M u i2 .

[ ]

Deoarece M [u i ] = 0 , M ( ui2 ) = M ( ui2 ) M ( ui ) = D [ui ] = 1


2

n n Ca urmare M 2 ( n ) = M 1 ui2 = 1 M ui2 = n *1 = n Dispersia va fi:

25

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

D 2 ( n ) = D 1 ui2 = 1 D ui2 =
n n 2 = nD ui2 = n M ( ui4 ) M ( ui2 ) = n M ( ui4 ) 1 Pentru a obine M u i4 se folosete regula integrrii prin pri:

f (x )g (x )dx = f (x )g (x ) f (x )g (x )dx
g (x ) = e
4

[ ]

n acest caz se va identific:


4 i + 4

f ( x ) = u 3 f ( x ) = 3u 2

u2 2

g ( x ) = ue
1 du = 2

u2 2

, deci se va obine:
3 u2 2

M u = u ( u ) du = u 1 3 u2 u e 2 Atunci,
2

1 e 2
2

u2 2

u ue ue
2

du =

+ 1 2

u 3u e 2
+ 2

1 du = 3 2

u2 2

du = 3M u 2 = 3

D u i2 = M u i4 (M [u i ]) = 3 (1) = 2 i substituind n relaia de mai sus se va obine D 2 ( n ) = nD ui2 = 2n


2 2
2 2 Deci variabila x 2 = x12 + x 2 + ... + x n este repartizat 2(n), cu n grade de libertate, avnd: media E ( 2 ) = n , respectiv

[ ]

[ ]

dispersia D ( 2 ) = 2n .
2

Se poate arta c densitatea de probabilitate este dat de funcia


n 1 1 f ( ) = e 2 ( 2 )2 , n n 22 2 unde este funcia Euler de spea I-a studiat la cursul de matematic i
2

anume : ( ) = et t 1dt .
0

Repartitia 2 se folosete foarte mult n statistica matematic n verificarea ipotezelor asupra egalitii dispersiilor.

26

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.6. Repatiia STUDENT

Analog cu distribuia 2 , repartiia t a fost propus de Student (pseudonimul lui W.S.Gosset, chimist statistician englez), pentru statistica seleciilor mici i exprim deviaiile mediilor de selecie x , fa de media s (abaterea standard a mediilor de ntregii populaii , msurate n n selecie). Dac sunt date dou variabile aleatoare Z N (0,1) si V 2 (n ) independente, se spune c variabila Z Tn = T (n) V n este repartizat Student cu n grade de libertate. Mrimea t nu depinde dect de numrul gradelor de libertate. Distribuia de probabilitate a unei variabile aleatoare repartizate Student tinde pentru n , la distribuia normal (t )

1 2 e 2

t2

Densitatea de probabilitate este dat de funcia: n +1 n +1 2 1 2 * 1 + x 2 unde x R i n N . f ( x) = * n n n 2

27

I.

Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.7. Repartiia F (Behrens - Fisher Snedecor) a raportului a dou dispersii

Se consider frecvent n statistic raportul a dou dispersii care estimeaz aceeai dispersie general a unei colectiviti. Dintr-o colectivitate general se extrag dou selecii U 2 (n1 ) , V 2 (n2 ) . Raportul lor este o variabil aleatoare repartizat F U n F = 1 F (n1 , n2 ) V n2 Examinnd acest raport se observ c el nu conine dispersia colectivitii generale 2 , de unde rezult c distribuia acestui raport nu depinde dect de numrul gradelor de libertate n1 si n2 ale celor dou dispersii. Densitatea de probabilitate este dat de funcia: n +n n1 n +n 1 2 1 2 n1 2 * n1 2 * x n2 1 * 1 + n1 * x 2 , f ( x) = n1 n2 n2 n2 * 2 2 cnd x 0 .

28

II.

Statistica matematica si biostatistica Teorema limita centrala

II. STATISTIC MATEMATIC I BIOSTATISTIC Statistica matematic este principala aplicaie a teoriei probabilitilor. Procedeele statistice constau, n esen, n elaborarea unor concluzii plauzibile privitoare la colectiviti mari de fenomene, pe baza cunoaterii unui numr restrns dintre acestea i extrapolrii rezultatelor. Legile care stau la baza statisticii i care permit aceste generalizri sunt teorema limit central i legea numerelor mari. ntr-o exprimare intuitiv, avem rezultatul c, dac o variabil este suma unui numr mare de variabile aleatoare aleatoare independente, fiecare variabil aleatoare avnd o pondere mic n sum, atunci funcia de repartiie a variabilei aleatoare este foarte apropiat de o funcie de repartiie normal. Exprimat mai riguros i mai general, avem urmtoarea teorem: 2.1. Teorema limit central (A.M.Leapunov)
3 Fie M ( k ) = ak , D ( k ) = k2 i k = M ( k a k

Fie 1 , 2 ,..., n variabile aleatoare independente.

cnd k = 1, n

Notm (2n ) = 1 i2 , (3n ) = 1 i3


n n

Dac lim n

(n ) = 0 , atunci funcia de repartiie a variabilei (n ) 1 + 2 + ... + n (a1 + a2 + ... + an ) (n ) tinde, cnd n , ctre funcia ( x ) a lui Laplace.
x t2

1 ( x ) = e 2 dt 2 Teorema limit central este teorema fundamental a teoriei erorilor. Laplace, Gauss i ali matematicieni, studiind repartiia erorilor, au ajuns la concluzia c funcia de repartiie normal poate fi luat drept model teoretic pentru cercetarea probabilistic a aproape tuturor fenomenelor naturii.

29

II.

Statistica matematica si biostatistica Teorema limita centrala

2.2. Teorema lui Cebev Dac 1 , 2 ,..., n sunt variabile aleatoare (discrete sau continue) independente ale cror dispersii sunt mai mici dect o constant C, atunci oricare ar fi numrul pozitiv , probabilitatea inegalitii 1 + 2 + ... + n M ( 1 ) + M ( 2 ) + ... + M ( n ) n n tinde ctre 1, atunci cnd numrul variabilelor aleatoare tinde ctre infinit. Demonstraie: + 2 + ... + n S considerm variabila aleatoare = 1 . Avnd n n vedere liniaritatea operatorului de calcul a mediei avem M ( 1 ) + M ( 2 ) + ... + M ( n ) M = . n Aplicnd inegalitatea lui Cebev variabilei aleatoare se obine:

( )

+ 2 + ... + n M ( 1 ) + M ( 2 ) + ... + M ( n ) P 1 1 n n

+ 2 + ... + n D 1 n

Mai departe, din proprietile operatorului D + 2 + ... + n D( 1 ) + D( 2 ) + ... + D ( n ) C + C + ... + C nC C = 2 = D 1 = n n2 n2 n n Deci


+ 2 + ... + n M ( 1 ) + M ( 2 ) + ... + M ( n ) C 1 2 P 1 n n n Trecnd la limita pentru n obinem + 2 + ... + n M ( 1 ) + M ( 2 ) + ... + M ( n ) lim n P 1 1 n n i cum probabilitatea nu poate depi 1, + 2 + ... + n M ( 1 ) + M ( 2 ) + ... + M ( n ) lim n P 1 = 1 n n

30

II.

Statistica matematica si biostatistica Teorema limita centrala

Cel mai frecvent, n practic, variabilele aleatoare i au aceiai medie i concluzia teoremei devine + 2 + ... + n = 1 lim n P 1 n n esen, teorema lui Cebev stabilete c, dei variabilele aleatoare independente pot lua valori ndeprtate fa de mediile lor, media aritmetic a unui numr suficient de mare de astfel de variabile aleatoare ia cel mai probabil valori apropiate de un numr constant M ( 1 ) + M ( 2 ) + ... + M ( n ) (sau atunci cnd mediile variabilelor sunt n egale ntre ele). Ca urmare, ntre comportarea fiecrei variabile aleatoare i comportarea mediilor lor exist diferen esenial. Putem spune foarte precis ce valoare va lua media aritmetic a acestor variabile aleatoare. Explicaia acestui fapt const n aceea c abaterile diverselor variabile aleatoare sunt de semne diferite i, ca urmare, se compenseaz ntre ele. 2.3. Metoda verosimilitatii maxime Metoda verosimilitatii maxime da ca estimatie a parametrului aceea valoare care face maxima functia de verosimilitate. Valoarea lui care maximizeaza functia de verosimilitate maximizeaza si logaritmul functiei de verosimilitate. Astfel estimatia de verosimilitate maxima (EVM) este o valoare a lui care maximizeaza functia de verosimilitate si logaritmul functiei de verosimilitate. In cele mai multe probleme cu un singur parametru necunoscut, multimea valorilor parametrului : ( H ) este un interval al ln P ( x, ) 2 ln P ( x, ) si 2 vor exista in toate punctele interioare ale multimii ( H ) EVM se gaseste ca radacina a ecuatiei de verosimilitate ln P ( x, ) =0 2 ln P ( x, ) O radacina a ecuatiei de verosimilitate in care 0 este 2 un punct de maxim relativ. 31 dreptei reale. Derivatele

II.

Statistica matematica si biostatistica Teorema limita centrala

Printre radacinile ecuatiei de verosimilitate pot aparea si puncte de minim relativ. Asrfel este necesar sa determinam semnul derivatei de ordinul doi sau sa se verifice daca radacina obtinuta este un maxim relativ. Apar situatii in care nu poate fi obtinut rezolvand ecuatia de verosimilitate. De exemplu, maximul global al functiei de verosimilitate poate sa se realizeze pe frontiera spatiului parametrilor ( H ) Aplicatie: Fie X 1 , X 2 ,..., X n variabile aleatoare independente (si identic repartizate) binare cu P ( X 1 = 1) = p = ( 0 , 1) . Cand

( X1 , X 2 ,..., X n ) = ( x1 , x2 ,..., xn )
n 1 xi

este observata, functia de , unde x = xi .


i =1 n

verosimilitate este:
l ( p ) = p xi (1 p )
i =1

= p n x (1 p )

n 1 x

( )

Pentru a gasi EVM pentru parametrul p , trebuie sa determinam maximul functiei l ( p ) sau echivalent al functiei de log verosimilitate care este L ( p ) = ln l ( p ) . Se observa ca L nx n 1 x = =0 1 p p p

are ca unica solutie p = x ( 0 , 1) (pentru x {0 , 1} se poate verifica separat ca unicul punct critic al lui L este tot p = x ). Cum 2 L nx n 1 x = 2 0 p 2 p (1 p )2

putem concluziona ca p = x este unicul punct de maxim al lui L , si prin urmare x este unicul EVM pentru p.

32

II.

Statistica matematica si biostatistica Teorema limita centrala

Aplicatie: repartizate cu repartitia normala N ( , 2 ) , unde Fie X 1 , X 2 ,..., X n variabile aleatoare independente, identic

= ( , 2 ) =

(0 , )

sunt parametri necunoscuti, iar n 2 . Pentru o observatie ( X 1 , X 2 ,..., X n ) = ( x1 , x2 ,..., xn ) , functia de logverosimilitate este:
L ( ) = ln l ( ) = 1 2
2

(x )
i =1 i

n n ln 2 ln ( 2 ) 2 2

dat fiind ca, in acest caz,


1 2 f ( x ) = e 2 2 Rezolvand din nou o problema standard de extrem (pentru functia de 2 variabile L ), gasim ca unicul punct de maxim al lui L , si deci unicul EVM pentru = ( , 2 ) este dat de:
2 1 n 1 n xi ; 2 = n xi x n i =1 i =1 Astfel gasim o proprietate specifica repartitiei normale: media si abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate maxima (EVM-uri) pentru media si dispersia populatiei.

( x )2

=x=

Aplicatie: In multe teste de laborator se iau probe din apa unui rau pentru a se vedea daca apa este buna pentru inot. In particular prezinta interes concentratia in bacterii coliform a apei. Numarul de bacterii coliform este determinat pentru fiecare din cele n probe din apa raului. S-a obtinut rezultatele x1 , x2 ,..., xn . Problema care se pune este de estima pe , media numarului de bacterii coliform in unitatea de volum a apei raului. Presupunem ca bacteriile sunt dispersate la intamplare in apa raului si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. Atunci probabilitatea de a gasi xi bacterii intr-o proba de volum unitate este data de repartitia Poisson: 33

II.

Statistica matematica si biostatistica Teorema limita centrala

, unde xi = 0,1, 2,... si 0 . x! Deoarece volumele disjuncte sunt independente, probabilitatea celor n masuratori x1 , x2 ,..., xn este x n i e n P ( x, ) = f ( xi ) = n i =1 xj !
j =1

f ( xi ) =

x e
i

Avem: ln P = xi ln n ln P ( x, ) Daca =

n si

2 ln P ( x, )
2

0,

ln P ( x, )

= 0 are solutia unica =

1 xi = x . n

In acest punct a doua derivata este negativa, ceea ce indica ca avem un maxim relativ. Deoarece P ( x, 0 ) = 0 si P ( x, ) 0 cand , x este un maxim absolut. Daca

= 0 , ecuatia

ln P ( x, )

= 0 nu are solutie si maximul

se realizeaza pe frontiera spatiului parametrilor: = 0 . Astfel, in fiecare caz, avem = x . Probabilitatea variabilelor de selectie este maxima daca media populatiei este estimata prin media de selectie x . Observam ca

1 1 M ( X i ) = nn = n ceea ce arata ca = x este un estimator nedeplasat pentru . M =M X =

( )

( )

34

II.

Statistica matematica si biostatistica Teorema limita centrala

Observatie:

Cu ajutorul functiei de verosimilitate se construieste unul dintre cele mai utilizate teste statistice pentru modele parametrice: testul raportului de verosimilitate.

Definitie: Fie

X un esantion dintr-o populatie P = P

},

pentru care se considera urmatorul set de ipoteze : H 0 : 0 vs. H A : 1 unde 0 1 = si 0 1 = . Se numeste test al raportului de verosimilitate LR 1,2 (Likelihood ratio test) orice test care respinge ipoteza H 0 daca si numai daca

( X ) c [ 0 , 1] , unde:

(X ) =

sup 0 l ( ) sup l ( )

Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 - 4894 2 Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST)

35

II.

Statistica matematica si biostatistica Teorema limita centrala

2.4. TEORIA SELECIEI 2.4.1. Populaii i selecii. Inferena statistic

n practic avem adesea nevoie s facem judeci asupra unor mari colecii de rezultate posibile experimental ori a altor cantiti, dar nu putem sau este extrem de scump, s examinm toate aceste date. n astfel de cazuri, n loc s examinm ntregul set de date pe care l numim n cele ce urmeaz populaie, tragem concluziile dup examinarea a o parte din ele, alese la ntmplare, parte pe care o numim selecie. Procedeul de obinere a probelor este numit tot selecie, iar procedeul de extrapolare a concluziilor la ntreaga populaie este cunoscut ca inferena statistic. Vom considera c o caracteristic dat a populaiei este o variabil aleatoare pe un cmp de probabilitate (, K, P ) n care elementele lui sunt chiar elementele populaiei, iar P este o probabilitate cunoscut sau nu. Enumerarea valorilor observate ale caracteristicii urmrite i a frecvenelor lor relative definete repartiia statistic a seleciei. Teorema lui Leapunov, numit i teorema fundamental a statisticii matematice, care justific utilizarea metodei seleciei stabilete c funcia de repartiie statistic a caracteristicilor seleciilor tinde la funcia teoretic de repartiie a caracteristicii studiate cnd volmul seleciei tinde la .
2.4.1.1. Exemplu Putem dori s tragem concluzii despre evoluia rezistentei unei tulpini de germeni patologeni la un medicament dat i, n acest scop, examinm rezultatele antibiogramelor fcute ntr-un eantion de spitale ntro perioad recent (luniile de iarn), comparat cu aceeai perioad a anului precedent. Dei rezultatele obinute se refer la spitale i mai precis numai la o parte din ele, concluziile le extindem la scara ntregii populaii. 2.4.1.2. Exemplu Rezultatele privind absorbia unui medicament dup administrarea oral prin determinarea nivelurilor din plasma ale medicamentului la un lot de voluntari sntoi le considerm ca rezultate probabile pentru ntreaga populaie ce include i poteniali pacieni. Populaia poate fi infinit sau finit, n ultimul caz, numrul indivizilor populaiei N- se mai numete i volumul populaiei. n mod

36

II.

Statistica matematica si biostatistica Teorema limita centrala

similar, numrul de indivizi sau valori din cadrul unei probe este denumit volumul probei sau volumul eantionului. Valabilitatea concluziilor despre populaie depinde de reprezentativitatea probei. Pentru populaii finite aceasta nseamn c fiecare membru al populaiei are aceeai ans s fie selectat, cnd spunem c selecia este o selecie la ntmplare sau selecie aleatoare. Desigur c selecia unor voluntari sntoi pentru determinarea parametrilor farmacocinetici ai unui medicament nu este din acest punct de vedere o selecie reprezentativ. n cazurile n care avem motive s credem c patologia creia se adreseaz medicamentul nu afecteaz funciile metabolice i de excreie, aceast aproximare este acceptat pentru motivul c o selecie corect ar implica loturi mult mai mari cu cheltuieli i timp de lucru mult crescute. n practic, n studiile de bioechivalen, pentru reducerea volumului loturilor pe care se fac testrile, se administreaz amndou medicamentele la toi membri lotului, n dou perioade diferite. Fiecare component al lotului primete unul din medicamente n prima perioad i cellalt n a doua perioad. Deoarece perioada de administrare poate influena i ea rezultatul experimentului, alegerea indivizilor care vor primi n prima perioad primul medicament se face n mod aleator. n cazul cnd sunt mai multe perioade, de exemplu I-IV, i mai multe medicamente A, B, C, D se alctuiete un tabel de felul urmator
Tabelul nr. 1:

I II III IV A B D C B C A D C D B A D A C B aa zisul ptrat latin, unde observm c fiecare liter apare o singur dat n fiecare linie i n fiecare coloan. Se numete ptrat latin deoarece, cum se va arata mai departe, n cazul n care mai intervine i o alt variabil, de exemplu doza din fiecare medicament, se folosesc i litere grecesti, alctuindu-se ptrate greco-latine. Deasemenea, studiile de bioechivalen se fac tot pe voluntari sntoi, pornind de la ipoteza c modificrile de biodisponibilitate asociate strilor patologice sunt aceleai pentru cele dou medicamente testate, ceea ce, evident, este numai n parte adevrat. n toate experimentele biologice, planificarea experimentului trebuie fcut n aa fel nct diferenele n tratament s nu coincid cu diferene n

37

II.

Statistica matematica si biostatistica Teorema limita centrala

vrst, sex, sau ali parametri. Dac, de exemplu, femeile din lot primesc primul medicament i brbaii al doilea, se spune ca diferenele de sex sunt confundate cu diferenele de tratament. n acest caz nu se poate spune dac diferenele obinute se datoreaz tratamentului sau diferenei de sex.
2.4.1.3. Parametrii de selecie ai unei variabile aleatoare : Dac printr-un procedeu oarecare cuantificm rspunsul culturilor microbiene la antibioticele din exemplul 1, sau dac lum n consideraie concentraiile de medicament n snge, din al doilea exemplu, i probabilitile ca valorile s aparin unor intervale diferite, obinem o variabil aleatoare X asociat cu rezultatul experimentului corespunztor. Parametrii acestei variabile aletoare sunt denumii, prin abuz de limbaj, parametri ai populaiei. Dac n exemplul al doilea Xi este concentraia de medicament n sngele bolnavului i, la o or de la administrare, la primul voluntar putem obine o valoare x1, pentru al doilea voluntar o valoare x2, etc. n acest fel gsim valorile x1 , x 2 ,..., x n ale varibilelor aleatoare independente X 1 , X 2 ,..., X n . 2.4.2. Media de selecie este o variabil aleatoare: X + X 2 + ... + X n X = 1 n Dac distribuia lui X este normal - N ( , ) , aceiai pentru fiecare i, datorit linearitii operatorului M care definete media, obinem M X = X = adic valoarea pentru media mediei de selecie este media

( )

populaiei.

Dac la datele experimentale se adaug o constant, X i = X i + a ,


n

(X media de selecie crete cu aceeai constant: W =


1

= X +a n Similar, dac fiecare valoare se nmulete cu o constanta Z i = kX i ,


n
1

+ a)

kX media de selecie Z se nmulete cu aceeai contant: Z =


n

= kX

38

II.

Statistica matematica si biostatistica Teorema limita centrala

2.4.3. Dispersia de selecie Ca o msur a abaterii datelor fa de media de selecie, se introduce 2 1 n 2 noiunea de dispersie de selecie S X = xi X . n 1 1 n aplicaiile practice, pentru reducerea numrului de calcule, formula se aduce la o alt form i anume: 2 2 1 1 n n n 2 sX = 1 xi X = n 1 1 xi2 2 X 1 xi + n X = n 1 2 2 1 n = 1 xi2 2n X + n X = n 1 2 n 2 1 n 2 1 n 2 1 xi xi n X = xi n 1 1 n 1 1 n 2 2 2 Dac zi = kxi + a sZ = k s X . ntr-adevr 2 2 1 n 1 n 2 2 sZ = 1 zi Z = n 1 1 kxi + a k X a = k 2 sX n 1 s X se numete abaterea standard de selecie sau deviaie standard, cnd nu este pericol de confuzie privind variabila aleatoare la care se refer folosindu-se i notaia sd . Se mai utilizeaz n practic i noiunile: 2 1 n Dispersiapopulaiei = 1 xi X i respectiv n 1 Deviaia standard a populaiei, precum i abaterea standard a mediei (prescurtarea SEM standard error of mean) definit prin s raportul SEM = X n s precum i coeficientul de variatie v = x *100 . X

2.4.4. Covarianta de selecie Covarianta de selecie 1 n s XY = xi X y i Y n 1 1

)(

se

definete

prin

formula

39

II.

Statistica matematica si biostatistica Teorema limita centrala

Se observ c aceasta se mai poate scrie i sub alt form, mai util n sensul simplificrilor de calcul n anumite aplicaii. 1 n n n s XY = 1 xi yi X 1 yi Y 1 xi + n X Y = n 1 1 n = 1 xi yi n X Y n X Y + n X Y = n 1 n n 1 1 n n 1 xi 1 yi xi yi n X Y = n 1 1 xi yi n n 1 1

2.4.5. Coeficientul de corelaie de selecie Coeficientul de corelaie de selecie se definete prin formula n 1 1 xi X yi Y s n 1 ( x, y ) = XY = = 2 2 s X sY n n 1 1 xi X n 1 1 yi Y n 1 1

)(

( x X )( y Y ) (x X ) ( y Y )
n 1 i i n 2 n 1 i 1 i

2.4.6. Proprieti ale caracteristicilor de selecie Considerm n continuare o selecie de volum n dintr-o populaie cu media si dispersia 2 2.4.6.1. Propoziie Media mediei de selecie este egal cu media populaiei. M X =

( )

Demonstraie: M ( xi ) M ( xi ) n = = = M X = n n n

( )

2.4.6.2. Propoziie Media dispersiei de selecie este egal cu dispersia populaiei 2 M ( sX ) = 2

Demonstraie:

40

II.

Statistica matematica si biostatistica Teorema limita centrala

n 1 2 M ( sX ) = M 1 xi X n 1 2 2 1 n M 1 xi2 2n X + n X n 1 2 n 1 xi 1 n = M 1 xi2 n 1 n Dar, mai departe

1 M = n 1 1 = M n 1

( ( x n X ) =

n n 1 2 i 2

x 2 2 X 1 xi + 1 x 1 i
n n

)=

n ( n 1) M ( xi ) M ( x j ) = 2 = n ( 2 + 2 ) + n ( n 1) 2 = n 2 + n 2 2 = 1 M ( xi2 ) + 2
n

( x ) = n ( + ) M ( x ) = M x + 2
M
n 1 2 i 2 2
n 2 n 1 i 1 2 i

n 1 i j

xi x j =

i M (s
2 X

nlocuind

n n 1

expresia =2

lui

)=

n ( 2 + 2 ) 2 n 2

2 M ( sX )

obinem

2.4.6.3. Propoziie

Variabila aleatoare Z =

tinde , cnd n ctre o variabil

N (0,1)

Aceasta este o consecin a teoremei limit central i este aplicabil att variabilelor continue ct i celor discrete. ntr-adevr aplicnd teorema lui Leapunov pentru variabilele aleatoare x, , x2 ,..., xn obinem c:

x1 + x2 + ... + xn (1 + 2 + ... + n )

2 + 2 + ... + 2
tinde ctre o variabil aleatoare N (0,1) .

nX n n 2

41

II.

Statistica matematica si biostatistica Teorema limita centrala

2.4.6.4. Propoziie Dac variabila aleatoare X este normal distribuit, atunci variabila s2 aleatoare V = (n 1 ) X2 este repartizat 2 (n 1) Demonstraie:

V = (n 1)

2 sX

2
2

(x =
n 1 n

) = [(x
n 1

) X

)]

(x =
n 1

) 21 (xi ) X + 1 X
n

(x =
n 1 n

) 2 n X n X + n X
2

2 2

)(

) (

=
2

2 ( xi ) n X n x i 1 X = = 1 2 n x Dar variabila aleatoare i este repartizat N (0,1) deoarece

x D( xi ) x M ( xi ) M i i D i = 1 , iar = = 2

(X )

este

repatizat tot N (0,1) n conformitate cu teorema limit central. Deci, V este o sum de n-1 ptrate de variabile de tip N (0,1) .
2.4.6.5. Propoziie Dac x1 , x2 ,..., xn este o selecie dintr-o populaie normal distribuit, atunci variabila aleatoare X T = este repartizat Student cu n grade de libertate. s n Demonstraie:

42

II.

Statistica matematica si biostatistica Teorema limita centrala

X = s n unde Z = X

n s

(x
n

n X

(n 1) 2

Z V n 1

este repartizat N (0,1) , iar

(x X ) V =
n 1 i

este

n repartizat (n 1) . Deci, T este repartizat Student cu n-1 grade de libertate.


2

2.4.6.6. Propoziie Date fiind dou selecii aleatoare independente x11 , x12 ,..., x1n1 si
x 21 , x 22 ,..., x n2 din populaii normal distribuite N (1 , 1 ) i N ( 2 , 2 ) ,

S12 variabila aleatoare F=

12
2 S2 2 2

este

repartizat

Fisher

Snedecor

F (n1 1, n2 1) Demonstraie: Avem ntr-adevar

F=

12
2 2 2 S2

S12

(x
n1 1

(x
n2 1

(n1 1) 12
2i

1i

X1

(n2 1) 22

X2

iar numratorul i numitorul sunt repartizate, conform propozitiei 2.3.5.4., 2 (n1 1) 2 (n2 1) i . respectiv n1 1 n2 1

43

II.

Statistica matematica si biostatistica Teorema limita centrala

2.5. Estimaii Teoria estimaiei urmrete evaluarea parametrilor unei repartiii n general cunoscute. Valorile numerice obinute se numesc estimaii sau estimatori. Se obin estimaii punctuale n cazul n care se folosesc datele seleciei pentru a obine valorile parametrilor i estimaii ale intervalelor de ncredere n cazul n care se determin un interval n care se afl, cu o anumit probabilitate valoarea estimat. Un estimator al parametrului se va nota cu . O estimaie este nedeplasat dac M = , adic media estimaiei este egal chiar cu

()

valoarea teoretic a parametrului estimat. Conform proprietii 2.3.5.1, M X = adic media de selecie

( )

este un estimator nedeplasat al mediei, iar conform proprietii 2.3.5.2., M ( s 2 ) = 2 adic dispersia de selecie este un estimator nedeplasat al dispersiei. Problema estimrii intervalelor se reduce la gsirea unui interval de ncredere ( L , U ) cu un coeficient de ncredere 1 astfel nct P( L U ) = 1 . Este de dorit ca 1 s fie ct mai mare (de obicei este cuprins ntre 0,9 i 0,99) iar intervalul ( L , U ) s fie ct mai mic. n stabilirea intervalelor se utilizeaz caracteristicile numerice cuantile. Se numesc cuantile de ordin valoarea x a variabilei aleatoare x pentru care
F (x ) = P (x x ) = adic valoarea variabilei aleatoare care are la stnga

ei aria sub curba densitii de probabilitate. Evident:


P x x1 = 1 P x x = 2 2 2 2 P x x x1 = 1 = 1 2 2 2 2 Pentru a estima un interval se alege 1 , se citesc din tabelele cuantilele, de exemplu x i x i se precizeaz intervalul. n prealabil, n
1 2 2

funcie de mrimea pentru care se caut intervalul se precizeaz cu care din repartiiile cunoscute trebuie lucrat.

44

II.

Statistica matematica si biostatistica Teorema limita centrala

2.5.1. Estimarea intervalelor de ncredere pentru medii 2.5.1.1.Cazul cnd se cunoaste dispersia. Se consider o populaie repartizat normal N , 2 . Dac se cunoate X dispersia se poate folosi faptul c Z = este repartizat N (0,1) . Se

noteaz cu z cuantila de ordinul pentru repartiia N (0,1) . Evident

P z Z z = F z F z = 1 = 1 1 1 2 2 2 2 2 2 Aadar intervalul z , z este un interval de estimare cu coeficientul 2 1 2 de ncredere 1 . Din anumite puncte de vedere este recomandabil s se utilizeze acele intervale care las att la dreapta ct i la stnga lor aceeai arie, egal cu . 2 Deoarece repartiia N (0,1) este simetric fa de axa Oy avem relaia z = z
2 1 2

Din relaiile
z
1

Z z

n z X z rezult
X z
1

* *

X z

n *

X +z

X +z

Aadar intervalul cutat este ( L , U ) = X z1 , X + z1 n n 2 2

45

II.

Statistica matematica si biostatistica Teorema limita centrala

Mrimea E = z

poart numele de eroare i servete la calculul


2

z 1 numrului de experiene n = 2 atunci cnd este impus eroarea i se E alege un coeficient 1 Metoda descris mai poate fi aplicat i n cazul n care x nu este repartizat normal deoarece z este repartizat N (0,1) indiferent de repartiia variabilelor X 1 , X 2 ,..., X n (teorema limit central).

2.5.1.2.Cazul cnd dispersia este necunoscut Dac nu se cunoaste dispersia n estimarea intervalelor se utilizeaz dispersia de selecie care este un estimator nedeplasat al dispersiei deoarece 2 E ( sX ) = 2
2 Se consider x1 , x 2 ,..., x n o selecie dintr-o populaie de tipul N ( , X ) .

Conform celor artate anterior mrimea T =

T (n 1) i, ca urmare =1 =1 P t T t = Ft Ft n 1, n 1,1 2 2 2 2 n 1,1 2 n 1, 2 Deoarece repartitia Student este simetric fa de origine t = t i nlocuindu-l pe T n relaia anterioar, se obine
n 1,1

X este repartizat sX n

n 1,1

X = Pt t = 1 n 1,1 sX n 1, 2 2 n sX s i X t X +t n 1,1 n 1,1 n n 2 2 Ca urmare intervalul cutat este Pt T t n 1,1 2 n 1, 2

46

II.

Statistica matematica si biostatistica Teorema limita centrala

( L ,U ) = X tn1,1

n acest caz eroarea este E = t

sX sX , X +t n 1,1 n n 2

sX n 1,1 n 2 Dac numrul de experiene este n 30 , se poate folosi aproximaia t = z


n 1,1

2.5.2.Estimarea intervalului de ncredere 1 pentru diferena a dou medii Se consider dou selecii din populaii normal repartizate N 1 , 12 i 2 N 2 , 2 .

2 selecie x 21 , x 22 ,..., x 2 n2 dintr-o populaie N ( 2 , 2 ) .

Considerm o selecie aleatoare x11 , x12 ,..., x1n1 din populaia N (1 , 12 ) i o

2 2.5.2.1. Cazul dispersiilor 12 , 2 cunoscute.

Estimatorii nedeplasai ai mediilor 1 i 2 sunt: X 1


X2

n1

x1i

n1

si

n2

x2 i

n2

Considernd variabila aleatoare X 1 X 2 , ea este normal repartizat iar estimaia i dispersia ei vor fi M ( X 1 X 2 ) = M ( X 1 ) M ( X 2 ) = 1 2 i D X1 X 2 = D X1 + D X 2 =

) ( ) ( )
)

12
n1

2 2

n2

unde am inut cont c x1i i x 2i

sunt independente. Mai departe, variabila aleatoare X 1 X 2 ( 1 2 ) X 1 X 2 ( 1 2 ) este repartizat N(0,1). Z= = 2 12 2 D X1 X 2 + n1 n2

47

II.

Statistica matematica si biostatistica Teorema limita centrala

Deoarece, P z Z z 1 2 2

= 1 i z = z1 rezulta 2 2
2 2

+ 1 2 X 1 X 2 + z + 1 n1 n2 n1 n2 2 Aadar, intervalul de estimaie pentru diferena mediilor este 2 2 2 2 (1 , 2 ) = X 1 X 2 z1 1 + 2 , X 1 X 2 + z1 1 + 2 n1 n2 n1 n2 2 2


1

(X

X2 z

12

12

22

n acest caz, eroarea este E = z

12
n1

2 2

n2

2.5.2.2. Dispersii necunoscute dar presupuse egale n cazul n care nu cunoatem dispersiile dar tim c sunt egale 2 2 1 = 2 = 2 utilizm dispersia ponderat de selecie
s2 = p

( n 1) s12 + ( n2 1) s22 = n1 1 n2 1 2 s12 + s2 = 1 n1 + n2 2 ( n1 1) + ( n2 1) ( n1 1) + ( n2 1)


n1 1i

(x =
1

X1

) + (x
2 n2 1

2i

X2

n1 + n2 2

ca un estimator nedeplasat pentru 2 . Avem ntr-adevr, ( n1 1) M ( s12 ) + ( n2 1) M ( s22 ) ( n1 1) 12 + ( n2 1) 22 2 2 M ( sp ) = = = n1 + n2 2 n1 + n2 2 n continuare vom arta c mrimea T = repartizat T (n1 + n2 2)

(X

X 2 (1 2 ) este 1 1 sp + n1 n2

48

II.

Statistica matematica si biostatistica Teorema limita centrala

(X
Se observ c T =

X 2 (1 2 )

1X2

sp

X
sp 1 1 + = n1 n2

1X2

1 1 + n1 n2

este raportul ntre o variabila

aleatoare repartizat N(0,1) i deoarece sp

1X2

1 1 + n1 n2
n

sp s2 1 1 p + = = = 2 n1 n2 x1i X 1 x X2 + n2 2i 1 n1 + n2 2
2 2

(x
n1 1

1i

X 1 + 1 2 x2i X 2
2

(n1 + n2 2) 2

n1

variabila

sp

1X2

1 1 este de tipul + n1 n2
2

2 (n1 + n 2 2 )
n1 + n 2 2
2

x X1 n 2 x2 i X 2 2 este Dar 1 1i este repartizat (n1 1) iar 1 2 repartizat (n2 1) , deci T este repartizat T (n1 + n2 2) i
n1

P t = 1 T t = 1 n1 + n2 2, n1 + n 2 2 ,1 2 2 2 2 Deoarece repartiia Student este simetric t = t


n1 + n2 2 , 2

n1 + n2 2 ,1

rezult c

X1 X 2 t
Deci,

n1 + n 2 2,1

sp

1 1 1 1 + 1 2 X 1 X 2 t + sp n1 + n 2 2 ,1 n1 n2 n1 n2 2
1 1 1 1 , X1 X 2 + t sp + + n + n 2 2 ,1 n1 n2 n1 n2 2 21 1 1 + . n1 n2

(1 , 2 ) = X 1 X 2 tn + n 2,1 s p

1 2

cu eroarea E = t

n1 + n2 2 ,1

sp

49

II.

Statistica matematica si biostatistica Teorema limita centrala

2.5.3. Estimarea intervalelor de ncredere pentru dispersie Considerm o selecie de volum n dintr-o populaie normal N , 2 .

Conform celor artate anterior variabila aleatoare V = repartizat 2 (n 1) i ca urmare

( n 1) s
2

este

P 2 V 2 = 1 = 1 n 1,1 2 2 n 1, 2 2 (n 1)s 2 2 (n 1)s 2 . s2 Deci, 2 (n 1) 2 2 si 2 n 1, n 1,1 2 2 2


n 1,1 2 n 1, 2

2 o selecie x 21 , x 22 ,..., x 2 n2 dintr-o populaie N ( 2 , 2 ) .

2.5.4. Estimarea intervalului de ncredere pentru raportul a dou dispersii Se consider selecia aleatoare x11 , x12 ,..., x1n1 dintr-o populaie N , , 12 i

s12 Conform cu cele artate anterior, raportul F =

12
2 s2 2 2

este repartizat

F (n1 1, n2 1) i deci P f = 1 F f = 1 n1 1, n2 1, n1 1, n 2 1,1 2 2 2 2 2 2 2 2 s2 s Rezult c 2 f , iar intervalul de f 2 s1 n1 1, n 2 1, 2 12 s12 n1 1, n 2 1,1 2 estimaie pentru raportul dispersiilor este: 2 2 ( L , U ) = s22 f n 1, n 1, , s22 f n 1, n 1,1 s 1 2 s1 1 2 2 2 1

50

II.

Statistica matematica si biostatistica Teorema limita centrala

2.5.5. Aplicaie: Utilizarea intervalelor de ncredere n studiile de comparare a biodisponibilitii medicamentelor 3

La introducerea n terapie de ctre un productor a unui medicament ce reprezint o reproducere a altui medicament deja n uz, se pune problema comparrii biodisponibilitii acestora. n practic se cere ca raportul ariilor de sub curbele concentraiilor plasmatice ale celor dou medicamente s se afle in intervalul 0,8 - 1,25. 0,8

T AUC 1, 25 R AUC

unde indicele T se refer la medicamentul testat i R desemneaz medicamentul referin. Atunci ns cnd ariile de sub curb prezint variabiliti intra i interindividuale considerabile (determinrile de biodisponiblitate se fac pe loturi de circa 10 20 de voluntari sntoi) este de preferat a se determina un interval de ncredere pentru media ariei realizat de medicamentul nou. X R X T ( R T ) este repartizat Pornind de la faptul ca T = 1 1 sp + nR nT

T ( nR + nT 2 ) se deduce un interval de ncredere cu probabilitatea 1


XT X R t

pentru T R
1

T R X T X R + t

1 1 + . nR nT Dup cum se va arta mai departe, aceast estimare este puin util n caz c s p reprezint practic intervariabilitatea, iar interschimbabilitatea care necesit bioechivalen trebuie s se bazeze pe intravariabilitate.
unde am notat s = s p

W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 1, 1972

51

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

2.6. Verificarea ipotezelor statistice Ipoteze statistice Ipotezele statistice sunt ipoteze asupra repartiiei unor variabile aleatoare. Ele se refer fie la parametrii repartiiei, fie la legea propriu zisa de repartiie. Teste statistice Metodele de verificare a ipotezelor se bazeaz pe teste statistice care constau n examinarea seleciilor obinute pentru o variabil aleatoare i a unor funcii de elementele seleciilor. Notaii conventionale Ipoteza testat, presupus adevarat, se numete ipoteza nul i se noteaz H0. Testarea necesit i formularea unei ipoteze complementare, numit ipotez alternativ i notat HA. Dac se accept H0, n mod normal se respinge HA i invers. Din acest motiv, ipotezele H0 si HA se aleg s fie complementare. Dac testul privete valoarea unui parametru , de exemplu H 0 : = 0 i H A : = 1 se poate ntmpla ca toi ceilali parametri ce caracterizeaz distribuiile s fie cunoscui i, dup acceptarea uneia din cele dou ipoteze, distribuiile ( x, 0 ) i (x, 1 ) devin complet definite. n acest caz, ipotezele sunt numite simple. Dac ns ceilali parametric nu sunt cunoscui complet, ipotezele se numesc ipoteze compuse. De exemplu, dac distribuia este normal i parametrul cautat este , iar dispersia este necunoscut, suntem n cazul unei ipoteze compuse. Probabilitatea unei decizii gresite La verificarea ipotezelor se pot comite dou feluri de erori: 1. Erorile de tipul 1 constau n respingerea ipotezei H0 atunci cnd aceasta este adevrat. 2. Erorile de tipul 2 constau n acceptarea ipotezei H0 atunci cnd aceasta este fals. Probabilitatile celor dou tipuri de erori se noteaz de obicei cu respectiv : = P (respinge H0 / H0 adevrat) = P (accept H0 / H0 fals) = P (respinge HA / HA adevrat) 53

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

Deci, este riscul de a respinge n mod greit H0 i este riscul de a respinge n mod greit HA. Probabilitatea de a respinge ipoteza H0 atunci cnd aceasta este fals = 1 se numete puterea testului. Coeficientul este numit i nivel de semnificaie. Desigur c este de dorit ca valorile i s fie ct mai mici. Valoarea lui se alege i n funcie de importana implicaiilor acceptrii sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca bun pentru majoritatea problemelor din practic. Dac ns este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat a alege ntre 0,01 si 0,05. Pentru a verifica o ipotez se folosesc datele de selecie pentru calcularea unui test statistic. Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea se numete regiune critic. Metodologia de verificare cuprinde n principiu urmtoarele etape: 1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o repartiie pentru populaia statistic din care se face selectia; 2. se formuleaz ipoteza; 3. se calculeaz valoarea testului ales i se compar cu limitele de acceptare, respectiv respingere; 4. se accept sau se respinge, n funcie de rezultat, ipoteza H0. 2.6.1. Ipoteze asupra mediei 2.6.1.1.Dispersia cunoscut Se consider o selecia dintr-o populaie normal N , 2 . Considerm

variabila aleatoare X . Datorit linearitii operatorului de mediere avem: n xi nM ( xi ) n = M X = M 1 = 1 = n n n Pentru dispersia lui X inem cont c D 2 (ax + b ) = a 2 D 2 ( x ) i c rezultatele xi reprezint variabile aleatoare independente 2 2 2 D (xi + x j ) = D ( xi ) + D (x j ) .

( )

n xi n aceste condiii se obine D 1 n


2

D ( x ) = n
n 2 1 i

n2

n2

2
n

54

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

Ca urmare a teoremei limit central, variabila aleatoare X E X X = este repartizata N (0,1) . DX n Avem n acest caz, dac vom alege un risc , ipotezele i criteriile de acceptare sau respingere conform cu tabelul de mai jos:

( ) ( )

Tabelul nr. 2:

H0

= 0

HA 0

Regiunea critic Zz
1

Z z

= 0

Z z1

= 0

Z z1

2.6.1.2.Dispersia necunoscut n acest caz se nlocuiete n formula anterioar cu estimaia sa X s X i se ine cont c variabila aleatoare T = este repartizat Student sX n cu n-1 grade de libertate.

55

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

2.6.2. Ipoteze asupra diferenelor a dou medii 2.6.2.1.Cazul cnd se cunosc dispersiile 2 Se consider dou populaii normale N 1 , 12 i N 2 , 2 , o selecie aleatoare din x11 , x12 ,..., x1n1 din populaia N 1 , 12 i o selecie aleatoare

2 x 21 , x 22 ,..., x 2 n2 din populaia N 2 , 2 .

Variabila aleatoare X 1 X ( 1 2 ) X 1 X 2 ( 1 2 ) este, dupa cum s-a Z= = 2 12 2 D X1 X 2 + n1 n2 aratat anterior, repartizat N(0,1).

2.6.2.2.Cazul dispersiilor necunoscute, dar presupuse egale n cazul n care nu cunoatem dispersiile dar tim c sunt egale 12 = 22 = 2 utilizm dispersia ponderat de selecie

2 p

(n 1)s12 + (n2 1)s22 = 1


n1 + n2 2

(x =
n1 1
2

1i

X 1 + 1 2 ( x2i X )
2 n

n1 + n2 2

ca un estimator nedeplasat pentru

Dup cum s-a artat anterior, mrimea Tn1 + n2 2 =

(X

X 2 ( 1 2 ) sp 1 1 + n1 n2

este repartizat T (n1 + n2 2)

2.6.2.3.Cazul observaiilor perechi In cazul cnd observaiile formeaz n mod natural perechi, cum ar fi de exemplu cnd se msoar concentraiile n n probe, fiecare din ele cu dou metode diferite sau cazul cnd dou medicamente se administreaz unui aceluiai lot de voluntari, n dou perioade diferite. Considerm n acest caz variabila aleatoare d = X 1 X 2 . n cazul n care seleciile aparin la aceiai populaie, media lui d va fi zero: E d = 0 .

()

56

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

Cnd se cunosc dispersiile avem D d = =


2 d

()

12
n

2 2

i variabila

aleatoare

este repartizat N (0,1) .

Cnd nu se cunosc dispersiile se folosesc dispersiile de selecie i se ine d dup cum se poate arta uor, este cont c variabila aleatoare sd n repartizat Student cu n-1 grade de libertate.
2.6.2.4. Compararea proporiilor Dac vom considera un experiment n care rspunsul este de tip da sau nu, de exemplu vindecare sau nevindecare, supravieuire sau moarte, etc., numrul de rezultate k de un anumit tip n n repetri ale experimentului este o variabil aleatoare repartizat binomial. Deoarece avem, dup cum s-a calculat anterior E (k ) = np i D(k ) = npq , variabila aleatoare standardizat k p k E (k ) k np n z= = = se aproximeaz ca fiind normal repartizat. D(k ) npq pq n Fie dou populaii de tip urna Poisson cu bile albe i bile negre, cu parametrii (probabilitatea bilei albe) p1 i respectiv p 2 . n dou selecii din cele dou populaii, de volum n1 i respectiv n 2 presupunem c s-a obinut rspuns pozitiv de k1 i respectiv k 2 ori. k Fie hi = i , i = 1,2 . n cazul ipotezei nule H 0 : p1 = p 2 = p , variabila ni aleatoare h1 h2 va fi distribuit cu media 0 i dispersia

D(h1 h2 ) =

1 p1 (1 p1 ) p 2 (1 p 2 ) 1 + = p(1 p ) n n n1 n2 2 1

57

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

aceste h1 h2

condiii

se

aproximeaz

variabila

aleatoare

1 1 p (1 p ) + n n 2 1

va fi repartizat N (0,1) .

k1 + k 2 . n1 + n2 O mbuntire a aproximrii se poate obine prin introducerea unor 1 1 h1 h2 2n1 2n2 corecii de continuitate pentru h1 i h2 : Z = 1 1 p (1 p ) + n1 n2
O estimare natural a lui p este p =
2.6.3. Estimarea dispersiei Considerm o selecie de volum n dintr-o populaie normal N , 2 .

Conform celor artate anterior variabila aleatoare V = repartizat 2 (n 1) .


2.6.3.1.Estimarea raportului a dou dispersii Se consider selecia aleatoare x11 , x12 ,..., x1n1
2 1 2 2

( n 1) s
2

este

N ( 2 ,

N (1 ,

) ).

dintr-o

populaie

i o selecie aleatoare

x 21 , x 22 ,..., x 2 n2

dintr-o populaie
s12

Conform cu cele artate anterior, raportul F =

12
2 s2 2 2

este repartizat

F (n1 1, n2 1) .
Se calculeaz F =
s12 2 lundu-se s12 s2 . 2 s2

58

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

(n 1)s 2 v=
2
i

(x =
n 1 2

(x =
n 1

) 2 X n X n + n X

) = [(x ) (X )]
2 n 1 i

)( )

) (

=
2

n 2 (xi )2 n X n xi 1 X = = 1 2 n x x E ( xi ) este repartizat N(0,1) cci E i = 0 i Dar i = x D2 i =1 Deci v este o sum de n-1 ptrate de variabile de tip N(0,1).

2.6.3.2.Compararea mai multor dispersii. a) Testul Bartlett pentru verificarea omogenitii dispersiilor Fie m estimri independente s1 , s 2 ,..., s m pentru dispersiile 1 , 2 ,..., m pe baza unor selecii de volume n1 , n2 ,..., nm . Se pune problema verificrii ipotezei privind egalitatea acestor dispersii 2 2 H 0 : 12 = 2 = ... = m n acest caz Bartlet a artat c variabila aleatoare
2,303 k ln s 2 k i ln s i2 = ln

este repartizat 2 (m 1) .

unde k i = ni 1 , k = k i i s dispersia ponderat a ntregului set de date,

(s ) (s )
2 k m 1

2 ki i

b) Testul rapid Cochran pentru selecii de acelai volum Daca selectiile considerate au acelasi volum n1 = n2 = ... = nk = n ,

atunci se calculeaza valoarea G max =

2 s max k 2 1 i

care se compar cu o valoare

maxim admis pentru acceptarea ipotezei nule. In formula de mai sus avem: 59

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

tabelele Cochran la perechea (k , n 1) grade de libertate si la probabilitatea P(Gmax c( ))= 1 . c) Testul Hartley Daca selectiile au acelasi volum se poate aplica pentru k 12 testul max si2 H calc = min si2 iar ipoteza H 0 se respinge daca H calc H ( ) unde H ( ) se gaseste din tabelele Hartley la probabilitatea P(H max H ( ))= 1 .
2.6.3.3. Aplicaie: Utilizarea testului t n analiza comparativ a medicamentelor n compararea mediilor am utilizat testul t, numit i testul Student. Deoarece acesta este poate cel mai utilizat n analiza medicamentelor, vom face cteva consideraii asupra aplicrii practice a acestuia. La compararea efectului a dou medicamente, la compararea rezultatului determinrilor analitice cu valoare impus de standardul de control asupra medicamentului precum i n multe alte situaii, apar rezultate diferite acolo unde ne ateptm ca acestea s fie egale. Ne punem ntotdeauna problema dac, diferenele constatate n practic sunt semnificative sau nu. Deoarece rezultatele provin din testarea unor eantioane reduse, nu putem fi niciodat siguri n ceea ce privete parametrii ntregii populaii. Totui, asumndu-ne un risc mai mare sau mai mic, trebuie s lum decizii. Dac, de exemplu, dozm cantitatea de substan activ din 10 comprimate care provin dintr-o arj de 1.000.000 de comprimate, alegerea celor 10 comprimate se presupune c s-a fcut aleator i ele reprezint un eantion reprezentativ pentru ntreaga arj. Problema este dac, n funcie de valoarea medie a coninutului pentru cele 10 comprimate i variabilitatea celor 10 valori, putem spune, asumndu-ne un anumit risc, c valoarea medie a concentraiei n substana activ pentru tot lotul este cea declarat. n acest caz aplicarea testului t n verificarea ipotezei asupra mediei, aa cum s-a artat mai sus, este imediat. La compararea mediilor a dou selecii independente, numite n experimentele cu medicamente grupuri paralele, o atenia deosebit

2 1 n 2 xij xi si s max = max 1ik si2 n 1 j =1 Ipoteza H 0 se respinge daca Gmax c( ) unde c( ) se gaseste din

si2 =

60

II.

Statistica matematica si biostatistica Verificarea ipotezelor statistice

trebuie acordat verificrii independenei efective a acestora. De exemplu la testarea efectelor unui medicament asupra unui grup de pacieni n comparaie cu un alt grup ce se numete placebo, trebuie avut n vedere c pacienii s nu se influenteze ca urmare a discuiilor ntre ei. Dac loturile sunt de animale ce triesc n aceiai cuc, medicamentul poate favoriza sau din contra, defavoriza un grup n lupta animalelor pentru hran i adaug efecte suplimentare asupra rezultatelor finale ale testului. n sfrit, un caz foarte frecvent n testrile comparative ale efectelor sau nivelelor plasmatice ale medicamentelor, este acela al observaiilor pereche, cnd lotul de subieci tratai se constituie ca propriul martor. Acestea ofer unele avantaje asupra experimentului pe grupuri paralele. n primul rnd, n experimentul pe grupe paralele, variabilitatea rezult din diferenele de rspuns la medicament ntre cele dou grupuri, aa numita intervariabilitate. n experimentul pereche apare intravariabilitatea, variabilitatea n rspunsul aceluiai subiect la dou tratamente diferite i avem motive s presupunem c aceasta este mai mic, de regul dect intervariabilitatea. Teoretic, intervariabilitatea include i intravariabilitatea i deci nu poate fi mai mic dect aceasta. Din aceste motive, testul pereche ofer avantajul unei variabiliti mai mici. Testul pereche ofer apoi avantajul c lotul poate fi mai mic. n experimentul pe grupe paralele, de exemplu dou loturi de 10 subieci primesc dou medicamente diferite. n experimentul pereche numai 10 subieci pot primi n prima administrare un medicament i n a doua perioad al doilea medicament. Desigur c acest cuplare nu este ntotdeauna posibil. Cnd dozm cantitatea de substan activ din comprimate sau determinm timpul de dizolvare, acestea sunt consumate n timpul testrii. Trebuie menionat c testul pereche prezint dezavantajul c ntre cele dou tratamente trebuie s existe o perioada destul de lung pentru ca primul medicament administrat s se elimine din organism care, n cazul medicamentelor cu timp de njumtire mare cum ar fi de exemplu piroxicamul, depete 30 de zile, in cazul clomifenului sau al penicilinei retard fiind nevoie de perioada intre cele doua administrari, de mai multe luni. n aceste situaii se prelungete destul de mult timpul pentru definitivarea studiului. Deasemenea, efectul primului medicament, n cazul c experimentele se fac pe pacieni, poate duce la o mbuntire a strii de sntate a acestora i la o modificare considerabil a rspunsului la al doilea tratament. 61

II.

Statistica matematica si biostatistica Teste neparametrice

2.7. Teste neparametrice Testul t pentru compararea mediilor depinde, n special pentru seleciile de volum mic, de ipoteza c cele dou populaii sunt distribuite aproximativ normal i c dispersiile sunt practic egale. De regul, tehnicile statistice care se ocup de variabilele continue se bazeaz pe ipoteza c variabila aleatoare are o distribuie normal de baz. Ipoteza nu este att de restrictiv, deoarece de multe ori este posibil s o modificm astfel nct s obinem alta, aproximativ normal distribuit. Suplimentar, dac vom considera mediile, n concordan cu teorema limit central, distribuia mediei probelor se aproprie cu att mai mult de distribuia normal, cu ct crete volumul probelor. i astfel, ca o concluzie practic, erorile se datoreaz mai curnd lipsei de constan a dispersiei sau lipsei de independen a variabilelor dect deviaiilor de la normalitate. Pentru cazurile cnd nu stim distribuia variabilei, o cale alternativ este s aplicm teste care nu necesit ipoteze despre tipul de distributie. Testele independente de distributie, numite i teste de rang, nlocuiesc valorile variabilei cantitative observate cu rangurile lor. Testele neparametrice sunt valabile i pentru variabile normal distribuite, dar sunt mai puin eficiente, pentru acelai prag de semnificaie fiind necesare eantioane mai mari dect pentru testele parametrice. In acelasi timp este de retinut ca testele neparametrice nu sunt un paraceu universal: aplicarea lor este posibila atunci cand sunt continue si independente.

63

II.

Statistica matematica si biostatistica Teste neparametrice

2.7.1. Media i dispersia eantioanelor dintr-o populaie finit. S considerm o populaie finit de N elemente, la care asociem numerele x1 , x 2 ,..., x N . Dac presupunem c toate elementele au aceeai 1 probabilitate , putem calcula media i dispersia populaiei: N 1 N N (1) = E ( X ) = 1 xi pi = 1 xi N i (2)

2 = D( X ) = E (X 2 ) (E ( X ))2 = 1 xi2 pi
N

2 1 N 2 1 N 1 xi N 2 1 xi = N 1 N 2 2 N 1 N 2 1 = 2 1 xi2 2 xi x j = xi 2 2 1 N i j N N N N

xi pi

x x
i j i

Multimea tuturor seleciilor posibile de mrimea n din populaie va include: (x1 , x2 ,..., xn1 , xn ) (x1 , x2 ,..., xn1 , xn+1 ) . . . (x N n+1 , x N n+ 2 ,..., x N ) Aceste probe sunt formate prin alegerea a n elemente din N. Exist n C N ci de a alege o astfel de prob. nc o dat, presupunem c fiecare 1 prob are aceeai probabilitate de a fi selectat, n . CN 1 n S considerm media seleciei j: X j = x ji i s considerm n i =1 variabila aleatoare X = X j

( )

n j =1, C N

Valoarea medie a variabilei X este

64

II.

Statistica matematica si biostatistica Teste neparametrice

1 E X = X j pj = n CN j =1

( )

n CN

X
j =1

n CN

1 (x1 + x2 + ... + xn 1 + xn ) + 1 (x1 + x2 + ... + xn 1 + xn +1 ) + 1 n n = n CN 1 (x + xN n + 2 + ... + xN ) n N n +1 Acum s considerm de cte ori intr n sum orice xi particular, s

spunem x1 . Probele care conin x1 se obin prin selectarea a (n-1) alte elemente din populaia disponibil de (N-1) elemente i, aceasta se poate n n face n C N11 moduri. Vor fi deci C N11 probe coninnd x1 i la fel se aplic pentru fiecare xi . (N 1)! = N C n 1 N! N n CN = = N 1 n!( N n )! n (n 1)!( N n )! n n consecin 1 1 n N 1 N (3) E X = n C N1 1 xi = 1 xi = 1 CN n N ceea ce nseamn c media mediei probei este egal cu media populaiei. Pentru calcularea dispersiei folosim identitatea

( )

( ) ( E ( X )) S considerm E (X ) = X p
(4) D X = E X

( )

n CN

2 j

j =1

1 = n CN
2

X
j =1

n CN

2 j

Mai departe

1 1 X = n (x1 + x2 + ... + xn 1 + xn ) + ... + n (xN n +1 + xN n + 2 + ... + xN ) j =1 Cnd ridicm la ptrat fiecare termen, fiecare xi va deveni x i2 i,
2 j
n dup cum vedem, fiecare xi apare de C N11 ori. Astfel

n CN

(5) X j =
j =1

n CN

1 n 1 2 2 2 C N 1 (x1 + x 2 + ... + x N ) + ... n2 Ridicarea la ptrat a sumei d deasemenea termeni de forma x i x j i


2

n fiecare termen va apare de C N 22 . n consecin, putem scrie

65

II.

Statistica matematica si biostatistica Teste neparametrice

(6)

1 n CN

X
j =1

n CN

2 j

1 1 n 1 2 2 n 2 2 C N 1 x1 + x2 + ... + xN + 2 CN 22 ( x1 x2 + ... + xN 1 xN ) n 2 CN n n

Pentru a nlocui n (4) punem E X (7)

( ( ))

n forma:
2

1 = ( x1 + x 2 + ... + x N 1 + x N ) = N 2 2 2 x + x 2 + ... + x n 2( x1 x 2 + ... + x N 1 x N ) = 1 + N2 N2 Substituind (6) i (7) n (4) , obinem: 1 1 n 1 2 2 D X = n 2 C N11 2 x12 + x 2 + ... + x N + C n N N (8) 1 2 n 2 + n 2 C N 22 2 ( x1 x 2 + ... + x N 1 x N ) C n N N
2

(E (X ))

( )

i coeficientul lui (x1 x 2 + ... + x N 1 x N ) este 1 2 n2 2 2(n 1) 2 2 N n C N 2 2 = 2 = 2 2 N (N 1) n nN ( N 1) N N N n( N 1) n C N 22 n(n 1) Apoi substituind aceste rezultate n (8), obinem:
(9) D X =

2 2 Coeficientul lui (x12 + x 2 + ... + x N ) se poate scrie ca 1 1 n 1 1 1 1 n 1 1 1 1 N n C N 1 2 = C N 1 2 = 2 = = n 2 2 CN n N N nN N nN 2 n 1 N n C N 1 n N n N 1 = n ( N 1) N 2

( )

(N n ) N 1 (x 2 + x 2 + ... + x 2 ) 2 (x x + ... + x x ) 1 2 N 1 2 N 1 N n( N 1) N 2 N2 2 Partea din { } este exact , astfel nct


2 N n
n N 1 =

(10) D X =

( )

n 1 1 n N 1

66

II.

Statistica matematica si biostatistica Teste neparametrice

Observam ca avem aparent o contradictie cu regula: xi 1 n 2 2 D X = D n = n 2 D ( xi ) = n 2 = n In fapt, in aceasta regula X este media unui experiment repetat de n ori, de exemplu, extragerea consecutive, una cate una a n bile, pe cand X de mai sus semnifica extragerea a n bile dintr-odata. De exemplu, selectia (1,1, ... ,1) nu este posibila in cazul nostru si altfel nici o repetare, toate elementele selectate fiind distincte.

( )

, forma n ei obinuit pentru o populaie infinit, sau pentru experimentul de tip extracie din urn cu ntoarcerea bilelor extrase n urn.
2.7.2. Testul de rang Wilcoxon

Este de notat c dac N , atunci dispersia lui X

Testul de rang Wilcoxon 1 este un test cu ipoteza nul c dou populaii sunt identice, fat de ipoteza alternativ c ele difer printr-o translaie linear. Testul nlocuiete observaiile prin rangurile lor. Rangurile sunt repartizate la valorile din selecii n ordinea creterii mrimii fr s in cont de probele crora le aparin. S presupunem c o prob este de mrime n i alta de mrime N-n. Testul presupune c orice combinaie de ranguri n aceste dou grupuri este n egal probabil. Numrul total de moduri de grupare a rangurilor este C N . Consideram urmatorul exemplu Nivelele plasmatice maxime ale ionului EDTA 4 dup administrare i.m.
Tabelul 3. Voluntar CE Prima zi 33,3 rangurile 9 a-3-a zi 25,4 rangurile 4 IA 25,1 3 31,2 6 BL 22,8 1 28,4 5 PM 32,4 7 39,2 10 MC 23,7 2 DP 48,33 11 SL 33,04 8

Privind rezultatele n a treia zi de tratament la proba de mrime n, suma rangurilor este 4+6+5+10=25. Combinaiile de ranguri pentru care
1

F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947

67

II.

Statistica matematica si biostatistica Teste neparametrice

putem obine o sum a rangurilor mai mic dect aceasta, pentru un n = 4 dat sunt 1+2+3+4=10, 1+2+3+5=11, 1+2+3+6=13, 1+2+3+7=14, 1+2+3+8=15 etc. Dup cum se poate vedea nu este uor s calculm toate posibilitile, astfel nct vom folosi faptul c media rangurilor unei probe este distribuit aproximativ normal cu parametri care sunt calculati n continuare. Sunt disponibile tabelele care dau limitele de acceptare a ipotezei H 0 pentru suma obinut, ca o funcie de n, N i riscul asumat. Pentru exemplul nostru gsim n tabele, pentru = 0,05 , n1 = 4 i n2 = 7 intervalul 11 25. Fie R suma rangurilor i R media rangurilor probei de mrime n. 1 N Conform (1), valoarea medie a lui R este E R = 1 xi .In cazul nostru N xi sunt rangurile de N valori nsemnnd numerele 1,2,.,N. n consecin 1 1 1 N ( N + 1) N +1 N E R = 1 xi = (1 + 2 + ... + N ) = ER = N N N 2 2 2 Calculul lui d: 2 1 N 1 N 2 = D( X ) = E (X 2 ) (E ( X ))2 = 1 xi2 2 1 xi = N N

()

()

()

1 N

N 2 1

1 N2

( i )
N 1

1 N ( N + 1)(2 N + 1) 1 N ( N + 1) N 2 1 2 = 6 2 12 N N
2

Dispersia lui R se obine prin nlocuirea lui n (10) 2 n 1 N 2 1 N n ( N + 1)(N n ) = (11) D R = 1 = n N 1 12n N 1 12n

()

n concluzie, variabila aleatoare

RE R

( )= D (R )

repartizat aproximativ N (0,1) . Intr o notatie alternativa N poate fi notat cu n1 + n2 , n cu n1 si Nn cu n2 obtinandu-se: 68

N +1 2 va fi (N + 1)(N n ) 12n R

II.

Statistica matematica si biostatistica Teste neparametrice

Z=

n1 + n2 + 1 2 n1 + n2 + 1) n2 ( 12n1

Se mai utilizeaza si alta forma a formulei. Se amplifica cu n1 , se


n1 ( n1 + n2 + 1) 2 Z= ( n1 + n2 + 1) n1n2 12 Kruskal si Wallis 2 au observat ca aproximaia este mbuntit cnd valoarea este mai mare de 0,02 prin aducerea lui R mai aproape de media 1 lui cu . 2n n literatura medical i biologic testul se mai numete Mann Whitney i se utilizeaz notaiile n = n1 i N n = n2 ( n1 n2 ). Cnd cel puin unul din numerele n1 i n 2 sunt mai mici dect 10, distribuia de probabilitate a sumei rangurilor pozitive R se poate calcula direct. Intervalele de ncredere cu diverse probabiliti (0,95; 0,99; etc.) pentru R se gsesc n tabele. 25 In exemplul nostru n = 4, N = 11, R = 25, R = = 6,25 i 4 N +1 11 + 1 R 6, 25 0, 25 2 2 Z= = = = 0,19 7 ( N + 1)( N n ) (11 + 1)(11 4 ) 4 12n 12* 4 Valoarea obinut ne asigur c nu apare o acumulare a EDTA la orice nivel de risc din cele uzual utilizate. Dac facem corecia pentru continuitate R

obtine Rn1 = R si

W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952

69

II.

Statistica matematica si biostatistica Teste neparametrice

N +1 1 11 + 1 1 + 6, 25 + 2 2n = 2 8 = 0,375 = 0, 285 Z= 7 ( N + 1)( N n ) (11 + 1)(11 4 ) 4 12n 12* 4 concluzia nu se schimba. R


2.7.3. Ajustarea pentru valori egale n testul Wilcoxon Dac apar egaliti, o alternativ pentru neglijarea lor este de a repartiza la aceste observaii media rangurilor pe care le-ar fi primit dac nu erau egale. S considerm un grup de k egaliti. Numerele ntregi m+1, m+2, , m+k sunt nlocuite cu media lor. k (k + 1) km + (m + 1) + (m + 2) + ... + (m + k ) = k +1 2 = m+ 2 k k 2 2 2 Suma ptratelor (x1 + x 2 + ... + x N ) este astfel redus prin

( m + 1) + ( m + 2 )
2 2

+ ... + ( m + k )
2

( k + 1) = k m + 2
2 2 2 2

k ( k + 1) = km + 2 (1 + 2 + ... + k ) m + (1 + 2 + ... + k ) km km ( k + 1) 4
2

2 N ( N + 1)(2 N + 1) T 3 N ( N + 1) = = 12 N N ( N + 1)(4 N + 2 3 N 3) T N N 2 1 T = = 12 N 12 N 2 N ( N 1) T N n i D R = 12nN N 1


2

k ( k + 1) k ( k + 1)( 2k + 1) k ( k + 1) =2 k ( k + 1) m = m+ 2 6 4 k ( k + 1) ( k 1) k ( k + 1) = T = ( 4k + 2 3k 3) = 12 12 12 Suma rangurilor rmne neschimbat. Astfel: 2 2 1 N 1 1 N (N + 1)(2 N + 1) T 1 N ( N + 1) N 2 = 1 xi2 2 1 xi = 2 = 6 12 N 2 N N N


2

( )

70

II.

Statistica matematica si biostatistica Teste neparametrice

2.7.4. Teste referitoare la perechi de observaii 2.7.4.1.Testul semnelor

plasmatice maxime dup trei zile de tratament. Fie (x, y ) probabilitatea de apariie a valorilor x i y. Dac medicamentul nu se acumuleaz n organism, cele dou seturi de concentraii sunt selecii ale aceleiai populaii i ( xi , y i ) = ( y i , xi ) pentru toate perechile. Aceasta implic simetria lui (x, y ) fa de linia y x = 0 . S definim variabila aleatoare z = y x . 1 1 sau P( y x 0 ) = P( y x 0 ) = care Avem c P ( y x ) = P( y x ) = 2 2 1 este mai departe echivalent cu P (z 0 ) = P( z 0) = . Astfel z va avea o 2 median zero. Mai departe definim variabilele z i dup cum urmeaz z i = 1 pentru z i 0 i z i = 0 pentru zi 0 . Presupunem continuitatea distribuiei de grup original (x, y ) , z va fi deasemenea continu, i interseciile (cazurile xi = y i ) vor avea probabilitatea zero. z i sunt independente, astfel nct suntem n situaia binomial de a face 1 n ncercri independente, probabilitatea de succes z i = 1 fiind la fiecare 2 n 1 ncercare. Astfel, 1 z i are o distribuie binomial cu parametrii p = i 2 n. Distribuia de grup (x, y ) poate fi diferit n fiecare ncercare, ns de n 1 fiecare dat P ( z i = 1) = i astfel distribuia lui 1 z i va fi neschimbat. 2

S considerm nivelele plasmatice maxime xi ale unui medicament dup o prim administrare la un numr de n voluntari sntoi i yi nivelele

71

II.

Statistica matematica si biostatistica Teste neparametrice

Alternativa ipotezei nule este ca n locul lui xi s avem xi = xi d i , ceea ce nseamn c fiecare xi descrete cu o cantitate d i , unde d i 0 . n acest caz ( x, y ) nu va mai fi simetric, ci deplasat spre stnga i 1 P( z i 0 ) = P y i xi 0 = P y i xi . 2 Astfel, P( z i 0) nu va mai fi n mod necesar constant i distribuia lui

n 1 i

nu va mai fi o distribuie binomial.

Testul semnelor, d pentru probabilitatea a k diferene pozitive i n i 1 n 1 1 n i k n i1 P 1 zi , p = = ziCn 1 = n Cn = 2 i =k 2 i=k n 2 2


1 n n i 1 nk Cn = n Cnj 2n i = k 2 j =0 n cazurile simple, pentru k i n mici, aceast probabilitate se poate calcula direct. Pentru valori mai mari, se poate folosi aproximaia normal. Sa lum n considerare valorile nivelelor plasmatice ale ionului EDTA 4 (Tabelul3) dup administrarea i.m. la patru voluntari sntoi. =
Tabelul nr. 4: Voluntar Prima zi a-3-a zi CE 33,3 25,4 -7,9 0 IA 25,1 31,2 +6,1 1 BL 22,8 28,4 +5,6 1 PM 32,4 39,2 +6,8 1

zi zi Avem

3 1 1 4 4 1 0 1 4 P z i , p = = 4 C 4j = 4 C 4 = 4 = 0,06 4 2 2 j =0 2 2 1 ceea ce nseamn c putem accepta ipoteza nul privind egalitatea constantei de eliminare n prima zi cu cea din ziua a treia. Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a distributiei binomiale: 1 1 P 2 2n Z= 1 1 n* * 2 2

72

II.

Statistica matematica si biostatistica Teste neparametrice

unde p este proportia diferentelor pozitive. 2.7.4.2.Testul Wilcoxon pentru observaii perechi Wilcoxon a propus deasemenea un test pentru determinri pare n care rangurile sunt atribuite mrimii absolute a diferenelor i apoi se d rangurilor semnul diferenelor. Ipoteza nul este c distribuia diferenelor este simetric fa de zero, astfel orice rang este pozitiv sau negativ cu aceiai probabilitate. Valorile egale primesc ca rang media rangurilor grupului. Numrul total de moduri de sume de ranguri ce se pot obine este 2 N . S atam rangurilor i variabilele aleatoare di ce iau valorile di=1 cnd i este pozitiv i di=0 cnd i este negativ, se foloseste insa cea mai mica valoare dintre suma rangurilor pozitive si a celor negative. S considerm suma rangurilor pozitive s = d i i . Dar E (d i ) = 1
1 1 1 N ( N + 1) N 1 + 0 = i E (s ) = 1 i = 2 2 2 2 4 2 N N E ( s 2 ) = E 1 idi = E 1 i 2 di2 + 2 ijdi d j = i j

Media ei va fi E (s ) = E 1 d i i = 1 iE (d i )
N N

= 1 i 2 E ( di2 ) + 2 ijE ( di d j )
N i j

1 1 1 + 0 2 = si 2 2 2 1 1 1 1 1 E (d i d j ) = 0 0 + 0 1 * + 1 * 0 * + 1 * 1 * = 4 4 4 4 4 n consecin 1 N 1 1 N 1 N 2 N E (s 2 ) = 1 i 2 + 2ij = 1 i 2 + 1 i 1 i 2 2 4 i j 2 4 Acum putem calcula dispersia lui s 2 N 1 N 2 1 N 2 1 N 2 2 2 D(s ) = E s (E (s )) = 1 i + i i i = 2 4 1 1 4 1 N 1 N ( N + 1)(2 N + 1) = i2 = 4 1 24

ns E (d i2 ) = 12

( )

( )

73

II.

Statistica matematica si biostatistica Teste neparametrice

trebuie s fie sczut pentru 48 fiecare grup de egalitati. O alternativ este de a scoate toate valorile egale din prob. S considerm acum observaiile pare din experimentul ce a dus la datele din tabelul 5. n cazul n care apar egaliti, Tabelul 5. Nivelele plasmatice maxime ale administrarea i.m. Voluntar Prima zi a-3-a zi Diferena di Rangul n CE 33,3 25,4 -7,9 0 -4 acest IA 25,1 31,2 +6,1 1 2 BL 22,8 28,4 +5,6 1 1 PM 32,4 39,2 +6,8 1 3 EDTA 4 dup

(k 1)k (k + 1)

S=3+2+1=6 N=4 care este si foarte

caz avem N ( N + 1) s s E (s ) 65 4 z= = = 0,27 = D (s ) 4*5*9 N ( N + 1)(2 N + 1) 24 24 apropiat de valorile obinute anterior.

2.7.4.3. Testul H, Krusskal Wallis, de analiza a variatiei pe o cale aplicata rangurilor Testul H, sau testul Kruskal Wallis 3 este o generalizare a testului Wilcoxon n cazul a k probe, k 2 . La fel ca i n testul Wilcoxon, observaiile primesc ranguri, i media rangurilor Ri se calculeaz pentru fiecare grup. (N + 1)(N ni ) R N +1 R i D 2 Ri = unde R i = i si R = E Ri = N ni 2 12ni

( )

( )

W.H.Kruskal, W.A.Wallis; Use of ranks in the one criterion analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952

74

II.

Statistica matematica si biostatistica Teste neparametrice

Raportul centrala.

Ri E Ri D2
i

( ) (R )

va fi repartizat N (0,1) , conform teoremei limita

Kruskal i Wallis au artat c suma ptratelor lor, cu un factor de n ponderare 1 i are aproximativ distribuia 2 (k 1) N K H = i =1
K i

K 12n R R 12 ni Ri R i i N ni H = = = N N ( N + 1) N ( N + 1) i =1 ( N + 1)( N ni ) i =1 12ni deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor si media totala, testul este in esenta un fel de ANOVA pe o cale si se aplica si atunci cand datele nu sunt normal repartizate, cu dispersii egale. Am folosit, 2 2 2 2 R2 ni R i R = ni R i 2 R R i ni + N R = i N R = ni

( R R)

N +1 Ri 2 ( N + 1)( N ni ) 12ni
2

ni 2 1 N ( k 1)

( N + 1) R2 = i N 4 ni In final H se mai poate scrie : Ri2 12 H= n 3 ( N + 1) N ( N + 1) i


2

N3 N unde T = ( k 1) k ( k + 1) = k 3 k este calculat pentru fiecare grup de

Dac apar valori egale, H trebuie s fie mprit la factorul 1

legturi. Pentru probe mici aproximaia nu este prea bun i Kruskal i Wallis au dat tabele pentru k=3 i ni 5. 75

II.

Statistica matematica si biostatistica Teste neparametrice

S aplicm testul pentru acelai experiment, considernd dou grupuri de observaii dup prima administrare i un grup de observaii dup a 5- a administrare: Nivelele plasmatice maxime ale ionului EDTA 4 dup administrarea i.m. sunt n tabelul3. 9 + 3 +1+ 7 2 + 11 + 8 4 + 6 + 5 + 10 = 5 , R2 = = 7 si R3 = = 6,25 R1 = 4 3 4
H = N +1 Ri 1 n i = 2 (N + 1)(N ni ) N 12ni
2 2

11 + 1 5 4 2 1 + (11 + 1)(11 4) 11 12 * 4
2

11 + 1 11 + 1 7 6,25 4 2 2 1 3 + 1 = + (11 + 1)(11 3) 11 (11 + 1)(11 4) 11 12 * 3 12 * 4 4 7 3 8 6,25 * 4 7 9,5 = + + = = 0,86 7 11 8 11 7 11 11 2 Dat fiindc 2;0, 05 = 0,103 valoarea obinut pentru test aparine zonei de acceptare, ipoteza ca grupurile sunt selectate din aceiai populaie este acceptat.
2.7.5. Alegerea ntre testele laplaciene i testele neparametrice Testele nonparametrice au o putere mai mic dect cele clasice, deoarece nlocuirea valorilor cu rangurile lor semnific pierderea a o parte din informaie. De exemplu am spune ca doi boxeri sunt de aceiasi valoare deoarece fiecare a ctigat cte 5 meciuri din 10 ntlniri dintre ei. n condiia n care n ultima ntlnire A l-a omort pe B, concluzia trebuie schimbat, deoarece diferena de valoare ntre ei la ultimul meci a fost cu mult mai mare dect celelate diferene. Aceast pierdere de informaie este real n cazul testelor neparametrice atunci cnd efectiv variabilele aleatoare sunt repartizate normal i au dispersiile egale. n caz contrar se poate ntmpla ca un test neparametric s fie chiar mai eficient dect cele parametrice. In alt ordine de idei, aplicarea testelor neparametrice n cazul seleciilor de volume mari, este foarte laborioas. Ca urmare, conduita de urmat n alegerea unui tip sau altul de test ar fi dup cum urmeaz:

76

II.

Statistica matematica si biostatistica Teste neparametrice

1. n cazul eantioanelor mici sunt de preferat testele neparametrice deoarece calculele sunt mai rapide i eficiena este comparabil cu cea a testelor clasice. 2. Cnd se tie c seleciile aparin la populaii repartizate normal i cu dispersii egale, testele clasice sunt mai eficiente. 3. Cnd nu se cunosc repartiiile variabilelor, alegerea i concluziile se vor face n funcie de alte informatii privitoare la experiment. 4. Cnd se tie c variabilele aleatoare testate nu sunt repartizate normal sau este vorba de variabile care se bazeaz pe o scal arbitrar (scoruri) sau clasificri pe criterii preponderant calitative (de exemplu ameliorarea strii subiecilor tratai) se apeleaz la testele neparametrice.
2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman 4 Consideram compararea a k esantioane de aceeasi marime, ni = k . In acest caz datele se inscriu intr- o matrice. Daca rangurile le stabilim pe fiecare linie, de exemplu,

Tabelul nr. 6 subiect 1 2 3 4 5 Ri

Valoarea masurata a dozei A B C 1 2 3 2 1 3 1 2 3 1 3 2 1 3 2 6 11 13

Putem testa daca se produce o crestere semnificativa a valorilor masurate (de exemplu cmax ) o data cu cresterea dozei, aplicam testul Friedman 12 c21 = Ri2 3l ( c + 1) lc ( c + 1) unde l este numarul de linii si c este numarul de coloane.

Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973

77

II.

Statistica matematica si biostatistica Teste neparametrice

78

II.

Statistica matematica si biostatistica Regresia liniara

2.8. Regresia liniar Dreptele sunt construite din mulimi de perechi de date, X i Y. Dou asemenea perechi (de exemplu dou puncte) definesc n mod unic o dreapt. Y = A + BX unde : A reprezint interceptul lui Y (valoarea lui Y cnd X=0) i B este panta Y Y Y B= = 2 1 X X 2 X 1 pentru oricare dou puncte de pe dreapt.

fig. 1.

Panta i interceptul definesc dreapta: pentru oricare A i B date, dreapta este definit. n exemplul elementar a dou puncte date, o aproximare statistic pentru a defini dreapta nu este necesar. Dac reprezentarea grafic a dou mrimi ce sunt observate simultan sugereaz o dependen liniar, ajungem la problema determinrii dreptei ce descrie cel mai bine aceast dependen. Cazurile din farmacie cele mai frecvente in acest sens privesc chimia analitica, unde semnalul este proportional, intre anumite limite, cu concentratia, legea Lambert-Beer fiind cel mai cunoscut exemplu. In acelasi timp, se incearca sa se simplifice lucrurile prin liniarizare in studiile de stabilitate ale medicamentelor. In terapie, o intrebare obligatorie la care trebuie sa raspunda prezentarea oricarui medicamente se refera la liniaritatea farmacocineticii. Dup cum s-a discutat la capitolul privind extremele funciilor de mai multe variabile, o soluie a acestei probleme o constituie dreapta prin cele mai mici ptrate, dreapta pentru care suma ptratelor distantelor de la ea la punctele experimentale este minim. Aceast soluie consider punctele ca fiind exacte. Problema capt cu totul alt nfiare atunci 79

II.

Statistica matematica si biostatistica Regresia liniara

cnd punctele experimentale sunt considerate valori ale unor variabile aleatoare, devenind o problem de statistic matematic i analiz numeric n acelai timp.
dependenta semnalului masurat de concentratie 25 20 15 10 5 0 0 5 10 15 120 100 80 60 40 20 0 -20 0 5 10 15 fitare liniara, dar dependenta nonliniara

Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile. a. dependenta este efectiv liniara dar datele sunt afectate de erori, b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara

In general, chiar daca nu constientizam acest fapt, de fiecare data cand incercam sa gasim o dependenta liniara intre doua variabile, facem implicit urmatoarele ipoteze: 1. Variabila X este masurata fara eroare. Desi nu este totdeauna adevarat, cel mai adesea X este masurat cu erori relativ mici, si in aceste conditii presupunerea poate fi considerata adevarata. In cazul unor teste privind un medicament administrat in mai multe doze, X este doza nominala care se considera ca a fost administrata. Eroarea in dozare este foarte mica.Un alt exemplu de variabila X care este adesea folosit este timpul care poate fi masurat cu suficienta precizie si acuratete. 2. Pentru fiecare X, y este independent si normal distribuit. Adesea vom folosi notatia Y.x pentru arata ca valoarea lui Y este o functie de X. 3. Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca variatia lui y nu este constanta, dar este fie cunoscuta, fie asemanatoare cu cea a lui X intr-un anume fel, sunt alte metode pentru a estima panta si ordonata dreaptei . 4. Intre X si Y exista o relatie de liniaritate. Y = A + BX , unde A si B sunt parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive sa credem ca X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care aproximeaza cel mai bine dependenta intre cele doua variabile nu 80

II.

Statistica matematica si biostatistica Regresia liniara

corespunde legii reale care guverneaza fenomenul, cel mai bine nefiind de fapt bine. Aceste premise sunt descrise n:

Fig. 3. Media si dispersia in regresia liniara

Exceptnd poziionarea (media, valoarea medie) distribuia lui y este aceeai la fiecare valoare a lui X. n exemplul acesta, media distribuiei lui y descrete pe msur ce crete X (panta e negativ). In cazul studiilor de stabilitate, dependenta concentratiei substantei active de timp este, in cel mai bun caz o exponentiala c (t ) = c0e kt Dar , pentru valori mici ale lui t exponentiala este aproximata de o dreapta c (t ) = c0e kt c0 (1 kt ) Ca parametri esentiali ai cineticii de degradare se folosesc, in locul constantei de viteza k , timpul de injumatatire si timpul de siguranta sau timpul la care concentratia scade la 90 % din valoare sa initiala. Examinm n continuare aspectele matematice pentru cazul cel mai simplu cnd valorile variabilei x (care n cele mai multe cazuri corespunde timpului) nu sunt afectate de erori i, pentru fiecare valoare a lui x corespund un numr de valori y, determinate ntr-un singur experiment printr-o metod afectat de erori ntmpltoare: y11 , y12 ,..., y1n1 , pentru x1 .. y i1 , y i 2 ,..., y ini , pentru xi , i=1,2,,k Cazul cnd pentru orice i avem ni = 1 este relativ mai simplu, dar este de subliniat c i n cazul cnd acetia sunt diferii de 1 poate fi tratat n 81

II.

Statistica matematica si biostatistica Regresia liniara

aceiai manier admitnd c ntre perechile (xi , y i ) s fie i perechi cu acelai xi . S admitem c pentru un x fixat, valoarea msurat y este o variabil aleatoare cu urmatoarea structur: (1) y = + = + x + distribuit normal cu dispersia 2 i media = + x Problema care ne-o punem este aceea ca, din datele experimentale yi , s obinem nite estimri a, b i s2 pentru , si 2, i s determinm distribuiile acestor estimaii. Estimarea ecuaiei de regresie o notam : (2) Y = a + bx Metoda celor mai mici ptrate d valorile a i b care minimizeaz suma ptratelor deviaiilor (erorilor) ntre valorile observate yi i cele prezise de ecuaia de regresie (2): 2 2 (3) SS E = ( y i Yi ) = ( yi a bxi ) Metoda este n principal datorat lui Gauss. Pentru aflarea parametrilor a i b, nu este necesar ipoteza privind distribuia normal a erorilor, dar aceasta este necesar pentru construirea unor intervale de ncredere i pentru testarea unor ipoteze privind aceiai estimatori. Metoda celor mai mici ptrate ofer avantajul c estimatorii pe care i d sunt deplasai i au o dispersie minim n clasa estimatorilor nedeplasai. Valorile lui a i b care minimizeaz suma ptratelor erorilor sunt soluiile sistemului SS a = 0 na + b xi = yi 2 ( yi a bxi ) = 0 (4) 2 SS 2 ( yi a bxi )xi = 0 a xi + b xi = xi yi =0 b Rezolvnd sistemul prin regula lui Cramer se obin ca estimatori pentru i : 2 n xi y i xi y i Yi xi xi xi y i i b = a= 2 2 2 n xi2 ( xi ) n xi ( xi ) Numrtorul expresiei lui b poate fi scris i n forma x n x i y i x i y i = n x i y i i y i = n x i x y i n

Deoarece xi x = 0 i y xi x = 0 , mai putem scrie 82

II.

Statistica matematica si biostatistica Regresia liniara

xi x y i = xi x y i y xi x = xi x y i y Similar, dup cum se poate uor verifica, avem:


n xi2 ( xi ) = n xi x
2

)(
(

)
).

n consecin, o form alternativ pentru b este b =

xi x y i y

)(

xi y Putem verifica uor c b este un estimator nedeplasat pentru . Presupunem valoarea ateptat yi dat de ecuaia + xi , pentru un x = xi . Atunci: xi x E yi y = xi x ( + xi ) = E (b ) = 2 2 xi x xi x

) (

( x x) + ( x x) x = ( x x) ( x x)
i i 2 2 i i

= 0+

2 i

2 1 ( xi ) n = 2 xi x

Dispersiile lui a i b pot fi obinute direct, deoarece sunt funcii liniare de yi , care valori sunt presupuse independente i distribuite normal, cu dispersia 2 :
x x y x x 2 D( y ) 2 i i i i = D(b ) = D = 2 2 2 xi x xi x xi x

( (

) )

))

Din prima ecuaie a sistemului (4) avem: a = Y b X . 2 2 2 1 yi D(a ) = D + x D(b ) = 2 D( y i ) + x n n xi x

2 + x 1 x n2 n2 =2 + = 2 2 n n xi x xi x 2 2 2 xi xi D(b ) = = n x x 2 n 2 2 i

( xi )2 ( xi )2

Deci, S a =

x
n

2 i

Sb2

83

II.

Statistica matematica si biostatistica Regresia liniara

2.8.1. Estimaii i ipoteze asupra coeficientului b Coeficientul b are o importan deosebit i prin aceea c el reprezint o msur a corelrii ntre x i y. 1. Coeficientul b este, dup cum s-a artat, repartizat normal cu media

i dispersia

xi x

2. Dac yi sunt punctele experimentale, iar Yi estimrile lor teoretice,

Yi = a + bxi , suma ptratelor erorilor va fi SS E = ( yi Yi ) . Vom


2

arta c: SS E E = 2 n2 Pentru a demonstra aceasta relaie plecm de la definiia sumei erorilor 2 SS E = [ y i (a + bxi )] =

) ( )] = [(y y ) + (a + b x a bx )] = y ) b(x x )] = (y y ) 2b (x x )(y y ) + b (x x ) (x x )(y y ) Dar b = i putem nlocui (x x )(y y ) = b (x x ) . (x x ) Deci avem SS = (y y ) b (x x ) = A B
= y i y + y a bxi
2 i i 2 2 i i 2 2 i i i i
i i
2

[( = [(y

Calculm separat E ( A) i E (B ) .
E ( A) = E y i y

) ] = E ( y
2

2 i

ny

) = E ( y ) nE (y )
2 i 2 2

n continuare, folosind identitatea D (Y ) = E (Y 2 ) + (E (Y )) i faptul c


E y = + x i D y =

()

()

2
n

obinem

2 E ( A ) = ( + xi ) + 2 n + X

= n

= ( + xi ) + X
2

) =
2

84

II.

Statistica matematica si biostatistica Regresia liniara

2 = ( + xi ) + 2 n + X

= n

)( ) = ( x X ) ( 2 + ( x + X ) ) = 2 ( x X ) + ( x + X ) = = ( x X ) = ( x n X ) = ( x X ) =
= + xi + + X + xi X =
i i i i 2 2 i 2 2 2 i 2 2 2 i

= ( + xi ) + X
2

) =
2

= n 2

n 2 + 2 xi x n

= ( n 1) 2 + 2 xi x

Mai departe,

E (B ) = x i x E b 2 = x i x
2

) ( )

) [D(b) + (E (b)) ] =
2 2

2 2 = xi x +2 (x X )2 i i deci,

E (SS E ) = (n 1) 2 + 2 (xi X ) 2 (xi X ) 2 = (n 2 ) 2


2 2

3. Variabila aleatoare

SS E

este repatizat 2 (n 2) .

Pe baza acestor trei proprieti putem estima intervalele de ncredere pentru i verifica ipoteze asupra valorilor sale.
a) Cazul dispersiilor cunoscute n cazul n care se cunoate dispersia erorilor de msurare se folosete faptul c variabila D ( i ) = D ( y i ) = 2 b b aleatoare z = este repartizat N (0,1) . = 1 D(b ) 2 2 2 xi x

85

II.

Statistica matematica si biostatistica Regresia liniara

b) Cazul dispersiilor necunoscute

n acest caz se nlocuiete dispersia lui b: b =


2

SS E ( y i Yi ) n2 estimatorul numit dispersia de selecie: S b = = n2 2 . 2 xi x xi x Variabila aleatoare b b b Z = T= = 1 1 2 n2 2 SS E 2 SS E n2 2 2 (n 2 ) (n 2 ) xi x este repartizat Student cu n-2 grade de libertate. Ca urmare putem determina intervalele n care se afl cu diverse probabiliti sau verifica ipoteze privind valoarea lui, exact cum este utilizat testul t pentru testarea ipotezei privind media necunoscut. Intervalul de ncredere pentru este: bt Sb b + t Sb

xi x

cu

n 2 ,1

n 2 ,1

2.8.2. Estimarea dispersiei punctelor dreptei de regresie Considerm un punct x 0 fixat i punctul corespunztor lui: y 0 , pe dreapta de regresie y y = + x + = a + bx

Y = a + bx y 0 = a + bx0 = Y b x + bx0
y 0 = Y + b x0 x estimatia lui y 0 este o variabil aleatoare distribuit normal. Avem E (Y0 ) = Y0 = + x0 i
2 2 D ( y0 ) = y0 = y + b2 x0 x

2
n

( x x)
i

(x

86

II.

Statistica matematica si biostatistica Regresia liniara

2 x0 x SS E 2 2 1 . Estimnd valoarea lui prin s = avem s y0 = s + 2 n n2 xi x y0 ( + x0 ) este repartizat Student cu Variabila aleatoare T = s y0
2
2

n 2 grade de libertate i permite calculul intervalelor de ncredere pentru + x0 .


2 2 x x x x 1 1 ,y +t y t S + + ,n 2 ( S Y . x ) 0 0 ,n 2 ( Y . x ) n 2 2 n x x x x Dispersia sY0 depinde de distana ntre x 0 i x , iar limitele de

incredere ale lui Y pentru valori specifice ale lui x depind de dispersie, numarul gradelor de libertate, numarul de puncte utilizate pentru determinarea dreptei si valoarea sa este minim atunci cnd x0 = x . n acest caz, y0 = Y i s y 0 = s y . Facem observaia c dispersia determinat n punctul y 0 este dispersia datorat regresiei. Valorile experimentale nu sunt ns valori ale regresiei y 0 = Y + b x0 x , estimate de drepta de regresie. n acest caz, valoarea individual determinat difer fa de valoarea Y0 printr-o eroare ,

a crei dispersie este egal cu 2 , variabilitatea datelor individuale fa de valorile corespunztoare regresie Y. Ca urmare, valorile individuale vor avea dispersia:

2 y0

= +
2

2
n

(x x ) (x x )
2 0 i

2 x0 x 1 2 . ceea ce , pentru valorile de selecie devine s y0 = s 2 1 + + 2 n xi x

87

II.

Statistica matematica si biostatistica Regresia liniara

2.8.3. Calculul intervalelor de ncredere pentru dreapta de regresie n cazul stabilitii formelor farmaceutice. In cazul studiilor de stabilitate avem doua tipuri de probleme. Pentru o concentratie data, de exemplu 90 % din cea initiala, in afara de timpul de pe dreapta de regresie cand se atinge acest prag, ne intereseaza si marginea inferioara a intervalului de timp, deci timpul pentru care suntem siguri ca nu a scazut concentratia sub 90 %. Din punct de vedere al sigurantei pacientilor , este mai bine sa contam pe acest timp. FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un interval de incredere unilateral decat unul bilateral pentru a estima data de expirare. Pentru cele mai multe produse, continutul in substanta activa poate doar sa descreasca in timp, si numai marginea inferioara a intervalului de incredere vs. curba timpului pot fi considerata relevanta. (o exceptie poate fi in cazul produselor lichide unde evaporarea solventului duce la cresterea concentratiei substantei active). Pentru a obtine acest domeniu de valori pentru X (timpul pentru continutul de minim 90%) folosind metoda estimatiei grafice asa cum este descrisa mai sus, presupune calcularea bandei de incredere pentru un domeniu suficient de intins pentru X.

Fig. 5. Banda de incredere 95% pentru linia de stabilitate

Banda de ncredere are form de hiperbol i ilustreaz variaia lrgimii intervalului de ncredere pentru diferite valori ale lui X, respectiv Y. 88

II.

Statistica matematica si biostatistica Regresia liniara

Calcularea intervalului de incredere pentru un X la o valoare specifica lui Y este 2 2 (1 g ) / N + X X / X X ( X g X ) [t ( S y ) / b] 1 g

b X X Aceasta procedura de estimare a lui X pentru o valoare data a lui Y se numeste adesea predictie inversa. 2

unde g =

2 t2 Sy

( )

2.8.4. Studiul stabilitii medicamentelor Exemplul 1: Studiul stabilitii n cazul comprimatelor de vitamina B1

(tiamim). Msurtorile privind rata de descompunere a unui medicament au mare importan n studiile despre medicamente, datele de stabilitate fiind de regul analizate prin metode statistice. Stabilirea unei date de expirare a medicamentului definete pragul de via a acestuia. n mod tipic, medicamentul este stocat/depozitat n condiii variate de temperatur, umiditate, lumin (intensitate a luminii) .a.m.d. i este analizat gradul de de stabilitate/descompunere a medicamentului la intervale de timp specificate. Experii stabilesc datele de expirare a medicamentului bazndu-se pe datele tiinifice referitoare la stabilitatea medicamentelor. Condiiile fizice ale testului stabilitii (de exemplu: temperatur, umiditate), durata testrii, programul analizei, ca de altfel i numrul loturilor, sticlelor i tabletelor trebuie analizate lund probe pentru studiile de stabilitate. O definiie i o implementare atente a acestor condiii sunt importante deoarece validitatea i precizia recomandrii termenului fina de expirare depinde de cum este realizat experimentul. Reglementrile GMP (Good Manufacturing Practice) stabilesc criteriile statistice, incluznd mrimea probelor test in functie de cele de referin (observarea i msurarea), intervalele pentru fiecare atribut/caracteristic msurat fiind folosite pentru asigurarea validitii estimrilor statistice de stablitate. Termenul de expirare trebuie s fie statistic valid. 89

II.

Statistica matematica si biostatistica Regresia liniara

Mecanismul determinrii duratei de via a medicamentului poate fi complex, mai ales atunci cnd sunt utilizate condiii extreme, cum ar fi cele pentru accelerarea studiilor de stabilitate (de exemplu temperatur ridicat i condiii de umiditate ridicate). De obicei condiiile extreme sunt utilizate n testarea stabilitii pentru a economisi timpul i pentru a obine o dat de expirare mai aproape de realitate. Toate produsele trebuie testate pentru stabilitate i n condiiile recomandate de productor (deci nu accelerate). FDA a sugerat ca cel puin trei loturi de produse s fie testate pentru a li se determina termenul de expirare. Este necesar a se nelege c pentru loturi diferite se pot obine rezultate de stabilitate diferite, mai ales n situaiile n care excipienii pot afecta stabilitatea. n aceste cazuri variaia ntre calitate i cantitate a aditivilor (excipienilor) ntre loturi poate afecta stabilitatea. O alt cauz pentru care se folosesc mai multe loturi pentru testarea/determinare stabilitii este acela de a asigura c toate caracteristicile de stabilitate sunt similare de la un lot la altul. Intervalurile de timp alese pentru analiza pstrrii probelor-martor depind de caracteristicile majore ale produsului i de stabilitatea anticipat. Un model statistic optim pentru studiul stabilitii ine seama de timpul de depozitare prevzut pn cnd medicamentul va fi supus analizei. Aceast problem este dezbtut pe larg de literatura farmaceutic. Totui, modelele rezultate din asemenea premise sunt de obicei greoaie i nepractice. De exemplu, din punct de vedere statistic, panta eficacitii/concentraiei funcie de timpul (graficul ratei descompunerii) se obine cu mai mult precizie dac jumtate din totalul punctelor observate sunt obinute la timpul 0, iar cealalt jumtate la finalul timpului de testare. Numitorul crete n aceste condiii, invers proporional cu variabilitatea pantei. n situaiile practice se va urmri informaia privind punctele de la nceputul i finalul analizei pentru a evaluarea ratei descompunerii pe durata studierii procesului de stabilitate precum i verificarea linearitii ratei de descompunere n funcie de timp. Cu ct se studiaz mai multe puncte experimentale se ndeplinesc mai bine cerinele regulatorii ale FDA-ului. Cei mai folosii timpi pentru efectuarea analizelor sunt la timpii t: 0, 3, 6, 9, 12, 18 i 24 luni i apoi la intervale anuale de timp. S lum n considerare o anumit formulare (ex.: comprimate) care fac obiectulul studiului stabilitii. Se aleg trei tablete la ntmplare, se analizeaz la: 0,3, 6, 9, 12 i 18 luni, dup producie, n condiiile temperaturii camerii (20 de grade Celsius). Datele sunt prezentate n tabelul de mai jos. 90

II.

Statistica matematica si biostatistica Regresia liniara Concentratia Y * 51, 51, 53 51, 50, 52 50, 52, 48 49, 51, 51 49, 48, 47 47, 45, 49 Media 51,7 51,0 50,0 50,3 48,0 47,0

Timp X (luni) 0 3 6 9 12 18

Lund n considerare aceste date, se propune stabilirea termenului de valabilitate care se definete ca durata de timp de la data fabricaiei pn cnd un comprimat conine 90% din substana activ declarat. Produsul luat n considerare are o concentraie declarat de 50 mg i cu o specificaie tehnic care prevede o supradozare de 4%; n acest caz productorul va fabrica tablete cu o concentraie de 52 mg de substan activ. Figura arat c datele sunt variabile. O examinare atent a acestui grafic sugereaz c dreapta este reprezentarea adecvat a acestor date.
54 53 52 Concentratie (mg) 51 50 49 48 47 46 45 44 0 2 4 6 8 10 timp (luni) 12 14 16 18 20

Aplicarea metodei dreptei celor mai mici ptrate este cel justificat n situaiile n care exist un model teoretic care s arate c scderea n concetraie este linear n raport cu timpul (n acest exemplu, un proces de ordin zero). Cinetica scderii concetraiei substanei active n timpul depozitrii n cazul formelor dozate solide este complex i un modelul este greu de conceput. n cazul de fa, se presupune c concetraia i timpul sunt n relaie linear: C ( t ) = C0 kt unde C(t) = concentraia la timpul t C0 = concentraia la timpul 0 (interceptul Y, A) 91

II.

Statistica matematica si biostatistica Regresia liniara

k = constanta t = timpul de depozitare Avnd ca obiectiv estimarea perioadei de valabilitate a medicamentului, cea mai uoar metod de analiz a acestor date este estimarea pantei i interceptului dreptei celor mai mici ptrate.(La o prim vedere putem estima panta i interceptul din ochi (metod grafic). Cnd facem calculele celor mai mici ptrate, reinem c fiecare valoare a timpului (X) este asociat cu trei valori ale concentraiei medicamentului (y). Dac calculm C0 i K, fiecare valoare de timp este numrat de trei ori i N este egal cu 18. Avem: X = ( 0 + 0 + 0) + (1 + 1 + 1) + .... + (18 + 18 + 18) = 144

X
X=

18 y = ( 51 + 51 + 53) +.... + ( 47 + 45 + 49 ) = 894

( 0 + 0 + 0 ) + (1 + 1 + 1) + .... + (18 + 18 + 18) = 8


2

= ( 02 + 0 2 + 0 2 ) + (12 + 12 + 12 ) + .... + (182 + 182 + 182 ) = 1782

y = ( 51
2

+ 512 + 532 ) +.... + ( 47 2 + 452 + 492 ) = 44476

51 + 51 + 53 + ... + 47 + 45 + 49 = 50 18 Xy = ( 0*51 + 0*51 + 0*53) +.... + (18*47 + 18* 45 + 18*49 ) = 6984 y=

( X X )
2

( y y)

2 2 = 3* ( 0 8 ) + ... + (18 8 ) = 630

= ( 51 50 ) + ( 51 50 ) + ( 53 50 ) + ... + ( 49 50 ) = 74
2 2 2 2

Avem: n Xy X y 18*6984 144*894 b= = = 0, 267 mg / luna 2 18*1782 1442 n X 2 ( X )


a = y b* X = 894 ( 0, 267 ) *8 = 51,80 18 Ecuaia dreptei de regresie este: C ( t ) = 51,80 0, 267 * t

Ca estimare a dispersiei folosim: 92

II.

Statistica matematica si biostatistica Regresia liniara


exp i

n2 =

SSE ( y =

yith )
2

n2 n

( y y) =
i

b2 X X n2

( y)

b2 X X
2

n2

44476 8942 /18 ( 0, 267 ) *630 = = 1,1825 18 2

Calcularea timpului n care concetraia comprimatului este de 90% din cantiatea de substan activ declarat, adic 45 mg, se folosete ecuaia C ( t ) = 51,80 0, 267 * t pentru calcularea lui t (timpul) pentru o concetraie de 45 mg (C = concetraia la care comprimatul conine 90% din substana activ declarat). C = 51,80 0, 267 * t t = 25, 5 luni Estimarea timpului la care concetraia comprimatului va fi de 90% din cantitatea declarat iniial (se regsesc 45 mg de substan activ dup 25,5 luni de la data fabricaiei). Aceasta este un rezultat mediu bazat pe datele a 18 tablete. Pentru o singur tablet, timpul de descompunere la 90% din cantitatea declarat de substan activ variaz n funcie de cantitatea de substan activ iniial (la t = 0, t este timpul). Cu toate acestea, perioada de valabilitate a medicamentului se estimeaz pe baza rezultatelor mediilor.
Exemplul 2:Studiul stabilitii tiaminei (forma farmaceutic comprimate) In tabelul urmtor se va lua un studiu al stabilitaii tiaminei (vitamina B1).
timpul (luni) t 0 3 6 9 12 concetratia in tiamina C (mg/tableta) 100 98.9 98.1 96.8 96.2

Timpul mediu este: t =

0 + 3 + 6 + 9 + 12 = 6 luni 5 n tabelul urmator sunt calculate:

93

II.

Statistica matematica si biostatistica Regresia liniara

t 0 3 6 9 12

t t
6 3 0 3 6

(t t )

C 100 98.9 98.1 96.8 96.2

Cd
100 99 98 97 96

Cd C
0 0.1 -0.1 -0.2 0.2

(C

36 9 0 9 36 total=90

0 0.01 0.01 0.04 0.04 Total=0.1

unde: C = concentratia in tiamina (mg/tableta) Cd = concentratia calculata din dreapta de regresie t = timpul Dispersia se obine astfel: 0 + 0, 01 + 0, 01 + 0, 04 + 0, 04 SSE s2 = = 0, 03 , adic s = = 0,18 53 n2 t ,n 2 = t0,1;5 2 = t0,1;3 = 2,35 (avem 3 grade de libertate)
Ts = s * t ,n 2 = 0,18* 2,35 = 0, 423

Dar, pentru un t fixat, considerand si eroarea de determinare experimentala: 1 C ( t ) = C0 k0t Ts 1 + + n

(t t ) (t t )
2 2

Se obine un interval de ncredere de 95% egal cu: 100 0,3* t 0, 423

(t 6) 1, 2 + 2 (t 6)

Pentru t=0 se obtine 100 0, 423 1, 6 = 100 0, 423*1, 264 = 100 0,535 [99, 465 ;100,535] Daca vom considera numai eroarea fata de dreapta de regresie 2 1 x0 x 2 . Vom putea construi un interval de incredere s y0 = s + 2 n xi x pentru punctul y fixat (deci o concentratie data).

94

II.

Statistica matematica si biostatistica Regresia liniara

Variabila aleatoare T =

y0 ( + x0 ) este repartizat Student cu ns y0

2 grade de libertate i permite calculul intervalelor de ncredere pentru + x0 .


2 x x x x 1 1 , y +t + + y 0 t , n 2 (S Y . x ) , n 2 (S Y . x ) 0 2 2 N N x x x x unde SY . x = s = 0, 03 ; 1/n=1/5=0.2 2

Se obine un interval de ncredere de forma: 100 0,3* t 0, 423

(t t ) 0, 2 + (t t )
2

Pentru t=0, concentratia activa initiala este estimata : 36 100 0, 423 0, 2 + = 100 0,327 [99, 673 ;100,327 ] 90
2.8.5. Regresia ponderata

Una din presupunerile implicite in aplicarea inferentei statistice este acela ca variatia lui y este aceeasi la fiecare valoare a lui X. Apar multe situatii in practica atunci cand aceasta presupunere nu este respectata. Un caz frecvent este acela cand variatia lui y este proportionala cu X. Aceasta apare cand y are un coeficient constant al variatiei (CV) si y este proportional cu X (y = BX), observat de obicei in metodele de analiza instrumentala in chimia analitica. Doua din abordarile posibile in rezolvarea acestei probleme sunt: a) O transformare a lui y pentru a face variatia omogena, cum ar fi transformarea logaritmica . b) O analiza de regresie ponderata.

95

II.

Statistica matematica si biostatistica Regresia liniara

O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi 1 este inversul patratutului acesteia 2 . Deci, in formulele pentru calculul Xi coeficientilor A si B valorile yi se vor inlocui cu valorile wi y i =
2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia
yi X i2

Se numesc reziduuri diferentele intre valorile calculate prin regresie si cele experimentale ( ceea ce , in alt context, numeam ca erori) Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau nonlinieritatea. Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate sunt valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si nar trebui sa apara nici o tendinta. Figura 6 arata un grafic al reziduurilor ca functie de X. Faptul ca reziduurile prezinta o forma de palnie, marindu-se pe masura ce X creste, sugereaza folosirea unei transformari logaritmice sau utilizarea unor ponderi pentru a reduce heterogeneitatea variatiei.

96

II.

Statistica matematica si biostatistica Regresia liniara

Valori reziduale

Valori reziduale logaritmate

10 9 8 Valoare reziduala 7 6 5 4 3 2 1 0 0 50 Concentratia 100 Valori reziduale

10 9 8 7 6 5 4 3 2 1 0 1 2 Concentratia (ln) 3 4 5

Fig. 6a Valorile reziduale in raport cu distributia normala

Fig.6b Valorile reziduale in raport cu distributia log normala. Mare parte din heterogenitatea variatiei a fost inlaturata.

Consideram o variabila aleatoare y care depinde liniar de variabila aleatoare x : y = + x Atunci cand facem determinarile experimentale noi nu stim nici daca cele doua variabile se coreleaza liniar si nici care este dreapta care descrie dependenta lor. Putem insa, prin analiza datelor experimentale sa determinam, prin metoda celor mai mici patrate, o estimare a dreptei y = a + bx daca vom considera un set de determinari ( y ij ) j =1, N corespunzatoare pentru
j

un xi dat :

97

II.

Statistica matematica si biostatistica Regresia liniara

Distanta de la un punct dat y ij la y se poate descompune in trei componente: distanta pana la y i - media punctelor y ij , distanta de la media grupului la valoarea estimata prin dreapta yi si distanta de la punctele de pe dreapta la media totala y : y ij y = y ij y i + y i y i + y i y Ridicand la patrat, sumand si tinand cont ca sumele de produse mixte sunt zero, se obtine :

) (

) (

(y

ij

) = (y
2

ij

yi

) + N (y
2 i

yi

) + N (y
2 i

sau
SS T = SS eroare + SS deviatie de la linearitat e + SS linearitat e

Observam ca, daca toate punctele ar fi pe o dreapta SS deviatie de la linearitat e va fi zero, deci aceasta suma este o masura a corelarii liniare. Intr-adevar : Sy y y = a + bx a bx = b x x = r xx Sx Facem observatia ca datele pot fi aproximate foarte bine dupa o alta lege (de exemplu y = k x cum este in cazul in care se aplica la dizolvare legea lui Higuchi). Se definesc coeficientul de corelatie si a raportului de corelare ca :

98

II.

Statistica matematica si biostatistica Regresia liniara

2 2 sY sY SS linear + SS deviatie de la linearitate SS linear X r2 = = si 2 = 2 SS total SS total sY

Raportul de corelare 2 este proportia de variabilitate a lui Y atribuabila covariantei cu X ; Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X .
Legatura intre panta dreptei de regresie si coeficientul de corelatie

Avem dupa definitie


r=

1 N

xi x y i y S x S y

In cazul in care punctele yi sunt toate pe o dreapta y i = a + bxi


1 r= N
x x a + bxi a b x 1 b xi x = iS N Sy SxSy x
i

N Deci, inlocuind mai sus


1 r= N

dar, S

2 y

(a + bx =

a bx

b 2 xi x N

= b 2 S x2

S2 1 b xi x r= = x2 = 1 N S x bS x Sx Cand punctele nu sunt pe dreapta, panta dreptei prin cele mai mici patrate b este: xi x y i y = xi x y i y = xi x y i y S y = r S y b= 2 Sx SxSy Sx S x2 x x
2

x x a + bxi a b x 1 b xi x = iS N Sy SxSy x

)(

)(

)(

Deci, b = r

Sy Sx

99

II.

Statistica matematica si biostatistica Regresia liniara

2.8.7. Stabilitatea dreptei de regresie in bioanalitica In bioanalitica si in chimia analitica in general, pentru fiecare concentratie, la stabilirea dreptei de etalonare se fac mai multe determinari. Curbele de etalonare (dreptele) trebuie sa treaca prin origine; adica in cazul acesta rezultatul trebuie s fie 0 dac concentraia de medicament este 0. Calcularea pantei este simplificat dac dreapta este forat s treac prin punctul de (0, 0). n cazul acesta nostru, dac interceptul este zero, panta este: Xy b= X2

Fig. 7. Curba care trece prin origine si are interceptul 0

Dac aceast dreapt urmeaz s fie folosit pentru a prevedea concetraiile actuale bazndu-se pe rezultatele analizei experimentale, vom obine rspunsuri care sunt diferite fa de cele previzionate de dreapta trasat anterior. Cu toate acestea, ambele drepte au fost construite din acelai date experimentale. Este vre-o dreapta care este corecta? sau Este una din cele 2 drepte mai buna decat cealalta?. Desi nu putem spune cu ncredere care dreapta este mai potrivita, este necesara o cunoastere a metodei analitice este foarte importanta in luarea deciziilor pentru una dintre cele 2 drepte. De exemplu, un intercept diferit de zero, sugereaz fie nonlinearitatea pentru un sir de analize fie prezena unei substane care interfereaz n proba de analizat. Dreapta pe care o vom folosi se va face pe baze statistice. Un test statistic al interceptului poate fi pornind de la ipoteza nula ca interceptul este 0, (H0: A = 0). Respingerea ipotezei este o dovad puternic c dreapta cu intereceptul pozitiv este cea mai adecvata pentru aceste date. 100

II.

Statistica matematica si biostatistica Regresia liniara

Se calculeaza apoi acuratetea sau exactitatea acestor determinari, cuantificata prin distanta valorii calculate prin regresie
Piroxicam

3.5 3.0
Area Analit/Area SI

2.5 2.0 1.5 1.0 0.5 0.0

Linear Regression Y = B*X + A Parameter Value Error A -0.0029 0.0079 B 0.3294 0.0019 R 0.9999

6 Conc (g/mL)

10

12

Fata de concentratia nominala, concentratia care s-a preparat efectiv ( pe care o consideram ca nu este afectata de erori). In momentul in care media determinarilor efective la una din aceste concentratii se modifica, si dreapta de regresie se va modifica si deasemena si distantele tuturor punctelor experimentale la aceasta dreapta. Este de dorit o dependenta stabila a acuratetei punctelor de acuratetea datelor de intrare, in sensul ca o eroare mica in preparare sau in masurare, sa afecteze putin acuratetea dreptei. In mod concret , consideram datele experimentale de la determinarea dreptei de etalonare a piroxicamului in probe de plasma (fig. 5). Orice eroare in preparare sau masurare schimba dreapta. Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 % la limita de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de cuantificare. Acuratetea punctelor dupa o schimbare de 10% a conc. experimentale la diferite limite de cuantificare

101

II. Tabelul nr. 7

Statistica matematica si biostatistica Regresia liniara

Limita inferioara de cuantificare


Conc 0.1 0.25 0.5 1 2.5 5 10 A/SI 0.0240 0.0818 0.1570 0.3396 0.7903 1.6711 3.2840 Conc exp 0.083 0.259 0.487 1.041 2.409 5.083 9.978 Acc 83.3 103.4 97.4 104.1 96.4 101.7 99.8 Acc initial 90.014 102.841 97.070 103.991 96.321 101.643 99.786

Limita superioara de cuantificare


Conc 0.1 0.25 0.5 1 2.5 5 10 A/SI 0.0267 0.0818 0.1570 0.3396 0.7903 1.6711 3.6124 Conc exp 0.164 0.318 0.527 1.037 2.294 4.752 10.168 Acc 164.1 127.1 105.5 103.7 91.8 95.0 101.7 Acc initial 90.01 102.84 97.07 103.99 96.32 101.643 99.786

Se observa ca efectul erorilor la concentratii mici asupra celorlalte concentratii este neglijabil, in timp ce efectul erorilor la valori mari asupra acuratetei concentratiilor mici este critic , transformandu-le pe acestea in valori discordante.

Concluzii

n studiul stabilitaii medicamentului, pe lng determinariile practice de stabilitate, aplicarea metodei regresiei lineare are un rol important. Astfel determinarea intervalului de ncredere pentru a stabili termenul de valabilitate al unui medicament se obine folosind aceasta metoda. Cu ajutorul dreptei de regresie (dreapta celor mai mici ptrate) se pot face estimari pentru a stabili valabilitatea unui produs. Aa cum s-a aratat in exemplul tabletelor cu tiamin, se ia in considerare limita inferioar in calculul stabilitii unui medicament, deoarece practic durata de via a unui medicament se situeaz intre limitele acestui interval. n acest fel putem fi siguri ca data de expirare care este nscrisa pe cutie, este practice sub data efectiv de expirare i se nlatur eventualele erori care apar n calculul statistic. De regul durata de valabilitate se calculeaz astfel nct la termenul de expirare, forma farmaceutic luat n considerare (n cazul nostru tabletele de tiamin) s conin cel puin 90% din substana activ declarat, respective dozat. Lund n considerare aceste lucruri, estimarea dreptei de regresie, respective a parametrilor ei joac un rol foarte important in studiul stabilitii unui medicament, indiferent de forma farmaceutic luat n calcul. 102

II.

Statistica matematica si biostatistica Regresia liniara

Calculul intervalelor de ncredere sunt necesare de asemenea pentru a stabili durata de viaa a unui medicament. Practic ele conduc la stabilirea valabilitii acestor. Tocmai de aceea se ia n considerare limita inferioar a acestor intervale. n acest mod se elimin o parte din erori. n momentul datei limit a valabilitii unui medicament, acesta trebuie sa nu fi pierdut mai mult de 10% din cantitatea aflat iniial n produsul luat n calcul. n estimarea ntervalelor de ncredere pentru stabilirea valabilitii unui medicament, analizele se fac de regul la 0, 3, 6, 9, 12 luni, iar mai apoi anual. De asemenea se pot efectua i studii de stabilitate accelerate, la timpi mai scuri dar n condiii de temperatur i umiditate crescute.

103

II.

Statistica matematica si biostatistica Regresia liniara

104

II.

Statistica matematica si biostatistica ANOVA

2.9. Metode statistice de analiza factorilor de variabilitate n experimentul biologic (ANOVA) S cercetm, n continuare, problema comparrii mai multor selecii provenite din populaii pe care le tim ca fiind normal repartizate, de exemplu concentraiile plasmatice realizate de tablete care conin diferii excipieni, dar care au aceeai substan activ, n aceeai doz. Vrem s verificm ipoteza compus c acestea provin de fapt din aceiai populaie, avnd media i dispersia , deci c excipienii folosii nu influeneaz semnificativ cedarea i absorbia substanei active: H 0 : 1 = 2 = 3 = 4 fa de ipoteza alternativ c cel puin dou medii nu sunt egale. O variant de rezolvare a problemei ar fi compararea mediilor de selecie dou cte dou prin metodele prezentate anterior. Fie, de exemplu, relaia ntre mediile de selecie x1 x2 x3 x4 . Este evident greit a aplica o relaie de tranzitivitate i a spune c 1 = 2 i 2 = 3 i 3 = 4 1 = 2 = 3 = 4 . Motivul acestei erori este legat n primul rnd de violarea unui principiu de baz al teoriei seleciei: alegerea la ntmplare a seleciilor. Ori compararea loturilor dup criteriul a posteriori, al mrimii mediilor de selecie este ntr-adevr o abatere de la acest principiu. Mai mult, nici mcar 1 = 4 nu implic n acest caz 2 = 3 din cauza dependenei rezultatului testelor de relaiile ntre dispersiile populaiilor din care provin seleciile. Ca urmare, problema comparrii mai multor selecii (loturi) trebuie abordat prin alte metode care s fac compararea tuturor seleciilor n acelasi timp. O astfel de abordare se bazeaz pe compararea dispersiilor de selecie i se numete analiz dispersional. Analiza dispersional este o alt metod fundamental a statisticii care, n plus fa de mijloacele de calcul a tendinei centrale a rezultatelor experimentelor repetate, caracterizeaz mai ales variabilitatea acestora i factorii ce o determin. Variabilitatea se poate datora existenei unor factori cu influene sistematice, a unor factori aleatori de fluctuaie mai pronunat i, n final, factori locali, inevitabili, determinnd o fluctuaie mai mic, definita ca 105

II.

Statistica matematica si biostatistica ANOVA

fluctuaie experimental. Analiza dispersional i propune separarea variabilitii totale n: variabilitatea datorat factorilor sistematici, variabilitatea factorilor cu efecte aleatoare, plus o variabilitate rezidual (diferena pn la variabilitatea total), care reprezint de fapt variabilitatea experimental. Din aceste variabiliti se evalueaz dispersiile pariale corespunztoare diferiilor factori, calculndu-se semnificaia rapoartelor lor prin aplicarea testului F. Principial datele experimentale se grupeaz n funcie de diferite criterii i se urmresc efectele asupra variabilitatii n funcie de aceste criterii, efecte care se cuantific n raport cu variablitatea rezidual. Analiza dispersional este cunoscut n aplicaiile de biofarmacie i farmacocinetic sub denumirea de ANOVA (de la Analysis of Variance). 2.9.1. Analiza funcional unifactorial Cea mai simpl analiz dispersional, numit analiz dispersional unidimensional sau unifactorial (numit n literatura englez i one-way ANOVA) sau experiment complet aleator, experiment cu grupuri paralele, corespunde testului t de analiz a dou eantioane independente i compar dou sau mai multe grupuri. De exemplu, n pacieni sunt grupai n k scheme de tratament. Putem s comparm efectele a dou medicamente administrate la mai multe grupuri de voluntari, la care se poate adauga i un grup placebo. Voluntarii se distribuie aleator n toate grupurile. Dup msurarea unui parametru dat, se testeaz ipoteza nul c toate valorile parametrului testat sunt egale n populaia corespunztoare diferitelor tratamente testate, deci tratamentele sunt echivalente ntre ele. In ipoteza c toate grupurile aparin aceleiai populaii, ideea testului este aceea c variabilitatea n interiorul grupurilor trebuie s fie de acelai ordin cu variabilitatea ntre mediile grupurilor. n consecin, dispersia total, evaluat ca suma a ptratelor diferenelor ntre valorile individuale i media ntregii populaii selectate SST, este separat ntr-o parte datorit variaiei ntre grupuri (within), sau variabilitii interioare i o parte datorit variabilitii dintre (between) grupuri: SS T = SSW + SS B . Dac numrul de grupuri este k i numrul de subieci n grupul i este ni aceast egalitate poate fi explicitat dup cum urmeaz:

106

II.
n i ni

Statistica matematica si biostatistica ANOVA

SS T = xij X
j =1

)
i

(1)
ij

unde X = media

x mare = n
j i

nX = n
k 1 i k 1 i

x
N

i X i

este media

grupului i. Fixnd grupul i putem scrie

(x
ni j ni j

ij

) = [(x
2 ni j =1 2 ni j

ij

Xi + Xi X X

) ( )
2

)]

= xij X i

) + (X

+ 2 xij X i X i X
j

ni

)(

Ultimul termen este egal cu ni 2 X i X xij X i = 2 X i X ni X i ni X i = 0 j i (1) devine

)(

SST = ni X i X
i

) + (x
2 k i ni j

ij

Xi

= SS B + SSW

(2)

relaie cunoscut ca identitatea analizei dispersionale. Considerm variabilele aleatoare: SSW SSW SS T SS T SS 2 2 2 sT = = = , sB = B i sW = . k 1 ni 1 N 1 ni k N k innd cont de regula general demonstrat mai nainte c, (n 1) x2 2 2 (n 1) avem,

SSW = xij x.i


i, j 2 Deci, sW =

) = ( n 1)
2 i i

( x
j

ij

x.i

ni 1

= ( ni 1) si2
i

SSW 2 2 ( (ni 1)) = 2 2 ( N k ) (ni 1)

107

II.

Statistica matematica si biostatistica ANOVA

SS B 2 2 2 2 k 1 = S B este Analog, s B (k 1) i deci raportul F = 2 SSW SW N k distribuit F ( k 1, N k ) . SS B 2 = sx reprezint = i k 1 k 1 dispersia de selecie ponderat a mediilor de grup fa de marea medie. Abaterile mediilor grupurilor fa de media general depind att de hazardul msuratorilor ct i de factori ce in de nssi natura grupurilor. Abaterile n interiorul grupurilor sunt independente de aceti factori, deoarece fiecare valoare msurat este raportat la nsi media grupului respectiv. Ele reprezint fluctuaii aleatoare. Variabilitatea n interiorul grupurilor reprezint diferena ntre variabilitatea total i variabilitatea ntre grupuri. Pentru simplificarea calculelor n aplicaiile practice s-au introdus Se observ c de fapt notaiile

n (X
k i

x
i j

ni

ij

= x i

x
i j

ni

2 ij

= x 2 i formulele precedente se

aduc la forme echivalente ce presupun un volum mai mic de calcule, dup cum urmeaz:

SST

( x ) + N ( x ) = (x X ) = x 2 X x + N X = x 2 N N ( x ) = x ( x ) = x N N
2 2 ij 2 ij 2 ij 2 ij ij ij 2 2 2 2 ij ij 2
k

SS B = ni X i X
1

ni ni xij xij xij 2 k = k j =1 ( x ) j =1 i j = 1 n k k ni 1 i 1 ni ni


1

108

II.

Statistica matematica si biostatistica ANOVA

2.9.1.1. Aplicarea ANOVA in testarea ipotezei privind depdendenta liniara a datelor Evaluarile statistice de pana acum permit determinarea unei drepte sau a unui fascicul de drepte care aproximeaza evolutia fenomenului descris de datele experimentale. Un astfel de rezultat se poate obtine oricand, chiar si atunci cand evident evolutiile nu urmeaza un model liniar. Deci, cea mai buna dreapta poate fi in fond foarte proasta. Din acest motiv este nevoie si de teste statistice care sa verifice ipoteza ca efectiv un model liniar este aplicabil. a) Testarea linearitatii : Pornind de la cele prezentate in capitolul privind regresia liniara, SS observam ca SS eroare are N I grade de libertate si deci MS eroare = eroare N I 2 avem ca E (MS eroare ) = e In cele ce urmeaza vom calcula media sumei MS linear ;

E (MS linear ) = E y i y

) ) = E ( (a + bx a b x) ) = (x x) E (b )
2 2 2 2 i i
2

Dar, E (b 2 ) = D (b ) + [E (b )] = Folosind relatia b = r Sy Sx

(x

2 y i

+ [E (b )]

E (b ) =

x si y
2 y = 2 x

2 y E (MS linear ) = xi x xi x

2 =y +

(x

2 x 2 y

+ 2

2 x

2 2 = y + N 2 y

In fapt aici am presupus ca pentru fiecare punct xi valorile


2 corespunzatoare y ij au o dispersie y x care este aceeasi pentru toate 2 punctele xi si deci putem sa o notam cu y sau e2 . Lucrurile nu se intampla intotdeauna in acest fel. De exemplu in cazul dreptei de etalonare in bioanalitica dispersiile sunt practic semnificativ

109

II.

Statistica matematica si biostatistica ANOVA

mai mari la limita de cuantificare (pana la 20%) fata de restul concetratiilor la care limita admisa pentru precizie este de 15%. Ipotezele de verificat sunt : H0 : = 0 echivalenta cu H0 : = 0 folosind variabila aleatoare F1, N I =

MS linear . MS eroare

b) Testarea ipotezei de nonlinearitate : H 0 : 2 2 = 0 Pentru aceasta se compara valorile MS deviatie de la linearitate cu valorile din distributia Fischer. FI 2, N I = MS eroare

testului

Raportul de corelare 2 este proportia de variabilitate a lui Y atribuabila covariantei cu X ; Coeficientul de determinare (corelatie) este proportia de variabilitate a lui Y atribuabila covariantei liniare cu X .
2.9.1.2. Compararea parametrilor farmacocinetici ai unui medicament dup administrarea pe mai multe ci S considerm constanta de eliminare (Tabelul 8) pentru un medicament administrat ntr-o singur doz oral i i.v., iar i.m. timp de trei zile la diferite grupuri. Este de ateptat ca eliminarea s fie independent de calea de administrare. Vom compara constantele de eliminare dup administrarea oral i i.m. 4 1 Tabelul nr. 8: Constanta de eliminare k e 10 min
Oral prima doza 106 109 160 375 48717 3 2 125 i.m. o doza 55 40 109 204 16506 3 2 68 i.m. a-5-doza 84 105 174 363 48357 3 2 121

x x
ni

ij 2 ij

x = 942 x = 113580
2

N=9

ni 1

(n

1) = 6

xi
110

II.

Statistica matematica si biostatistica ANOVA

SST

( x ) = (x X ) = x N
2 2 ij k

= 113580
2

9422 = 14984 9
2

SS B = ni X i X
i =1 2 2

ni xij xij k j =1 i j = = k ni 1 ni
1 2 2

375 204 363 942 + + = 46875 + 13872 + 43923 98596 = 6074 3 3 3 9

SSW = SS T SS B = 14984 6074 = 8910

SSW SS B 6074 8910 2 = = 1485 , s B = = = 3037 N k k 1 6 2 2 s B 3037 F (k 1, ni k ) = F (2,6 ) = 2 = = 2,07 valoare aflat n zona de sW 1485 acceptare ( f 2, 6;97 ,5 = 7,26 si f 2, 6;99 = 10,92 )
2 sW =

Aplicm n continuare acelai procedeu, introducnd i administrarea i.v. 4 1 Tabelul nr. 9: Constanta de eliminare k e 10 min
106 109 160 375 48717 3 2 125 i.m. o doza 55 40 109 204 16506 3 2 68
2 2

x x
ni

ij 2 ij

i.m. a-5-doza 84 105 174 363 48357 3 2 121


2

i.v. 63 70 133 8869 2 1 66

x = 1075 x = 122449
2

N=11

ni 1

(n

1) = 7

xi
SST

( x ) = (x X ) = x N
ij

10752 = 122449 = 17392 11 111

II.

Statistica matematica si biostatistica ANOVA

SS B = ni X i X
i =1 2 2

ni xij xij k j =1 i j = = k ni 1 ni
1 2 2 2

375 204 363 133 1075 + + + = 11 3 3 3 2 = 46875 + 13872 + 43923 + 8844 105056 = 8428 SSW = SS T SS B = 17392 8428 = 8964

SSW SS B 8428 8964 2 = = 1280 , s B = = = 2809 N k k 1 7 3 2 s B 2809 F (k 1, ni k ) = F (2,6) = 2 = = 2,19 valoare aflat n zona de sW 1280 acceptare ( f 2, 6;97 ,5 = 7,26 i f 2, 6;99 = 10,92 )
2 sW =

2.9.1.3. Condiii necesare pentru aplicarea analizei dispersionale. a) Modelul variabilei aleatoare supus msuratorilor Subliniem ceea ce am spus sau am presupus ca i condiii prealabile pentru a putea aplica testul prezentat: 1) Pentru ca sumele calculate s fie repartizate 2 este obligatoriu ca seleciile s provin din populaii repartizate normal. Dac acest lucru nu se ntmpl, rmne s fie aplicate teste neparametrice, dup cum s-a prezentat anterior. 2) Analiza dispersional compar dispersia ntre grupuri cu dispersia total din interiorul grupurilor pentru punerea n eviden a efectelor sistemice. Dispersiile n populaiile din care provin grupurile s-au presupus egale. Pentru verificarea acestei ipoteze se poate aplica testul F dispersiilor de selecie luate dou cte dou, sau se poate aplica testul Bartlett. 3) Aditivitatea efectelor de intra i intervariabilitate, fenomen care depinde de natura intim a fenomenului msurat. Ca urmare rezultatul masuratorilor este o variabila aleatoare care se poate scrie: xij = + i + ij cu E ( ij ) = 0 i D( ij ) = e2 unde este

112

II.

Statistica matematica si biostatistica ANOVA

2 media general a populaiei, D ( ) = , i este un factor fix ce variaz de la un grup la altul i este egal cu diferena ntre i media grupului i = + i , iar ij este eroarea de msurare.

Media

X i = + i +

n ij
n

determinri

interiorul

unui

grup

este

= + i + i deoarece i i sunt constante.

Mai departe xij X i = ( + i + ij ) + i + i = ij i i dispersia n


2

= + + deoarece k kn i variaz de la un grup la altul iar este acelai pentru ntreaga populaie.
i

Media general va fi: M = +

ij

interiorul grupului va fi: s


2 i

2 i

) (x X ) = ( =
ij i

ij

2 2 xij X i = E ij i = 2 (din faptul c aa cum s-a E (s ) = E e ni 1 ni 1 2 2 artat mai nainte E (s x ) = 2 , s x fiind un estimator nedeplasat al dispersiei). Sumnd pentru toate grupurile se obine 2 ( ni 1) Si2 ( ni 1) E ( Si ) N k 2 2 = e2 E ( sw ) = E = = N k N k N i 2 Deci s w este un estimator nedeplasat al lui 2 indiferent dac ipoteza H 0 este adevrat sau nu. Dac n1 = n2 = ... = nk = n

ni 1

ni 1

iar media ei este

2 sB =

= e2 i n k 1 n ceea ce privete avem dou cazuri n funcie de cum a fost ales: 2 2 2 a) este o variabila aleatoare N (0, ) , atunci s B = ns + s e2 si
i
2 2 E s B = n + e2

( ) n

2 2 2 1 n SS B i + i ni X i X = = k 1 k 1 k 1
2

= ns2 i E ( ns2 ) = n

e2

( )

113

II.

Statistica matematica si biostatistica ANOVA

b) i

k 1 k 1 Daca ne referim la grupe oarecare, alese ntmplator din toate seleciile posibile din ntreaga populaie, este o variabil aleatoare care aparine 2 N (0, ) , dar nu mai avem i = 0 pentru o grup de selecie oarecare. Este cazul cnd concluziile ce ne intereseaz se refer, n principal, la ntreaga populatie i nu la arjele cercetate, de exemplu cand dorim sa verificam omogenitatea populatiei. Calcule similare arat c, atunci cnd n1 = n2 = ... = nk = n ,
2 2 2 2 s B = ns + s e2 i E (s B ) = e2 + n .

2 B

( =n

factori fici , i = i i = 0 i = 0 , atunci


i

0)

+s

2 e

i E (s ) = n
2 B

2 i

+ e2

SS B este o estimatie nedeplasat a lui e2 numai k 1 atunci cnd ipoteza H 0 este adevrat.
2 Ca urmare, s B =

b) Clasificarea ierarhic n trepte. Scindarea dispersiei totale n dispersii pariale ale treptelor. Dac vom considera eroarea unei metode de analiz, este de ateptat ca aceasta s fie egal cu suma erorilor pariale ale fazelor analizei. Scindarea erorii totale n erorile pariale ale fazelor ofer posibilitatea punerii n eviden a fazelor ce determin diminuarea reproductibilitii i a locului unde trebuie intervenit pentru mbuntirea metodei. 2.9.2. Analiza dispersional multifactorial n analiza anterioar criteriul de mprire n grupuri a fost unul singur calea de administrare sau perioada de administrare. n continuare ne vom ocupa de cazul cnd vrem s determinm ponderea a doi factori n acelai timp, folosind datele obinute ntr-un singur experiment. Pentru simplificarea scrierii prezentm pentru nceput cazul cnd testm k medicamente continnd aceeai substan activ, administrate n n perioade diferite. Se consider c efectele determinate de cei doi factori analizai sunt variabile aleatoare independente. Avnd doi factori, se testeaz dou ipoteze de nul. Dac vom aeza datele ntr-o matrice, liniile i coloanele

114

II.

Statistica matematica si biostatistica ANOVA

corespunznd respectiv pentru valori date ale primului i ale celui de al doilea factor, o prim ipotez se refer la egalitatea mediilor liniilor, iar a doua la egalitatea mediilor coloanelor. Ipoteza alternativ presupune existena unor diferene ntre linii sau respectiv ntre coloane.
Tabelul nr. 10 : 1 Perioada Tratament 2 . . . n Medicament 1 X11 X21 2 X12 X22 k X1k X2k

x1. x 2.

Xn1

Xn2

xnk

x n.

x.1

x.2

x. k

unde x. j reprezint media valorilor din coloana i, iar xi. reprezint media valorilor din linia j. In experimentele clinice analiza dispersionala pe 2 cai este asociata unui tip special de experiment numit experiment cu blocuri complet randomizate. Modelul acestui tip de experiment a fost dezvoltat in 1925 de catre R.A.Fischer 1 care a cercetat productivitatea mai multor soiuri de grau, numite de el tratamente, semanate in mai multe blocuri omogene formate din mai multe loturi, loturi ce difereau intre ele prin compozitia solului. Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul blocurilor. In acest fel fiecare bloc include toate tratamentele. Distributia aleatoare se face in fiecarui bloc. Obiectivul studiului este de a separa efectele reziduale aleatoare de efectele de bloc. Eficacitatea studiilor depinde de omogenitatea blocurilor. Aceste conditii, suplimentare conditiilor de distributie normala si de egalitate a dispersiilor, sunt greu de asigurat intotdeauna drept pentru care trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului.

R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York, 1958

115

II.

Statistica matematica si biostatistica ANOVA

2.9.2.1. Modelul variabilei aleatoare. Valorile experimentale le considerm ca rezultanta unor efecte aditive corespunztor liniilor, coloanelor i erorilor ntmpltoare: xij = + i + j + ij

unde i este partea lui x ij datorat liniei (schemei de administrare), j reprezint contribuia coloanei (forma medicamentoas), iar ij este eroarea experimental. Modelul este in esenta un model aditiv prin aceea ca nu presupune interactiuni intre factori. Intr-o prezentare grafica, atunci cand consideram raspunsurile pentru un factor tinut constant si un factor ce ia doua valori diferite (numite de regula nivele ) sa obtinem linii paralele. De exemplu, consideram liniile de sub curba (AUC) ale propafenonei si hidroxi-propafenonei pentru doua medicamente, testat T si referinta R, administrate la aceiasi subiecti 2 .
Propafenona

C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites, Biointernational 2005, Octomber 24th-26th, London

116

II.

Statistica matematica si biostatistica ANOVA

Hidroxi-propafenona

2.9.2.2. Scindarea sumei ptratelor abaterilor. Suma ptratelor abaterilor valorilor individuale fa de media generala M este: 2 SS T = (xij x ) , expresie ce se poate scrie i n forma:

[( ) ( ) ( (x x ) + (x x ) + (x x x + x )
2 2 2 L C ij L C

SS T = (xij x ) = x L x + xC x + x x L xC + x
2

)]

= SS L + SS C + SS R

Produsele mixte nu s-au mai trecut deoarece sunt nule. Am scindat aadar variabilitatea total ntr-o component dat de linii, o component dat de coloane i o component rezidual. Corespunztor rezultatelor prezentate la analiza unifactorial, aici se poate arta c: E (SS T ) = (nC n L 1) 2 + n L i2 + nC j2
E (SS C ) = (n L 1) 2 + nC j2 E (SS L ) = (nC 1) 2 + n L i2

E (SS R ) = (nC 1)(nL 1) 2

117

II.

Statistica matematica si biostatistica ANOVA

In cazul analizei bifactoriale apar dou ipoteze de nul pe care vrem s le testm: ( H 01) : toate formele de tratament (liniile) sunt echivalente, adica i = 0 ;
( H 02 ) : toate medicamentele (coloanele) sunt echivalente, adica j = 0 .
2 Indiferent dac ipotezele sunt adevrate sau nu, E (s R ) = 2 . 2 2 2 Dac cele dou ipoteze sunt adevrate: s e2 = s R , sC si s L sunt

estimaiile nedeplasate ale lui 2 . Pentru a testa ipoteza H


(2 ) (1)
2 sL este natural s considerm raportul 2 , se

2 sC iar pentru ipoteza H raportul 2 . se n cazul n care pentru fiecare combinaie de cauze se fac mai multe determinri folosind mai muli voluntari, variabilitatea se poate scinda n patru componente: SS T = SS L + SS C + SSW + SS R

2.9.2.3. Variaia unui parametru farmacocinetic att n funcie de calea de administrare ct i n funcie de numrul de administrare Constanta de eliminare k e 10 4 min 1 Tabelul nr. 11:
Oral doza 106 109 160 375 48717 3 2 125
2

prima

x x
ni

i.m. doza 55 40 109 204 16506 3 2 68

i.m. doza 84 105 174 363 48357 3 2 121

a-5-

i.v. 63 70 133 8869 2 1 66

2 i

x = 1075 x = 122449
2

N=11

ni 1
xi

(n

1) = 7

= 17392 N Mai departe considerm dou grupuri: voluntarii crora medicamentul li s-a administrat o dat i voluntarii care au primit 5 doze.

SS T = x

( x )

118

II.

Statistica matematica si biostatistica ANOVA


2

363 2 (375 + 204 + 133) SS B (nr.doze ) = + 105056 = 2235 3 8 SSW = SS T SS (nr.doze ) = 17392 2235 = 15157 SSW SS B 15157 15157 = = 1684 , = = 15157 N k 9 k 1 1 15157 F (k 1, ni k ) = F (1,9) = = 9 care aparine zonei de acceptare 1684 pentru riscul 0,01 ( f1,9;99 = 10,56) dar nu aparine zonei de acceptare

pentru 0,05

1075 2 = 17392 i 11 Un alt factor care poate influena concentraia n snge este calea de administrare. SS T
2 2

( x ) = (x x ) = x N

(f

1, 9;95

= 5,12) .

= 122449

SS B (cale ) = ni xi X
i =1 2 2 2

ni xij xij k j =1 i j = = k ni 1 ni
1 2

375 204 133 1075 + + = 3 3 2 11 46875 + 13872 + 43923 + 8844 105056 = 8428 2 363 2 (375 + 204 + 133) SS B (nr.doze ) = + 105056 = 2235 3 8 SSW = SS T SS B (cale ) SS B (nr.doze ) = 17392 8428 2235 = 6792 n acest fel am obinut urmtoarele rezultate: =
Tabelul nr. 12

Sursa de variaie GL SS Rapotul F ntre cile de administrare 3 8428 f(3,6)=1,24 ntre numarul de doze 1 2235 f(1,6)=0,32 Variaia intragrupuri 6 6792 Variaia total 10 17392 i comparnd cu valorile din tabelele de repartiie Fisher se constat c poate fi acceptat ipoteza c toate grupurile cercetate aparin aceleiai populaii statistice. Deci, nici calea de administrare i nici numrul de doze nu influeneaz rata eliminrii.
119

II.

Statistica matematica si biostatistica ANOVA

2.9.2.4. Compararea biodisponibilitii unei substane active administrate n preparate diferite i n perioade diferite de tratament. Trei medicamente au fost administrate la nou subieci ntr-un studiu de biodisponibilitate obinndu-se ariile de sub curb prezentate mai jos :
Perioada Pacient 1 Pacient 2 Pacient 3 Pacient 4 Pacient 5 Pacient 6 Pacient 7 Pacient 8 Pacient 9 Suma pe perioad Suma pe medicament Media pe medicament 1 B=107 A=100 B=98 C=71 A=92 C=113 B=169 C=88 A=122 I: 160 A: 945 105 2 C=102 C=106 A=90 B=54 B=111 A=115 A=107 B=95 C=168 II: 1028 B: 969 107,7 3 A=99 B=89 C=128 A=63 C=107 B=91 C=195 A=77 B=155 III: 1004 C: 1078 119,8 Suma 308 295 316 188 310 319 551 260 445

x = 2992 x = 364720
2

Separm acum varianta n patru componente: pacieni, perioad, medicament i eroarea n interiorul tuturor grupurilor. SS T = x
2

( x )
N
9 i =1

= 33162,1
2 2

SS B ( pacienti ) =

( linie ) ( x )
3 N
3 i =1

= 29834,1
2 2

SS B (medicament ) = SS B I ( perioada ) =
2

( medicament ) ( x )
9 N + II 2 + III 2

= 1116,5
2

= 264,3 9 N SSW = SS T SS B ( pacienti ) SS B (medicament ) SS B ( perioada ) = 1947,2 Pe aceasta cale obinem:


Sursa de variaie ntre pacieni ntre medicamente ntre perioade Variaia intragrupuri Total DF 8 2 2 14 26 Suma ptratelor 29834,1 116,1 264,3 1947,2 33162,1 Media 3729,3 558,3 132,1 177 Raportul F 3,15 0,75

( x )

Deoarece f 2,14;0,99 = 3,74 nu exist diferene semnificative ntre cele dou medicamente dup administrare unic sau administrri multiple. 120

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

2.10. Estimarea efectelor intr-un experiment standard cross-over prin teste t 2.10.1. Modelul statistic Considerm dou medicamente, unul de testat (T) i altul de referin (R), administrate n dou perioade (I i II). Raiunea principal a experimentului cross over, eveniment n care o parte din subieci primesc cele dou medicamente n secvena RT, iar cealalt parte n secvena TR, este aceea c, analiza datelor obinute poate pune n eviden efectele reziduale, sau carry over, cum mai sunt numite, ale administrrii n prima perioad, asupra rezultatelor obinute n perioada a doua. n cazul existenei unor astfel de efecte este necesar s se poat face distincia ntre efectele directei efectele reziduale. Efectul direct este efectul ce l are medicamentul n perioada n care este administrat, pe cnd efectul carry over este efectul pe care acesta l are n perioada urmtoare administrrii sale. Spunem c un medicament are un efect carry over de ordin k, dac efectul primei administrri se manifesta i dup k perioade de administrare. Rezultatele experimentului sunt variabile aleatoare Yijk pe care le considerm avnd urmtoarea structur: Yijk = + Sik + Pj + F( j ,k ) + C( j 1,k ) + eijk unde este media totala, i este indicele pentru subiect, i = 1, nk , j este indicele pentru perioad i k este indicele pentru secvena. F( j ,k ) este efectul direct, fix, al medicamentului (formulrii) administrat n perioada j, n secvena k (Observaie: efectul este de fapt cantitatea de medicament msurat). FR F T RT Schema de administrare fiind TR avem c (F( j ,k ) ) = F F i, T R din faptul c este media lui Yijk avem

F(

j ,k )

= 0 si

C(

j 1, k )

= 0.

C ( j 1, k ) este efectul carry over (fix) al medicamentului administrat n

perioada j-1 (considerm c, datorit existenei unui interval de timp de splare, efectul carry over nu depete o perioad). eijk reprezint eroarea aleatoare n msurarea valorilor individuale pentru fiecare subiect. Considerm ca variabilele S ik sunt repartizate identic, cu media 0 i dispersia s2 , iar variabilele eijk sunt repartizate N (0, e2 ) . n fapt, dispersiile erorilor pot diferi de la un medicament la altul. 121

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

2.10.2. Testarea efectului secvenei de administrare Pentru efectul secvenei de administrare sau a efectelor carry over, considernd urmtoarele totaluri pe subieci n cadrul unei secvene date: U ik = Yi1k + Yi 2 k , i = 1, nk , k = 1,2 (R+T si respective T+R) Valoarea medie i dispersia variabilelor U ik vor fi:

u2 = D (U ik ) = 2(2 s2 + e2 ) pentru toi subiecii. Fie C = CT C R . C poate fi folosit pentru determinarea efectelor carry over. Datorit restriciei CT C R = 0 efectele carry over sunt egale pentru cele dou formulri, adic C = 0 , dac i numai dac CT = C R = 0 . Ca urmare, testarea absenei efectelor carry over este echivalent cu testarea egalitii acestora. Cnd efectele carry over sunt absente, efectul direct al medicamentului (F = FT FR ) poate fi estimat pe baza datelor din amndou perioadele. Dac efectele carry over nu sunt egale, nu exist un estimator nedeplasat pentru efectul direct al medicamentului, din acest motiv fiind necesar testarea prealabil a existenei efectelor carry over. Consideram de exemplu ca efectul medicamentului R este 9 si cel al medicamentului T este tot 9, efectul de perioada este 0 si efectul rezidual este 1 pentru R si 2 pentru T. Vom avea rezultatele:
Secv. RT Secv. TR PI 9 9 PII 9+1 9+2

2 + CR , pentru subiectii in sec venta 1 E (U ik ) = 2 + CT , pentru subiectii in sec venta 2 D (U ik ) = D (2 S ik + i1k + i 2 k ) = 4 s2 + 2 e2

Diferenta aparenta R-T va fi: 1 [(PI PII )sec v1 + (PII PI )sec v 2 ] = 1 [( 1) + 2] = 1 2 2 2

122

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

Daca insa efectele de secventa sunt 10 pentru R si 9,5 pentru T, atunci efectul de perioada este tot 0, iar efectele carry over egale amandoua cu 1, vom gasi: Secv. RT Secv. TR PI 10 9,5 PII 9,5+1 10+1

Ceea ce inseamna ca diferenta aparenta R-T va fi: 1 [(PI PII )sec v1 + (PII PI )sec v 2 ] = 1 [( 0,5) + 1,5] = 1 2 2 2 Deci, daca apar efecte reziduale inegale ele vor fi luate drept efecte de formulare. Din acest motiv, pentru a ne asigura ca estimarea diferentei de formulare este corecta, trebuie sa testam in prealabil faptul ca nu avem efecte reziduale inegale. Existena efectelor carry over inegale poate fi determinat prin testarea urmtoarelor ipoteze: H 0 : C = 0 CT = C R

H 1 : C 0 CT C R Respingerea ipotezei nule duce la concluzia prezenei efectelor carry over inegale. Pentru testarea ipotezelor asupra lui C se folosesc urmtoarele medii de selecie corespunznd fiecrei secvene: 1 nk U .k = U ik , k = 1,2 n k i =1
U .1 i U .2 sunt mediile de selecie pentru eantioane aleatoare independente din populaii normale cu dispersii egale. Ca urmare testarea se poate face utiliznd testul t. C poate fi estimat prin diferena ntre mediile subiecilor pentru cele dou secvene: C = U .2 U .1 = Y.11 + Y.21 Y.12 + Y.22 innd cont de presupunerile asupra variabilelor S ik prezentate anterior, C este normal distribuit cu media C i dispersia

) (

1 1 1 2 1 D C = 2 2 s2 + e2 + = u + . n n n n 2 2 1 1

() (

123

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

Dispersia D C poate fi estimat prin nlocuirea lui u2 cu u2 = Su2 dispersia de selecie total pentru subiecii din cele dou secvene: 2 nk 2 1 = 2 1 + 1 unde 2 = u u DC U ik U.k n1 + n2 2 k =1 i =1 n1 n2

()

()

2 (n1 + n2 2) este o variabil distribuit 2 cu n1 + n2 2 grade de C. libertate, independent de Astfel, n ipoteza H ,


0

Mai departe, (n1 + n2 2 ) u2 este distribuit u2 2 (n1 + n 2 2 ) unde

C X XT +R = R +T are o repartiie Student cu n1 + n2 2 1 1 1 1 + u u + n1 n2 n1 n2 grade de libertate. Ca urmare, vom respinge ipoteza nul H 0 : CT = C R n favoarea ipotezei alternative H a : CT C R la un nivel Tc = de semnificaie, dac Tc t Deoarece variabila testat Tc conine estimarea u2 = 2(2 s2 + e2 ) care se refer att la variabilitile ntre i intra subieci, puterea testului va fi mai mic n cazul n care variabilitatea ntre subieci este mai mare dect intravariabilitatea. n studiile de biodisponibilitate / bioechivalen, ca regul, mrimea lotului de testat se alege pe baza calculelor privind puterea pornind de la efectul direct al medicamentului, efect ce implic intravariabilitatea. Pentru a crete puterea testului, Grizzle 1 a sugerat testarea ipotezei nule la un nivel de semnificaie = 10% n loc de 5%. Pe baza statisticii t, se poate calcula un interval de ncredere 1 1 (1 ) *100% pentru C: C t . + u , n1 + n 2 2 n1 n2 2 Dac intervalul conine pe 0, atunci suntem n favoarea (sau de fapt nu putem respinge) ipotezei nule c nu exist efecte carry over sau c acestea sunt egale. Dac intervalul nu conine pe 0, tragem concluzia c exist efecte carry over diferite pentru cele dou formulri.
, n1 + n 2 2 2

J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21, 467-480, 1965

124

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

2.10.3. Efectul direct al medicamentului n vederea testrii efectului direct al medicamentului se pot folosi diferenele ntre perioade n interiorul fiecrei secvene, dup cum urmeaz: 1 d ik = (Yi 2 k Yi1k ) , i = 1, nk , k = 1,2 . 2 Valoarea medie i dispersia pentru diferenele din cadrul perioadelor sunt: 1 2 [(P2 P1 ) + (FT FR ) + C R ], pentru subiectii in sec venta 1 E (d ik ) = 1 [(P2 P1 ) + (FR FT ) + CT ], pentru subiectii in sec venta 2 2 2 MSE 2 2 D ( dik ) = d = e = = Sd 2 2 Se vede c dispersia diferenelor ntre perioade include numai intravariabilitatea, ceea ce reprezint de fapt avantajul experimentului de tip cross over. n ceea ce privete media diferenelor, aceasta include att efectul direct al medicamentului ct i efectul rezidual (carry over). Sa notm efectul perioadei i efectul direct (efectul formulrii) prin P = P2 P1 i F = FT FR . Pentru a verifica ipotezele statistice asupra lui F, s considerm mediile diferenelor ntre perioade n interiorul fiecrei secvene: 1 nk d .k = d ik , k = 1,2 . nk i =1

Diferena ntre secvene ( d .1 d .2 ) este un estimator nedeplasat al lui F atunci cnd nu avem efecte carry over inegale ( C R = CT ) (C CT ) = F C E d .1 d .2 = (FT FR ) + R unde C = CT C R . 2 2 Ca urmare, dac CT C R nu avem un estimator nedeplasat pentru F din datele pentru amndou perioadele. Dac ns CT = C R , atunci 1 F = d .1 d .2 = Y.21 Y.11 Y.22 Y.12 = YT YR 2

[(

) (

)]

125

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

este un estimator nedeplasat cu dispersia minim pentru F (unde 1 1 YT = Y.21 + Y.12 i YR = Y.11 + Y.22 ). 2 2 RT 1 Schema de administrare fiind rezult c YR = R 1 + R 2 . TR 2

YR si YT sunt aa numitele least squares means (LS) mediile cele mai mici ptrate pentru produsul de referin i cel testat. n practic, F este estimat prin diferena direct ntre mediile celor dou formulri F* = Y* Y* ,
T R
n2 n2 n1 1 n1 Yi11 + Yi 22 i YT* = Yi 21 + Yi12 n1 + n2 i =1 i =1 i =1 i =1 Cnd C R = CT , se obine 1 [(n1 + n2 ) + (n1 + n2 )FR + n1 P1 + n2 P2 ] i E YR* = n1 + n 2 1 E YT* = [(n1 + n2 ) + (n1 + n2 )FT + n1 P2 + n2 P1 ] . n1 + n 2 1 Deci, E YT* YR* = (FT FR ) + [(n2 n1 )P1 + (n1 n2 )P2 ] n1 + n 2 Ca urmare, diferena ntre mediile celor dou formulri F * , nu este un estimator nedeplasat pentru F dect atunci cnd n1 = n2 . Remarcam faptul ca in practica, din auza ca o parte din subiecti parasesc experimentul clinic inainte ca acesta sa se termina, cazul n1 = n2 este foarte rar. In ciuda acestui fapt unele softuri uzuale ignora aceste fapte ceea ce, dupa cum se va arata mai departe, poate duce la alterari semnificative ale rezultatelor. Diferena ntre mediile least square pentru cele dou formulari, F , este normal distribuit, cu media F i dispersia 1 2 1 D F =d + . n n 2 1

1 unde Y = n1 + n2
* R

( ) ( )

()

Deoarece {d i1 } , i = 1, n1 si {d i 2 } , i = 1, n 2 sunt dou selecii independente din populaii normale cu dispersii egale (atunci cnd nu avem 126

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

efecte carry over inegale) un test pentru efectul direct poate fi obinut pe baza statisticii t pereche. F Td = 1 1 + d n1 n2
2 unde d este dispersia de selecie pentru diferena ntre perioade, i este un
2 estimator nedeplasat al lui d

2 nk 2 1 d ik d .k n1 + n2 2 k =1 i =1 2 2 Deoarece (n1 + n 2 2 ) d este distribuit d 2 (n1 + n 2 2 ) , Td este

2 d =

distribuit t cu n1 + n2 2 grade de libertate. Un interval de ncredere (1 ) *100% pentru F este urmtorul:

1 1 + F t , n1 + n2 2 d n1 n2 2 Prezena efectului direct al medicamentului poate fi examinat prin testarea ipotezelor: H 0 : FT = FR si H 1 : FT FR . Respingem H 0 dac
Td t
, n1 + n2 2 2

Trebuie s observm c aceast metod de testare se refer la egalitatea efectelor celor dou medicamente i nu la bioechivalena lor, care va fi discutat mai departe. Dup cum s-a menionat mai sus, F nu este un estimator nedeplasat al lui F n prezena efectelor carry over inegale ( CT C R ). Un estimator nedeplasat al lui F poate fi obinut totui folosind numai datele din prima perioad, dar cu o pierdere de informaie i, n consecin, de precizie. Dac Y.11 i Y.12 sunt mediile celor dou formulri n prima perioad, atunci:

E Y.12 Y.11 = ( + P1 + FT ) ( + P1 + FR ) = FT FR = F
F C

S notm Y.12 Y.11 =

. Avem c

F C

este un estimator

nedeplasat al lui F, chiar i n prezena efectelor carry over inegale.

127

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

1 1 + e2 ) + . Observm n n C C 2 1 2 1 1 deasemenea c D F D F = s2 + e + . Deci, pierderea de C 2 n1 n2 precizie ca urmare a folosirii numai a datelor din prima perioad este de minim 50% atunci cnd s2 = 0 . Din acest motiv, n practic, este foarte important perioada de splare pentru a disprea efectele reziduale pn la a dou administrare. n prezena efectelor carry over inegale, se poate verifica ipoteza privind inegalitatea efectelor i se poate construi i un interval de ncredere (1 ) *100% pentru F folosind datele din prima perioad.
Dispersia lui
F

este D

( ) = (
F

2 s

( ) ()

Un estimator nedeplasat pentru D unde S 2 = f 1 Yi1k Y.1k n1 + n2 2 k =1 i =1


nk 2

( ) este D( ) = S n1 + n1
F F C C 2 f 1 2

).
2

Observm ca S 2 este un estimator nedeplasat pentru s2 + e2 , dar f nu avem estimri individuale pentru s2 si e2 pornind numai de la datele din prima perioad. Intervalul de ncredere (1 ) *100% pentru F n prezena efectelor carry over inegale va fi
F C

, n1 + n2 2 2

Sf

1 1 + . n1 n2

Ipoteza nul privind absena efectului direct este respins dac


F C

Sf

1 1 + n1 n 2

,n1 + n2 2 2

n practic, n prezena efectelor carry over inegale, datele din prima perioad sunt folosite efectiv pentru a testa bioechivalena, dar nu trebuie s uitm urmtoarele consecine ale acestei proceduri: 1) Puterea de detecie a diferenelor semnificative clinic este micorat datorit creterii dispersiei i, 128

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

2) Pierderea de informaie anuleaz nsi avantajul experimentului crossover i anume eliminarea variabilitii ntre subieci n compararea formulrilor.

2.10.4.Efectul perioadei

S definim urmtoarele diferente: d , pentru.subiectii in sec venta 1 (T R ) Oik = ik d ik , pentru.subiectii in sec venta 2 (R T ) Valoarea medie i dispersia acestor diferene cross over sunt: 1 2 [(P2 P1 ) + (FT FR ) + C R ], pentru subiectii in sec venta 1 E (Oik ) = 1 [(P1 P2 ) + (FT FR ) CT ], pentru subiectii in sec venta 2 2 i 2 Fie O.1 i O.2 mediile de selecie ale diferenelor n secvenele 1 i 2. Avem
d pentru k = 1 O.k = .1 d .2 pentru k = 2 Un estimator nedeplasat pentru efectul perioadei P poate fi obinut ca 1 P = O.1 O.2 = Y.21 Y.11 Y.12 Y.22 2 Deoarece CT + C R = 0 , P este un estimator de dispersie minim pentru P, indiferent de prezena efectelor carry over inegale. Un interval de ncredere (1 ) *100% pentru P este
2 D(Oik ) = d =

e2

[(

) (

)]

P t

, n1 + n2 2 2

1 1 . + n1 n2

129

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

Respingem ipoteza nul privind absena efectului de perioad: H 0 : P = P2 , H a : P1 P2 atunci cnd T0 t , unde 1
, n1 + n2 2 2

P . 1 1 + d n1 n2 Interferena statistic pentru efectele carry over, directe i de perioada sunt prezentate, n rezumat, n tabelul urmator T0 =

Tabel nr. 15: Teste statistice pentru efectele fixe ntr-un experiment 2*2 cross over.
Efect Efecte carry over inegale MVUE*

(1 ) / 100%C.I .
u
1 1 + n1 n2 1 1 + n1 n2

Test statistic

C = U .2 U .1 =

Carry over

(Y
Nu

.11

+ Y.21 Y.12 + Y.22

) (

C t

, n1 + n2 2 2

Tc =

u
Td =

C 1 1 + n1 n2
F 1 1 + n1 n2

Efect direct

F = d.1 d.2 = 1 Y.21 Y.11 Y.22 2

) (

F t

, n1 + n2 2 2

Efect indirect

Da

F = Y.12 Y.11 C

F Sf t C ,n1 + n2 2 2

1 1 + n1 n2

Tf = Sf

F C 1 1 + n1 n2
P 1 1 + n1 n2

Perioada

P = O.1 O.2 = 1 Y.21 Y.11 + Y.12 2

) (

P t

, n1 + n2 2 2

1 1 + n1 n2

To =

130

II. Statistica matematica si biostatistica Estimarea efectelor intr-un experiment standard cross-over prin teste t

MVUE* minimum variance unbiased estimate estimare nedeplasata de dispersie minima.

131

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

2.11. Estimarea efectelor prin ANOVA 2.11.1. Modelul Statistic General Analiza dispersional a datelor de bioechivalenta urmeaza un model statistic de ANOVA pe doua cai cu interactiuni de tipul: Yijk = + k + j + jk + ijk S notm c prezena unui efect de interaciune este echivalent cu ne-aditivitatea efectelor principale. Suplimentar fata de conditiile puse la ANOVA pe doua cai, vom avea jk = jk =0
j k

Statisticienii vorbesc despre nivelele pe care le iau factorii. Termenul se refer in fapt la valorile (numerice sau calitative) pe care le poate lua factorul. De exemplu dac factorul este perioada ntr-un experiment de bioechivalen nivelele sale sunt I, II, III dac experimentul are trei perioade. n ceea ce privete factorul formulare nivelele acestea sunt medicamentele experimentate (de exemplu referin, testat 1 i testat 2). ntr-un experiment standard de bioechivalen secvena are dou nivele RT i TR. Trebuie avut totui n vedere c aceati factori nu sunt toi independeni unii din ei putndu-se obine prin combinaii liniare de ceilali. Problema, la modul general, sufera o complicare majora atunci cand numarul nivelelor luate de un factor, nu este acelasi in fiecare celula, caz in care se spune ca experimentul nu mai este echilibrat (balansat). Ne vom limita, pentru moment, la studiul cazului echilibrat asa cum se face, se pare, in toate cartile si articolele publicate. Din pacate cazul mult mai frecvent in experimentele clinice este acela neechilibrat. De exemplu, in experimentele de bioechivalenta, datorita iesirii din experiment a unora dintre subiecti, secventele raman inegale. In chiar cazurile ca modelul se aplica experimentelor clinice, exista posibilitatea unei confuzii de termeni. Astfel , in lucrarile de statistica observm c repetiie semnific faptul c acelasi experiment se repet pe mai multi voluntari sau pacieni, n timp ce, in experimentul de biostatistica, repetiia nseamna administrarea aceluiai medicament de mai multe ori la acelai subiect deci in mai multe perioade, ceea ce este cu totul alt model de studiu. Ipoteza de verificat este aceea a lipsei efectelor factorilor si, ca urmare si a interactiunii intre acestia. 131

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

H A : k = 0 unde 1 k K H0 : H B : j = 0 unde 1 j J H : = 0 unde 1 j J si 1 k K jk AB H alternativa : cel putin un factor este diferit de 0 Se noteaz cu: 1 Y = Yijk si cu Y = Yijk IJK i j k i j k

Y jk = Yijk i cu Y jk =
i i k

1 I

Y
i 1 IK

ijk

Y j = Yijk i cu Y j =
Yk = Yijk i cu Y k =
i j

ijk

1 IJ

Y
i j

ijk

Atragem atentia ca, intr-un experiment neechilibrat, formulele pentru calculul mediilor prezentate mai sus nu mai raman valabile. Mediile de selectie de tipul celor de mai sus sunt estimatori nedeplasati ai efectului celor doua formulari numai atunci cand secventele sunt egale. In fapt experimentele sunt proiectate sa fie echilibrate dar pana la sfarsit ele devin neechilibrate. Se observ c: Yijk Y = Yk Y + Y j Y +

( (Y

jk

Y j Y k + Y +

) (Y
2 2

ijk

Y jk

Si, deoarece produsele mixte ale sumelor de mai sus sunt nule, eroarea totala se poate descompune dupa cum urmeaza: = Y k Y

2 2 2 2 Y jk = S A + S B + S AB + S R Termenii acestei diferene corespund respectiv efectelor principale, interaciunilor i unei fluctuaii aleatoare. Deoarece indicele i se refera la subiectii experimentului Yijk Y jk ,diferenta intre valoarea subiectului i si media subiectilor din perioada j si secventa k, reprezinta o intervariabilitate. In biologie aceasta este foarte

(Y

SS T =

ijk

(Y Y ) = ) + (Y Y ) + (Y
ijk 2 j

jk

Y j Y k + Y

132

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

mare si ipoteza unor subiecti identici este departe de realitate sau se poate lua in calcul in cazul unor studii pe populatii foarte mari. Pentru modelul echilibrat, dat fiind modelul statistic, sumele obtinute sunt estimari respectiv pentru parametrii cercetati de noi: k = Y k Y ; j = Y j Y

jk

( = (Y

jk

Y j Y k + Y ;

= Y...

Statistica F pentru verificarea ipotezelor H A , H B , H AB are la


2 2 2 numrtor respectiv mediile sumelor de ptrate S A , S B , S AB , iar la numitor

2 ntotdeauna media sumei ptratelor rezidualelor S R . Gradele de libertate

A = K 1 , B = J 1 , AB = (J 1)(K 1) si R = JK (I 1)
Sinteza formulelor de calcul este dat n tabelul urmator. Testarea ipotezelor privind actiunea factorilor asupra rezultatelor studiului incrucisat.
Varia ia A Grade libertate (df) de Suma ptratelor (SS) Media sumei ptratelor (MS=SS/df) Statistica F

sunt respectiv ( A , R ) , ( B , R ) , ( AB , R ) unde:

A = K 1 B = J 1
AB =

S = IJ Y k Y
2 A k

MS A = MS B =

A B

2 SA

FA =
FB =

MS A MS R
MS B MS R MS AB MS R

S = IK Y j Y
2 B j
2 SAB =

2 SB

Interaciuni AB

(J 1)(K 1)

I Y jk Y j Y k + Y
j k

MS AB =

AB

2 S AB

FAB =

Rezidual R

R =

JK (I 1)

2 SR = Yijk Y jk i j k

MS R =

2 SR

Total

S = IJK 1 SST = Yijk Y


i j k

133

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua medicamente, incrucisat, cu doua perioade si doua secvente Modelul Biostatistic Se consider dou medicamente, unul de testat (T) i unul de referin (R), administrate unui lot de voluntari sntoi n dou secvene (RT) i (TR) i dou perioade (I i II). Fiecare subiect este asignat aleator fie secvenei 1 (RT), fie secvenei 2 (TR). Subiecii n cadrul secvenei RT (TR) primesc medicamentul R (T) n prima perioad i medicamentul T (R) n cea de a doua perioad. Perioadele de administrare sunt, de obicei, separate printr-o perioad de spalare de cel puin de trei ori timpul de njumtire al substanei active din medicamentul administrat. Scopul experimentului este de a stabili bioechivalena dintre cele dou medicamente (formulations n literatura englez). Pentru aceasta se aplica modelul de analiz statistica prezentat anterior:

Yijk = +k + j + jk +ijk

Rezultatele experimentului sunt variabile aleatoare Yijk pe care le considerm avnd urmtoarea structur:

Yijk = + Cj1,k + Pj + Fjk +ijk + Sik

unde este media totala, i este indicele pentru subiect, i = 1, nk , j este indicele pentru perioad i k este indicele pentru secvena. F jk este efectul direct, fix, al medicamentului (formulrii) administrat n perioada j, n secvena k (Observaie: efectul este de fapt cantitatea de medicament msurat sau un parametrul farmacocinetic calculat pornind de la aceasta). C j 1,k este efectul carry over (fix) al medicamentului administrat n perioada j-1, de exemplu concentratia medicamentului ramas in organism in perioada II din administrarea in perioada I. Considerm c, datorit existenei unui interval de timp de splare suficient intre administrari, efectul carry over nu depete perioada consecutiva celei in care a fost administrat medicamentul. eijk reprezint eroarea aleatoare n msurarea valorilor individuale pentru fiecare subiect.

134

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Considerm ca variabilele S ik (efectul de subiect) sunt repartizate identic pentru toate formularile administrate, cu media 0 i dispersia s2 , iar variabilele eijk sunt repartizate N (0, e2 ) . n fapt, dupa cum a prezentat FDA ca argument pentru introducerea bioechivalentei individuale, dispersiile erorilor pot diferi de la un medicament la altul. Modelul se mai poate scrie si sub forma :

Yijk = jk +Sik +ijk

unde efectul fix jk este de forma prezentata in tabelul nr. 17


Tabelul nr. 17: Componenta nealeatoare a parametrilor farmacocinetici Perioada (j=1,2) Secvena (k=1,2) I II 1 (RT) 11 = + P1 + FR 12 = + P2 + FT + C R 2 (TR)

21 = + P1 + FT

22 = + P2 + FR + CT

unde FR (FT) reprezint efectul direct al administrrii medicamentului R (T); P1 (P2) reprezint efectul administrrii n perioada I (II); CR (CT) reprezint efectul rezidual (carry-over) al administrrii medicamentului R (T). i P1+P2 = FR+FT = CR+CT = 0,

Procedand ca in cazul general prezentat mai sus, se descompune suma totala a erorilor in sume cu ajutorul carora se pot estima efectele de secventa ( SS carry ), de perioada ( SS P ), de formulare ( SS drug ), precum si a variabilitatilor intraindividuala ( SS int ra ) , interindividuala ( SS int er ). 1 Se folosesc notatiile Y. = Yi si Y. = Yi ( unde n este n i i numarul valorilor sumate).

135

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Tabelul nr. 18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si SSTotal =

(Y

ijk

(Y

(Y

(Y
(Y

+ jk Y j Yk + Y

(Y

ijk

Y jk

SS within =

(Y

ijk

Yik

SS

(Y

SS

SS

jk

Y j Y k + Y

((Y

ijk

Y jk Yik Yk

) (

))

SS between =

(Y

i k

(Y

SS P
+

SS drug

SS int ra

(Y

ik

Yk

SS carry

SS int er

interactiunile intre acestia

136

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Deci, se vede ca avem: SS Between exprim variabilitatea dintre subieci, n ambele secvene SS within exprim variabilitatea intra-subieci, si SS within = SS P + SS drug + SS int ra

SSTotal are T = 2 ( n1 + n2 ) 1 grade de libertate. Cum sunt n1 + n2 subieci SS within are Within = n1 + n2 grade de libertate, iar SS Between are Between = n1 + n2 1 grade de libertate. In locul acestor formule se folosesc formule prescurtate. Mentionam aceste formule prescurate deoarece ele apar practic in toate cartile de farmacie sau de statistica aplicata in farmacie. Ele reprezinta avantajul unor calcule mai rapide si dezavantajul ca nu sunt inteligibile, nefiind clara legatura lor cu variabilitatile parametrilor studiati.

2.11.3. Calculul variabilitatii interindividuale


k i

Vom deduce formula uzuala pentru SS int er = 2 Y ik Y k SSint er Ridicand la patrat se obtine =

2 2 2 2 Y = 2 Yi k 2Yk Yik + nk Yk = 2 Yik 2Yk ik + nk Yk = 2 k i i k i i 2 2 2 2 Y = 2 Yi k 2Yk k + nk Yk = 2 Yik 2Yk * nk * Yk + nk Yk = 2 k i k i

=
k i

Yik 2 Y 2 2 nk k 2 2 k ( 2nk )

Yik Y ; Y k = k se 2 2nk obtine formula farmaceutica a sumei patratelor intersubiecti: Yi.2k Y..2 SS int er = k 2 k ,i k 2n k

Mai departe, deoarece prin definitie, Y i k =

137

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Facem observatia ca la descompunerea sumelor am folosit termenii in engleza deoarece in aceasta limba exista cate doua cuvinte (provenind din latina si din saxona) corespunzand cuvintelor romanesti inter si intra. 2.11.4. Calculul efectelor de secventa In ceea ce priveste SS carry , el se poate obtine din diferenta intre mediile secventelor, care este egala cu diferenta efectelor reziduale din cele doua secvente, motiv care justifica si utilizarea interschimbabil a celor doi termeni . n Y 1 + n2 Y 2 Intr-adevar, observnd c Y = 1 rezult n1 + n2

SSCarry = 2n1 Y 1 Y = =

+ 2n2 Y 2 Y

( n1 + n2 )
2n1n2 n1 + n2

2 2n1n2

(Y

Y 2

( n1 + n2 )

2n12 n2

(Y

Y 1

2n1n2 Y 2 Y 1 n1 + n2

{ (
1 2

Y 12 + Y 22 Y 11 + Y 21

) (
(

)}

1 Media parantezei Y 12 + Y 22 Y 11 + Y 21 2 conform demonstratiei ce urmeaza: Yijk = + Sik + Pj + F jk + C j 1, k + ijk

) (

este

CT CR 2

Calculand mediile corespunzatoare lui Y11 , Y12 , Y21 si Y22 vom obtine: E Y11 = + P + FR 1
12 1
T

( ) E (Y ) = + P + F E (Y + Y ) = 2 + C
12 22

1 De unde rezulta ca: E Y 12 + Y 22 2

( ) E (Y ) = + P + F + C E (Y + Y ) = 2 + C ) (Y + Y ) = C C 2
22 11 2
R T

E Y21 = + P2 + FT + CR

21

11

21

138

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Deci, efectul ce apare din diferenta intre secvente este in fapt legat de diferenta intre efectele rezidule din cele doua secvente. SS Carry i SS Inter au respectiv Carry = 1 i Inter = n1 + n2 2 grade de libertate. Calculul simplificat al erorii intraindividuale Dupa cum s-a aratat in tabelul de mai sus, SS within poate fi descompusa in trei componente: o componenta datorata efectului direct al medicamentului ( SS drug ), o componenta datorata perioadei ( SS P ) si o componenta datorata variabilitatii ( SS int ra ): SS within = SS P + SS drug + SS int ra intra subiect

Dintre aceste trei componente, SSint ra este in fapt singurul termen legat de variabilitatea biologica intraindividuala. Vom deduce in continuare o formula de calcul rapid al acestui termen . Aplicand succesiv formula dupa cum urmeaza.
SS int ra =

(x
2

) = x
2

2 i

( x )
i

se obtine

((Y

ijk

Y jk Y i k Y k

) (

)) = (Y

ijk

Y jk

)
2

Y ijk Y jk j 2

2 Yijk

Y ijk Y Y i i i k 2 k nk k,

2 Yijk

Y 2jk nk

2 Yi k + 2

Y 2 k 2nk

2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor Descompunerea lui SS within permite testarea ipotezei privind

prezena variabilitii inter-subieci, adic: H 0 : s2 = 0 versus H a : s2 > 0 . n acest sens se folosete statistica SS FV = Inter Inter . SS Intra Intra 139

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Similar, celelalte efecte se pot testa cu ajutorul raportului intre suma erorilor corespunzatoare si SSint ra (pe post de SS R in modelul general). Sinteza formulelor de calcul este dat n tabelul urmator.
Tabelul nr. 19: Analiza efectelor fixe cu ajutorul dispersiilor: Sursa de variatie Inter - subiecti Secventa (carry - over df SS MS F

Carry = 1

SS Carry

MS Carry = = SS Carry

FCarry = = MS Carry MS int er MS int er

Carry

Reziduale

Inter = n1 + n2 2

SS Inter

MS int er = = SS Inter

Fint er = = MS int ra

Inter F P

Intra - subiecti Efectul direct al medicamentului

F =1 P =1
Intra = n1 + n2 2 Total = 2(n1 + n2 ) 1

SS F

MS F = SS F MS P = SS P MS Intra = = SS Intra

FF = = MS F FP = = MS P MS int ra
*

MS int ra

Perioada

SS P

Reziduale

SS Intra

Intra

Total
*

SS Total

Formula este valid doar dac efectul carry-over este nul.

Observatii

Vom studia acum legtura dintre cele dou modele reprezentate in Tabelul nr.1 si Tabelul nr.4 140

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

Dac factorul A este secvena de administrare a medicamentului si factorul B este perioada, atunci este suma intre efectul carry-over si FR FT efectul subiectilor, = ( P1 P2 ) este efectul perioadei si = FT FR este efectul interaciunii secvenei de administrare a medicamentului cu perioada (adic efectul direct al medicamentului formulation). Se observ c sunt verificate conditiile specificate la prezentarea modelului general: 1 + 2 = 0 = CR + CT

1 + 2 = 0 = P1 + P2 11 + 12 = 0 = FR + FT = 21 + 22 11 + 21 = 0 = FT + FR = 12 + 22
Facem observatia, altfel esentiala, ca prezentarea in foarte multe lucrari de biostatistica si bioechivalenta a efectului medicamentului ca interactiune intre secventa si perioada este de neinteles in lipsa identificarilor de mai sus. In fapt, este vorba de combinatii intre variabile care sa permita separarea efectelor. Aceste combinatii pot aparea ca efecte ai unor factori ce nu se regasesc intr-un tablou farmacologic al determinantilor diferentelor intre formulari. Efectul de secventa (carry) ramane o piatra de incercare in experimentele de bioechivalenta si aparitia lui in studii efectuate pe baza de protocoale concepute astfel incat sa se evite complet aparitia efectelor reziduale, este de neexplicat.

141

II.

Statistica matematica si biostatistica Estimarea efectelor prin ANOVA

142

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

2.12. Legatura intre ANOVA si testul t in compararea efectelor 2.12.1. Compararea intre modelul statistic general si modelul statistic specific cross over In esenta, diferenta intre cele doua modele se refera la alegerea termenului rezidual; 2 modelul 1 nu descompune pe S R ; modelul 2 distinge ntre reziduale intra-individuale i reziduale interindividuale. Mai exact: 2 2 2 2 SS T = S A + S B + S AB + S R = SS carry + SS P + SS drug + SS int ra + SS int er =
= (SS carry + SS int er ) + (SS P + SS drug + SS int ra ) = = SS between + SS within = SS total Aceast descompunere modific formulele statisticilor F . In modelul biostatistic se imparte cu un numar mai mic ( MSint ra ) ceea ce conduce la un interval de incredere mai larg pentru efectele de formulare si deci la cresterea probabilitatii de acceptare a egalitatii efectelor.

2.12.2. Testarea efectului secvenei de administrare folosind metoda ANOVA:


MS carry = SS carry = 2n1 Y1 Y + 2n 2 Y2 Y
2

n Y + n 2 Y2 = 2n1 Y1 1 1 n1 + n 2
2 n 2 n 12 Y 2 Y 1

n Y + n2 Y2 + 2n2 Y2 1 1 n1 + n2

2 2n1 n 2 Y1 Y2 = (n1 + n2 )2

(n 1

+ n2 )

2 n1 n 2 Y 2 Y 1 = n1 + n 2

) = 2(Y 1 Y1 )
2
2 1

n1

n2

2 Y Y1 = 2 1 1 + n n 1 2

= 143

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

2n1n2 n1 + n2

1 Y12 + Y22 Y11 + Y21 2

) (

= 2n1n2 U 1 U 2 n1 + n2

U 1 U 2 =2 1 1 + n1 n2
2

Deci,

MScarry MSint er

U U 2 = 2 1 1 1 n +n 2 1

* 1 = U 1 U 2 2 u2 1 1 + u n1 n2

Se observa ca decizia obtinuta prin ANOVA in ceea ce priveste efectul rezidual este acelasi cu rezultatul obtinut prin testul t. Incercam, in continuare, sa facem aceiasi comparatie intre cele doua metode de evaluare a efectului de perioada.
2.12.3. Testarea efectului perioadei folosind ANOVA

SSP = Y j Y
k j i

) = n (Y
2 k k j

= ( n1 + n2 ) Y 1 Y

= ( n1 + n2 ) n1n2n2 Y 1 Y 2 + n1n1n2 Y 2 Y 1 + + =
Observatie:
2 n12 + n2 Y 2 Y 1 n1 + n2

) + (Y
2

2 2

2 Y

Observam ca

MS MS int ra

nu mai duce la acelasi rezultat ca in testul t efectuat

pentru variabilele O1 si O2 .

144

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

Nepotrivirea apare din aceea ca nu stim exact cum sa calculam media Y j1 + Y j 2 perioadei: media least square Y j = sau media obisnuita 2 Y j Y j = n1 + n2 In acelasi context, al secventelor inegale, mai avem si media totala cand apare problema folosirii mediei mediilor secventelor (least square) sau media obisnuita. Mentionam ca in literatura formulele finale sunt date fara demonstratie, iar in aplicatiile efective sunt luate intotdeauna variante pentru cazul particular n1 = n2 (secvente egale). Problema isi are importanta deoarece, de cele mai multe ori, la finalul experimentului de bioechivalenta nu mai avem n1 = n2 .
Concluzii:

n practic, n prezena efectelor carry over inegale, si deci a aparitiei efectelor de secventa, se recomanda a se folosi pentru a testa bioechivalena, datele din prima perioad. Nu trebuie s uitm insa urmtoarele consecine ale acestei proceduri: 1) puterea de detecie a diferenelor semnificative clinic este micorat datorit creterii dispersiei ( se inlocuieste dispersia intraindividuala cu cea interindividuala) i, 2) pierderea de informaie prin acceptarea existentei unor efecte de secventa si renuntarea la datele din perioada a 2 a. In fond se anuleaz avantajul major al experimentului crossover i anume faptul ca fiecare subiect este propriul sau martor. Analiza dispersionala (ANOVA) se aplica in toata lumea in evaluarea studiilor de bioechivalenta, dar in final rezultatele sale nu influenteaza in nici un fel decizia privind bioechivalenta. Efectele de perioada nu influenteaza estimarea efectelor de formulare. Aparitia efectelor de formulare nu semnifica nimic! Egalitatea nu implica bioechivalenta si nici bioechivalenta nu implica egalitatea. Aparitia efectelor de secventa invalideaza metoda de testare a efectelor de formulare. Pe de alta parte insa, testarea egalitatii duce la o informatie nesemnificativa. 145

II. Statistica matematica si biostatistica Legatura intre ANOVA si testul t in compararea efectelor

In acelasi timp este de mentionat ca toate ghidurile referitoare la analiza bioechivalentei recomanda utilizarea MSE mean square erorr in formula de testare a bioechivalentei. Dar aceasta iarasi nu inseamna nimic. In fond 2 2 2 MSE = 2 d si nimic nu ne impiedica sa estimam direct d prin S d care este mai usor calculat si rezultatul este acelasi. Ramane totusi ca ANOVA in cazul in care pune in evidenta efectele de secventa impune o examinare atenta a protocolului studiului si verificarea masurilor de indepartare a efectelor reziduale. Ca o concluzie finala, ANOVA nu este un instrument de decizie, rolul sau fiind informativ.

146

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

2.13. Estimarea bioechivalentei 2.13.1. Metode parametrice de estimare a bioechivalentei 2.13.1.1. Metoda intervalului de incredere Anterior a fost prezentata modalitatea de testare a ipotezei nule ca doua produse sunt egale intre ele dupa efectuarea unui experiment 2*2 cross-over, metoda care a fost criticata de multi autori. In locul acesteia a fost propusa de Metzler 1 o metoda bazata pe intervale de incredere. Daca intervalul de incredere (1 2 ) *100% pentru diferenta

T R sau pentru raportul

T se afla in limitele de acceptare impuse, R

atunci se accepta ca medicamentul testat este bioechivalent cu cel de referinta. Uzual se aplica regula 20% , iar = 0.05 si, in acest caz, 2 regula de acceptare devine: a) Produsele sunt bioechivalente daca intervalul de incredere 90% pentru T R este in limitele 20% din efectul produsului de referinta sau daca, b)

T este intre 80% si 125% cu probabilitatea 90%. R

Aici trebuie facuta observatia ca, in ambele cazuri, aplicarea regulii presupune cunoasterea lui R , ceea ce nu este niciodata cazul, si se ia din acest motiv YR pe post de R . 2.13.1.2. Metoda celor doua teste unilaterale, Schuirmann Ipoteza nula este ipoteza compusa din doua ipoteze simple, testul de bioechivalenta descompunandu-se de fapt in doua teste unilaterale: H 01 : T R I vs H a1 : T R I si H 02 : T R S vs H a 2 : T R S O biodisponibilitate mai mare a produsului testat decat cel de referinta, implica posibilitatea unor efecte secundare sau toxice crescute si o siguranta mai mica. Bioechivalenta implica o echivalenta atat in ceea ce priveste efectul cat si in ceea ce priveste siguranta.

C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974

147

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

Daca vrem sa testam ipotezele enuntate la un nivel de semnificatie , in conditiile in care presupunem ca datele sunt normal repartizate, putem aplica testul t. Echivalenta este stabilita atunci cand YT YR I YT YR S t ( , n1 + n2 2 ) TI = t( , n1 + n2 2 ) si TS = 1 1 1 1 + d + d n1 n2 n1 n2 2 MSE (MSE = Mean Square Error din ANOVA), d = 2 RMSE deci d = (RMSE = Root Mean Square Error) 2 Observam ca procedeul celor doua teste t unilaterale este echivalent cu metoda clasica de testare a includerii intervalului de incredere pentru T R cu probabilitatea (1 2 ) *100% in intervalul de acceptare.

2.13.1.3. Transformarea logaritmica a datelor Ghidurile de testare a bioechivalentei recomanda transformarea logaritmica a datelor. Daca datele initiale sunt repartizate normal si coeficientul de variatie este mic, atunci si datele transformate urmeaza aproximativ o distributie normala. X 2 2 Pentru a demonstra aceasta observam ca : D = 2 = CV X este aproximat de zero si : Daca CV este suficient de mic

X X X ln X ln = ln = ln1 + X Deci, ln X ln + ; E (ln X ) = ln si D(ln X ) = CV 2 Deci, ln X = N (ln , CV 2 ), adica datele transformate sunt distribuite normal cu media ln si dispersia CV 2 .
Deci, coeficientul de variatie obtinut din datele netransformate este o estimare a dispersiei datelor transformate.

148

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

De obicei insa transformarea logaritmica are rostul de a corecta asimetria datelor initiale si a le restrange prin aceea ca 2 trece in

2 . 2

In cazul in care CV 2 nu este foarte mic lucrurile sunt cu mult mai complicate. Intervalul de incredere pentru diferenta mediilor datelor transformate T R sunt aproximativ egale cu cele pentru logaritmul raportului

mediilor netransformate ln T . R Intr-adevar, fie E ( X T ) = T ,


D(ln X T ) = D(ln X R ) = Avem:
2

E(X R ) = R ,

E (ln X T ) = T

si

T = E ( X T ) = E ( eln X

) E 1 + ln X
R

1 2 ( ln X T ) = 2

1 1 2 2 = 1 + T + E ( ln X T ) = 1 + T + ( 2 + T 2 ) = e T + 2 2 2

Similar obtinem: R = e

2
2
2

e + 2 T 2 si cum este de asteptat sa fie = ln Ca urmare ln 2 R 2


T

2 foarte mic in raport cu e si e , avem : e T T ln ln = T R R R e


R T

2.13.2. Metode non parametrice de testare a bioechivalentei Daca nu sunt verificate ipotezele necesare aplicarii ANOVA (si implicit a testului t), in particular ipotezele privind normalitatea si egalitatea dispersiilor, intervalul de incredere se determina folosind testele nonparametrice. Metoda se bazeaza pe compararea rangurilor. In analiza bioechivalentei, exista indoieli si incertitudini in ceea ce priveste natura distributiei parametrilor farmacocinetici . Timp de multi ani parametrii

149

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

bioechivalentei au fost analizati ca valori netransformate. Ulterior reglementarile oficiale au recomandat transformarea logaritmica a datelor. In prezent, analiza statistica se bazeaza pe transformarea logaritmica A a AUC si a valoarii C max . Deoarece ln A ln B = ln aceasta este o B analogie (dar nu acelasi lucru) cu analiza raportului parametrilor estimati. O metoda de calcul neparametric a intervalului de incredere pentru raportul parametrilor a fost data de Hollander si Wolfe 2 si extinsa ulterior alaturi de alte metode nonparametrice de Steinijens si Diletti 3 . Metodele sunt tentante dar, un lucru esential trecut de obicei sub tacere este acela ca se presupune ca nu apar efecte de perioada sau efecte de secventa. Pe de alta parte, chiar daca statistica arata aparitia unor astfel de efecte, nu avem nici o garantie ca acestea sunt reale. In fapt o decizie corecta privind aceste efecte se bazeaza numai pe evaluarea fenomenologica, pe baza proprietatilor fizicochimice ale substantelor active, a considerentelor fiziologice si a caracteristicilor designului experimentului clinic. Consideram N subiecti intr-un experiment cross-over cu doua perioade si doua secvente ( care insa nu se iau in calcul). In prima faza se determina diferentele pentru fiecare subiect (Testat Referinta). Pentru cazul unei transformari logaritmice a AUC se compara diferentele logaritmului raspunsurilor pentru fiecare subiect:

AUCT ln( AUCT ) ln( AUC R ) = ln AUC R


Se pot calcula si rapoartele

=R

AUCT deoarece acestea sunt in relatie AUC R biunivoca cu diferentele logaritmurilor. Se compara R , media geometrica pentru rapoarte, pentru toate perechile posibile de N rapoarte individuale (R), unde N este numarul de N ( N + 1) astfel de perechi, incluzand si raportul R/R intre subiecti. Exista 2 un subiect si el insusi.
Hollander M, Wolfe D A, Non-parametric Statistical Methods,Wiley, New York, 1973 Steinijens V W, Diletti E, Statistical Analysis of Bioavailability Studies: Parametric and Non-parametric Confidence Intervals, Eur. J. Clin. Pharmacol 24, 127-136,1983
3 2

150

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

Facem observatia ca media geometrica a rapoartelor este in corespondenta biunivoca cu media aritmetica al logaritmului valorilor :
ln a + ln b + ln c = ln 3 abc , etc. 3

Valorile lui R sunt apoi ordonate crescator in functie de rang. Limita inferioara si superioara a intervalului de incredere nonparametric de 90%, respectiv 95%, sunt redate in tabelul privind intervalele de incredere folosind testul de rang Wilcoxon. In practica, nu este necesara compararea logaritmica deoarece noi suntem interesati de rapoartele dintre testat si referinta. Daca noi comparam N ( N + 1) pentru rapoartele si folosim media geometrica a perechilor 2 ranguri, obtinem un interval de incredere pentru rapoartele directe dintre testat si referinta.
2.13.3. Compararea rezultatelor metodelor parametrice si non parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam Problema studiului de bioechivalenta privind supozitoarele cu MELOXICAM - medicamentul testat si MELOXICAM - medicamentul de referinta, a fost aceea ca aplicand procedurile statistice standard produsele apareau, dupa cum se poate vedea (fig. 8) chiar si cu ochiul liber ca fiind inechivalente.

Fig. 8. Curbele medii pentru produsul testat si cel de referinta

151

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

O examinare mai atenta insa a profilelor individuale (fig.9a si fig 9b) arata o distribuite omogena, relativ normala a profilelor in cazul medicamentului testat si o distributie absolut anormala in cazul produsului de referinta 4 .

Fig. 9a Curbele individuale pentru produsul de referinta

Fig. 9b Profilele individuale dupa administrarea medicamentului testat

A.Medvedovici, F.Albu, C.Georgita, C.Mircioiu, V.David, A non-extracting procedure for the determination of meloxicam in plasma samples by HPLC-diode array detection,Arzneimittel Forschung/Drug Research,.55 (6), 326-331 (2005).

152

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

Apare ca profilele medicamentului testat se imparte in 3 grupe diferite: un subiect cu valori aberant de mici, 5 voluntari cu valori mari si restul un grup mai omogen cu valori intermediare. In acest context, testarea uzuala a bioechivalentei parametrilor in cele doua populatii (R si T) si pe egalitatea dispersiilor, este departe de a fi cea mai indicata metoda.
2.13.3.1. Estimarea egalitatii mediilor plasmatice folosind testul non parametric Wilcoxon La testarea egalitatii mediilor plasmatice a doua preparate farmaceutice (testat T si referinta R) continand MELOXICAM s-a constatat urmatoarea distributie a datelor:
Subject AUC-R AUC-T Subject AUC-R AUC-T 1 36720,9 44936 13 24918,4 25216,9 3 64049,3 65279,3 15 21321,7 40641,6 5 47631,2 50453,6 16 29062,7 37064,5 6 3493,65 12607,7 17 25463,2 37006,7 7 24162,6 42293 18 17423,4 19996,4 8 21132,1 25032,7 19 48653,8 38427,8 10 21583,9 39923,9 20 19775,6 30947,5 11 40403,4 77950,8 21 31387,9 24931,7 12 24822,5 34553,1 23 23702,3 35726,4

Tabel 20

Studiem mai intai diferentele dintre AUC pentru medicamentul testat si referinta.
Subject AUC-R AUC-T 1 36720,9 44936 8215 13 24918,4 25216,9 299 3 64049,3 65279,3 1230 15 21321,7 40641,6 19320 5 47631,2 50453,6 2822 16 29062,7 37064,5 8002 6 3493,65 12607,7 9114 17 25463,2 37006,7 11544 7 24162,6 42293 18130 18 17423,4 19996,4 2573 8 21132,1 25032,7 3901 19 48653,8 38427,8 -10226 10 21583,9 39923,9 18340 20 19775,6 30947,5 11172 11 40403,4 77950,8 37547 21 31387,9 24931,7 -6456 12 24822,5 34553,1 9731 23 23702,3 35726,4 12024

AUCT AUC R
Subject AUC-R AUC-T

AUCT AUC R

Tabel 21

Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare. Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta dintre tratamente. Vom ordona crescator aceste diferente netinandu-se cont de semn (Tabel 22).
Subject

AUCT AUC R
Rang Subject

13 299 1 12 9731 10

3 1230 2 19 -10226 11

18 2573 3 20 11172 12

5 2822 4 17 11544 13

8 3901 5 23 12024 14

21 -6456 6 7 18130 15

16 8002 7 10 18340 16

1 8215 8 15 19320 17

6 9114 9 11 37547 18

AUCT AUC R
Rang

153

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

Dupa ordonarea completa a diferentelor (netinandu-se cont de semne) se vor adauga semnele corespunzatoare diferentelor originale care au determinat aceste ranguri:
Subject

AUCT AUC R
Rang + semn Subject

13 299 1 12 9731 10

3 1230 2 19 -10226 -11

18 2573 3 20 11172 12

5 2822 4 17 11544 13

8 3901 5 23 12024 14

21 -6456 -6 7 18130 15

16 8002 7 10 18340 16

1 8215 8 15 19320 17

6 9114 9 11 37547 18

AUCT AUC R
Rang + semn

Tabel 23

Astfel, subiectul 21 care avea inainte rangul 6 va capata rangul -6 deoarece diferenta pentru acest subiect este negativa. Acelasi lucru se va intampla si cu subiectul 19 care va capata rangul -11. Vom calcula suma rangurilor pozitive si suma rangurilor negative: R+ = 1 + 2 + 3 + 4 + 5 + 7 + 8 + 9 + 10 + 12 + 13 + 14 + 15 + 16 + 17 + 18 = 154 si R = 6 + 11 = 17 In tabelul de mai jos sunt prezentate valorile critice ale celor doua sume de ranguri necesare pentru nivelul de semnificatie 5%, respectiv 1%, pentru N valori (N se considera numarul de perechi excluzand perechile a caror diferenta este 0). Cea mai mica suma a rangurilor trebuie sa fie cel mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat. Numarul de = 0,05 = 0,01
subiecti N 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 2 3 5 8 10 13 17 21 25 30 35 40 46 52 0 1 3 5 7 10 13 16 19 23 28 32 37

154

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

In studiul analizat N = 18 , suma minima a rangurilor este R = 17 si 17 40 (valoarea corespunzatoare din tabel). De aceea, spunem ca cele doua medicamente realizeaza nivele plasmatice diferite pentru = 0,05 . Rezultatele acestui test sunt foarte aproape de cele obtinute cu testul t. Considerand ca ipotezele testului Wilcoxon sunt mai putin restrictive in comparatie cu testul t, atunci cand nu avem garantia inplinirii conditiilor de aplicare a testului t, testul de mai sus este un test de recomandat. Pentru valorile date aproximarea normala este mai la indemana pentru a compara mediile celor doua populatii: N ( N + 1) 4 N (2 N + 1)( N + 1) 24 R

Z=

unde R este suma rangurilor (poate fi utilizata oricare dintre suma rangurilor pozitive sau negative) si N este numarul de elemente (exceptand valorile egale). In cazul nostru, N = 18 si R = 154 , deci, 18 *19 154 4 Z= = 2,9832 . 18 *18,5 *19 12 In cazul in care se vor exclude subiectii 6 si 21 vom avea: N = 16 , R+ = 127 , R = 9 si 16 *17 127 4 Z= = 3,0508 16 *16,5 *17 12 Deci si aproximarea normala a distributiei rangurilor ne duce la aceiasi concluzie privind existenta unei diferente semnificative intre nivelele plasmatice ale lui R si T.

155

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

3.13.3.2. Estimarea bioechivalentei prin calculul non parametric al intervalelor de incredere La testarea bioechivalentei acelor doua preparate farmaceutice (testat T si referinta R) s-au obtinut urmatoarele valori pentru Cmax .
Subiect C max R 1 923 1289 1,39 13 927 1048 1,13 3 1739 1856 1,06 15 641 1241 1,93 5 770 728 0,94 16 643 968 1,50 6 173 639 3,69 17 879 1132 1,28 7 795 1726 2,17 18 787 981 1,24 8 698 1028 1,47 19 1795 1654 0,92 10 918 1626 1,77 20 865 1590 1,83 11 707 799 1,95 21 1030 809 0,78 12 1381 1206 1,50 23 1401 1768 1,26

C max T
T/R Subiect C max R

C max T
T/R Tabel 25

adica R radicalul dintre produsul a doua rapoarte. Astfel: pentru subiectul 1 media geometrica este radicalul dintre produsul raportului subiectului 1 combinat cu el insusi: 1,39653 *1,39653 1,397 Pentru subiectul 1 combinat cu subiectul 2, media geometrica este radicalul produsului dintre raportul subiectului 1 si raportul subiectului 2: 1,397 *1,067 1,221 Acest rationament il vom aplica pentru fiecare dintre cei 18 subiecti. N ( N + 1) 18 * 19 Se vor determina = = 171 de combinatii diferite incluzand 2 2 si fiecare raport cu el insusi.

Vom determina media geometrica pentru fiecare raport T

156

II.

Statistica matematica si biostatistica Estimarea bioechivalentei

Mediile geometrice determinate sunt:


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 1,397 1,221 1,149 2,271 1,741 1,434 1,573 1,652 1,452 1,257 1,644 1,450 1,341 1,319 1,134 1,602 1,047 1,328 2 1,221 1,067 1,005 1,985 1,522 1,254 1,375 1,444 1,269 1,098 1,437 1,268 1,172 1,153 0,992 1,401 0,916 1,161 3 1,149 1,005 0,945 1,869 1,433 1,180 1,294 1,359 1,195 1,034 1,353 1,193 1,103 1,086 0,933 1,318 0,862 1,092 4 2,271 1,985 1,869 3,694 2,832 2,332 2,558 2,686 2,361 2,043 2,674 2,358 2,181 2,146 1,845 2,606 1,703 2,159 5 1,741 1,522 1,433 2,832 2,171 1,788 1,961 2,059 1,810 1,567 2,050 1,808 1,672 1,645 1,414 1,998 1,306 1,655 6 1,434 1,254 1,180 2,332 1,788 1,473 1,615 1,696 1,491 1,290 1,689 1,489 1,377 1,355 1,165 1,645 1,076 1,363 7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 1,860 1,635 1,415 1,852 1,633 1,510 1,486 1,278 1,804 1,179 1,495 8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 1,717 1,486 1,945 1,715 1,586 1,560 1,342 1,895 1,239 1,570 9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509 1,306 1,709 1,507 1,394 1,372 1,179 1,666 1,089 1,380 10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 1,479 1,305 1,207 1,187 1,021 1,442 0,942 1,194 11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 1,707 1,579 1,553 1,336 1,886 1,233 1,563 12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 1,392 1,370 1,178 1,663 1,087 1,378 13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 1,267 1,089 1,539 1,006 1,275 14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 1,072 1,514 0,989 1,254 15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 1,301 0,851 1,078 16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 1,202 1,523 17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 0,996 18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262

Mediile geometrice considerate o singura data sunt:


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 1,397 1,221 1,149 2,271 1,741 1,434 1,573 1,652 1,452 1,257 1,644 1,450 1,341 1,319 1,134 1,602 1,047 1,328 2 1,067 1,005 1,985 1,522 1,254 1,375 1,444 1,269 1,098 1,437 1,268 1,172 1,153 0,992 1,401 0,916 1,161 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

0,945 1,869 1,433 1,180 1,294 1,359 1,195 1,034 1,353 1,193 1,103 1,086 0,933 1,318 0,862 1,092

3,694 2,832 2,332 2,558 2,686 2,361 2,043 2,674 2,358 2,181 2,146 1,845 2,606 1,703 2,159

2,171 1,788 1,961 2,059 1,810 1,567 2,050 1,808 1,672 1,645 1,414 1,998 1,306 1,655

1,473 1,615 1,696 1,491 1,290 1,689 1,489 1,377 1,355 1,165 1,645 1,076 1,363

1,771 1,860 1,635 1,415 1,852 1,633 1,510 1,486 1,278 1,804 1,179 1,495

1,953 1,717 1,486 1,945 1,715 1,586 1,560 1,342 1,895 1,239 1,570

1,509 1,306 1,709 1,507 1,394 1,372 1,179 1,666 1,089 1,380

1,131 1,479 1,305 1,207 1,187 1,021 1,442 0,942 1,194

1,936 1,707 1,579 1,553 1,336 1,886 1,233 1,563

1,505 1,392 1,370 1,178 1,663 1,087 1,378

1,288 1,267 1,089 1,539 1,006 1,275

1,247 1,072 1,514 0,989 1,254

0,921 1,301 0,851 1,078

1,838 1,202 1,523

0,785 0,996

1,262

157

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

Tabel 26 Intervalele de incredere folosind testul de rang Wilcoxon Numarul de subiecti (N) 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Rangul limitei inferioare 95% 90% 1 3 3 4 4 6 6 9 9 11 11 14 14 18 18 22 22 26 26 31 30 36 35 42 41 48 47 54 53 61 59 68 66 76 74 84 82 93 Rangul limitei superioare 95% 90% 21 19 26 25 33 31 40 37 47 45 56 53 65 61 74 70 84 80 95 90 107 101 119 112 131 124 144 137 158 150 173 164 188 178 203 193 219 208

Dupa cum se observa, limita inferioara, respectiv superioara a intervalului de incredere 95% este valoarea rangului 14, respectiv 65 al mediilor geometrice determinate anterior, deoarece numarul de subiecti este N = 18 . Pentru a determina un rang al mediilor geometrice vom construi, in EXCEL, tabelul mediilor geometrice luate o singura data Vom folosi functia small(array;k) care calculeaza valoarea de rang k dintr-un set de date (array). In cazul nostru array, in tabelul Exccel, a fost F3:Q20, k = 41 , respectiv 131 pentru intervalul de incredere CI 95% , deci am avut: =small(F3:Q20; 41)=1,194 =small(F3:Q20; 131)=1,696 ceea ce inseamna un interval de incredere CI 95% = (1,194 , 1,696) In cazul intervalului de incredere 90% limita inferioara va avea rangul 48, iar cea superioara rangul 124 corespunzand astfel intervalului CI 90% = (1,247 , 1,652) : =small(F3:Q20;48)=1,247 =small(F3:Q20;124)=1,652 158

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

Limitele inferioare si limitele superioare stabilite de FDA pentru bioechivalenta sunt (0,800 , 1,25) . In ambele situatii se constata ca nu putem demonstra bioechivalenta celor doua produse.

2.13.3.3. Estimarea bioechivalentei folosind testul non parametric Wilcoxon, pornind de la un model care ia in considerare si efectele de perioada

Fie, folosind notatiile standard de la modelul incrucisat cu doua perioade si doua secvente, diferenta intre formularile testate

= T R .
Consideram testarea bioechivalentei folosind doua teste unilaterale:
H 01 : L 0

vs

H A1 : L 0 unde L = L si

H 02 : U 0 vs H A 2 : U 0 unde U = U In vederea testarii ipotezelor enuntate consideram combinatia (contrastul):

d h ; h = L,U pentru subiectii din sec venta 1 bhik = ik , pentru subiectii din sec venta 2 d ik ;
unde: i = 1, nk , k = 1,2 , reprezinta numarul de subiecti in cele doua secvente P P1 d ik = 2 este jumatate dintre diferentele intre cea de-a II a 2 perioada si prima perioada h = L sau U dupa cum ne referim la compararea cu limita inferioara sau cea superioara a intervalului de acceptare a bioechivalentei 159

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

Folosind rationamentul de la testarea efectelor in experimentul cross-over pentru diferenta d ik intre valorile pereche ale unui subiect dat vom obtine: 1 2 [(P2 P1 ) + ( 2 h )] pentru k = 1 E (bhik ) = 1 [(P2 P1 ) + ] pentru k = 2 2 D(bhik ) = D(d ik ) = =
2 d

e2
2

Observam ca din definitiile de mai sus rezulta imediat ca: E (bhi1 ) E (bhi 2 ) = ( h ) = h Media sumei rangurilor este Wilcoxon).

n1 (n1 + n2 + 1) (s-a demonstrat la testul 4


n1 n1

Consideram suma rangurilor: R L = R(bLi1 ) si RU = R (bUi1 ) si

n (n + 1) n (n + 1) variabilele aleatoare WL = RL 1 1 si WU = RU 1 1 . 2 2 n(n + 1) este testul Mann Inlocuirea sumei rangurilor R cu R 2 Whitney care insa este in esenta acelasi test. E (W L ) = E (WU ) =
si

i =1

i =1

n1 (n1 + n2 + 1) n1 (n1 + 1) n1 n2 = 2 2 2 n1 n2 (n1 + n2 + 1) 12

D(W L ) = D(WU ) =

Tragem concluzia ca produsele sunt bioechivalente atunci cand amandoua ipotezele H 01 si H 02 sunt respinse. unde valorile w( ) se gasesc in tabele, iar valorile complementare se calculeaza cu formula: w(1 ) = n1 n2 w( ) , implica biochivalenta celor doua produse. 160 Deci, relatia: WU w( ) si WL w(1 )

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

In cazul in care avem si un numar k de cozi (valori egale), atunci valorile egale se inlocuiesc cu media rangurilor lor r si dispersiile devin
D (W L ) = D (WU ) = 1 n1 n 2 (n1 + n 2 + 1 Q ) , 12

unde Q =

k 1 3 r r . (n1 + n2 )(n1 + n2 1) =1 Cand numarul de valori este suficient de mare (de exemplu, mai mare de 40) se poate folosi aproximatia normala:

ZL =

WL E (WL ) D(WL )

RL

1 n1 n2 (n1 + n2 + 1) 12 = RU

n1 (n1 + n2 + 1) 2 si

1 n1 n2 (n1 + n2 + 1) 12 Vom compara AUCtot pentru studiul de bioechivalenta privind produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.
Subiecti secv 1

ZU =

WU E (WU ) D(WU )

n1 (n1 + n2 + 1) 2

P1 P2
Subiecti secv 2

1 RT 36721 44936 3 TR 65279 64049

6 RT 3494 12608 5 TR 50454 47631

7 RT 24163 42293 8 TR 25033 21132

10 RT 21584 39924 12 TR 34553 24823

11 RT 40403 77951 13 TR 25217 24918

15 RT 21322 40642 16 TR 37065 29063

19 RT 48654 38428 17 TR 37007 25463

20 RT 19776 30948 18 TR 19996 17423

21 RT 31387 24932 23 TR 35726 23702

P1 P2

P2 P1 = jumatate dintre diferentele intre cea de2 a II a perioada si prima perioada Calculam
Vom calcula d ik =

161

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

AUCR = =

AUC
n1 + n2

36721 + 3494 + ... + 31387 + 64049 + 47631 + ... + 23702 = 44900 9+9 Determinam: L = U = 0,2 * AUC R = 8980 Deci, bL11 = d11 L = 4108 + 8980 = 13088 ,.., bL 91 = d 91 L = 3228 + 8980 = 5752

bU 11 = d11 U = 4108 8980 = 4872 ,, bU 91 = d 91 U = 3228 8980 = 12208 bL12 = bU 12 = d12 = 615 , ., bL 92 = bU 92 = d 92 = 6012 Ordonam descrescator valorile absolute ale lui bLik , respectiv bUik si vom determina rangurile corespunzatoare R(bLik ) , respectiv R(bUik ) . RL = R(bLi1 ) = 7 + 6 + 4 + 3 + 1 + 2 + 13 + 5 + 10 = 51
n1 i =1

WL = RL
n1 i =1

n1 (n1 + 1) 9 *10 = 51 =6 2 2 n1 (n1 + 1) 9 * 10 = 78 = 33 2 2


R(bLik )
7 6 4 3 1 2 13 5 10

RU = R(bUi1 ) = 6 + 8 + 18 + 16 + 3 + 14 + 1 + 10 + 2 = 78

WU = RU

secv 1 RT RT RT RT RT RT RT RT RT

P1
36721 3494 24163 21584 40403 21322 48654 19776 31387

P2
44936 12608 42293 39924 77951 40642 38428 30948 24932

d ik
4108 4557 9065 9170 18774 9660 -5113 5586 -3228

bLi1 = d i1 L
13088 13537 18045 18150 27754 18640 3867 14566 5752

bUi1 = d i1 U
-4872 -4423 85 190 9794 680 -14093 -3394 -12208

R(bUik )
6 8 18 16 3 14 1 10 2

162

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

secv 2 TR TR TR TR TR TR TR TR TR

P1
65279 50454 25033 34553 25217 37065 37007 19996 35726

P2
64049 47631 21132 24823 24918 29063 25463 17423 23702

d ik
-615 -1411 -1950 -4865 -149 -4001 -5772 -1287 -6012

bLi 2 = d i 2
-615 -1411 -1950 -4865 -149 -4001 -5772 -1287 -6012

R(bLik )
17 15 14 11 18 12 9 16 8

bUi 2 = d i 2
-615 -1411 -1950 -4865 -149 -4001 -5772 -1287 -6012

R(bUik )
15 12 11 7 17 9 5 13 4

Din tabel avem: w( ) = W9;9; 0, 05 = 22 si w(1 ) = n1n2 w( ) = 9 * 9 22 = 59 Intrucat 22 33 w ( ) WU si 6 59 w (1 ) WL putem afirma ca produsele sunt bioechivalente nu

2.13.3.4.Calculul parametric LATIN SQUARE DESIGN : ANOVA TABLE for AUCtot LATIN SQUARE with Log (neperian) option SOURCE D.F SS MS F p Period 1 0.000350993 0.000350993 0.00114772 0.9734 NS Subject(Seq) 16 10.4047 0.650296 2.12643 0.07096 NS Formulation 1 0.320187 0.320187 1.04699 0.3214 NS Sequence 1 0.0100203 0.0100203 0.0327659 0.8586 NS Error 16 4.89306 0.305816 Total 35 15.6284 -------------------------------------------------------------------------------N Mean SD SEM GeoMean Geo SD Formulation:num = R 18 10.2755 0.850093 0.200369 29012.8 2.33987 Formulation:num = T 18 10.4641 0.421689 0.0993931 35035.2 1.52453 -------------------------------------------------------------------------------Root Mean Square Error = 0.553007 ; CV = 0.0533286 phi = 0.72353 Power of the test = 0.161064 1 - ( Power of the test ) = 0.838936 Minimum detectable difference = 0.188617

163

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

-------------------------------------------------------------------------------BIOEQUIVALENCE TESTS FOR Level R and level T Reference Confidence Interval: [ 0.8, 1.25] Geomean Ratio (Test/Reference) = 1.20758 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 0.87528, 1.666] t(0.05 - 16df) = 1.7459 Cannot conclude equivalence. -------------------------------------------------------------------------------TWO ONE-SIDED T-TESTS FOR Level R and level T Lower: t( 16df) = 0.1873 Upper: t( 16df) = 2.2338 t(0.05 - 16df) = 1.7459 Cannot conclude equivalence LATIN SQUARE DESIGN : ANOVA TABLE for Cmax LATIN SQUARE with Log (neperian) option SOURCE D.F SS MS F Period 1 0.18169 0.18169 3.02264 Subject(Seq) 16 4.71008 0.29438 4.89739 Formulation 1 1.22793 1.22793 20.4283 Sequence 1 0.0137681 0.0137681 0.229051 Error 16 0.961752 0.0601095 Total 35 7.09523 -------------------------------------------------------------------------------N Mean SD SEM Formulation:num = R 18 6.72375 0.494661 0.116593 Formulation:num = T 18 7.09312 0.316931 0.0747013 -------------------------------------------------------------------------------Root Mean Square Error = 0.245172 ; CV = 0.0354889 90% standard confidence interval (around the ratio:[test form]/[ref form])=[ 1.2544, t(0.05 - 16df) = 1.7459 Cannot conclude equivalence. 1.6687] p 0.1013 NS 0.001414 *** 0.000349 *** 0.6387 NS

GeoMean 831.927 1203.66

Geo SD 1.63994 1.37291

164

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

2.13.4.Compararea rezultatelor Este de observat ca testele neparametrice, la fel ca cele parametrice indica faptul ca cele doua produse nu sunt bioechivalente. Aceasta deoarece intr-adevar la aproape toti subiectii avem: R T AUC tot AUC tot Si totusi rezultatul este profund incorect deoarece intravariabilitatea si distributia non-normala a rezultatelor produsului de referinta indica foarte probabil si o intravariabilitate mare a produsului de referinta. Dupa cum se vede in fig. 10, fig.11. avem o diferenta foarte mare intre medicamentul de referinta si medicamentul testat dar aceasta diferenta este o combinatie intre intravariabilitatea lui R si cea a lui T.
AUCtot vs TreatmentName
400000
01 05 07 10 12 15 17 19 21 03 06 08 11 13 16 18 20 23

Cmax vs TreatmentName
2000
01 05 07 10 12 15 17 19 21 03 06 08 11 13 16 18 20 23

300000 A U C t o t (n g / m L * h )

1500 C m a x (n g / m L )

200000

1000

100000

500

0 R TreatmentName T

0 R TreatmentName T

Fig. 10Valorile AUCtot pereche pentru R si T

Fig. 11Valorile Cmax pereche pentru R si T

In acest caz, dupa cum au propus aproape toti cercetatorii in ultimii ani ar trebui introduse criterii scalate adica largirea limitelor de acceptare a bioechivalentei, in functie de intravariabilitatea referintei. Din pacate aceasta nu se poate obtine decat din experimente repetate, deci experimente in care medicamentul referinta este administrat de doua ori. In experimentul cross-over fara repetitie se obtine o intravariabilitate 2 S d sau SS int ra din ANOVA care sunt o combinatie a variabilitatilor pentru medicamentul testat si referinta si acestea nu se pot estima separat.

165

III.

Statistica matematica si biostatistica Estimarea bioechivalentei

166

II.

Statistica matematica si biostatistica Teste statistice de discordanta

2.14. TESTE STATISTICE DE DISCORDANTA In ceea ce priveste valorile anormale , se pun in principal trei probleme: decizia privind respingerea sau omisia acestor valori, analiza efectului lor de distorsionare a rezultatelor estimarilor parametrilor populatiei, existenta unor factori neluati in seama si necesitatea elaborarii unui alt model statistic, corespunzator realitatii. In vederea realizarii primului obiectiv se aplica testele de discordanta , numite si teste de respingere , dar decizia de respingere sau non-respingere nu poate fi luata fara examinarea si a celorlate doua probleme enuntate. Putem defini intuitiv notiunea de discordanta (outlier) astfel: o observatie care deviaza atat de tare de restul observatiilor incat poate fi suspectata ca a fost generata printr-un mecanism diferit. Cand este vorba de un set de date universale, caracteristica principala a unei observatii discordante este departarea sau deviatia (masurata) la o scara adecvata) fata de grupul majoritatii observatiilor (inlying observations). Cand este vorba de date multivaluate / structurate, discordanta inseamna abaterea de la modelul statistic (de ex. Regresia liniara) caruia i se supun celelalte valori. In general, putem spune ca, intr-un esantion, o valoare (sau o submultime de valori) este discordanta daca nu respecta patentul caruia ii apartin celelalte valori ( este inconsistenta cu restul observatiilor). In principiu exista doua mecanisme care pot da nastere unui esantion ce pare sa contina valori outlier (daca excludem factorul de eroare umana sau defectiunile aparaturii folosite). Aceste mecanisme dicteaza in buna masura felul in care vor fi tratate aceste valori speciale. a. Datele provin dintr-o distributie heavy tailed (graficul functiei de repartitie se apropie relativ incet de asimptota data de axa Ox) precum distributia Student T. In acest caz, valorile aparent indepartate de restul reprezinta un factor firesc, intrisec legii de repartitie. Acest fenomen nu este caracteristic distributiei normale sau distributiilor gamma (ce manifesta o apropiere rapida de asimptota Ox), drept pentru care nu vom discuta acest mecanism. b. Datele provin din doua distributii diferite. Una dintre acestea, distributia de baza genereaza observatii bune, in timp ce cealalta, distributia contaminata creeaza observatii discordante sau contaminanti. Daca distributia contaminanta are o descrestere asimptomatica mai lenta decat cea de baza, atunci va fi evidenta tendinta 167

II.

Statistica matematica si biostatistica Teste statistice de discordanta

contaminantilor de a se manifesta ca valori discordante, indepartate de restul observatiilor. n general exist o gam foarte larg de teste din care putem alege i n mod natural ne punem problema care sunt criteriile de a alege un test sau altul ntr-o situaie particular i cum putem defini performana testului ales. Sunt patru aspecte principale care trebuiesc luate n considerare. 1. Modelul de baz i determinarea semnificaiei. n orice context un test statistic poate fi construit pur i simplu pe baza intuiiei i s respingem sau s acceptm valorile extreme. Totui avem nevoie de un criteriu de respingere care s asigure o anumit semnificaie operaiei ceea ce impune n mod esenial elaborarea unor ipoteze de lucru privind distribuia testului statistic sau mcar s tim ceva despre distribuia de probabilitate pe coad. 2. Ipoteza alternativ care s ne permit definirea valorilor anormale. 3. Definirea performanei testului i a conceptului asociat de putere. Alegerea dintre mai multe teste ar trebui s fie bazat pe performana lor relativ. Evaluarea performanei relative, de exemplu calculul puterii trebuie sau poate fi fcut cnd avem definit ipoteza alternativ i distribuia testului statistic n condiiile ipotezei alternative. Probemele sunt foarte complicate motiv pentru care pn n ultimii ani ele au fost comple ignorate. 4. Care sunt proprietile dorite pentru testul de discordan. Astfel ne putem pune problema unui test uniform cel mai puternic sau mcar s ne mulumim cu o optimalitate local sau cu certitudinea unei nedeplasri sau cu satisfacerea unor proprieti de invarian. Alternativ putem s construim teste folosind o metod larg acceptat cum ar fi metoda verosimilii maxime a rapotului. 2.14.1. Construcia testelor de discordan Testele aplicabile au fost clasificate n apte clase. 1. Statistici bazate pe raportul exces / dispersie. Acestea sunt rapoarte ale diferenelor ntre valoarea aberant i vecinul su cel mai apropiat sau imediat dup acesta n ir i intervalul valorilor sau alte msuri ale dispersiei seleciei. Ca exemplu avem xn xn 1 xn x2 Propus de Dixon pentru examinarea unei valori aberante superioare i care evit valoarea x1 sau xn xn 1 168

II.

Statistica matematica si biostatistica Teste statistice de discordanta

unde este deviaia standard n modelul de baz. Testul presupunea cunoscut i o repartiie normal a probelor. Putem nlocui cu o estimare a sa dintr-o prob restrns din care s-au eliminat valorile bnuite ca aberante. 2. Statistici bazate pe raportul dintre lungimea domeniul de valori / dispersie. Testele se obin din cele de mai sus prin nlocuirea numrtorului cu lungimea domeniul valorilor. Ca exemplu avem xn x1 s unde s poate fi obinut din ntreg setul de valori sau dintr-un set restrns prin eliminarea valorilor bnuite a fi aberante sau poate fi cunoscut din alte msurtori. Dezavantajul acestor teste este acela c el nu face distincie ntre cazurile cnd avem o valoare aberant superioar, una inferioar sau de amndou tipurile. 3. Statistici bazate pe raportul deviaie / dispersie. Aceste teste nltur dezavantajul celor anterioare prin aceia c se nlocuiete lungimea domeniului de valori cu distaa dintre o valoare aberant i msur a tendinei centrale a datelor. De exemplu putem considera raportul x x1 s La fel ca i s , x poate fi calculat din intregul set de date sau dintr-o parte a acestuia. 4. Statistici bazate pe sume de ptrate. Aceste statistici se bazeaz pe suma ptratelor restricionate i suma ptratelor pentru ntregul set de valori. De exemplu raportul

(x x
i =1 i n i =1 i

n2

n , n 1 2

( x x)
unde x n ,n 1 =

poate fi folosit pentru testarea a dou valori aberante n2 superioare xn i xn-1 dintr-o populaie normal distribuit. 169

x
i =1

n2

II.

Statistica matematica si biostatistica Teste statistice de discordanta

5. Statistici pe baza raportului ntre valorile extreme i valorile medii. Aceste statistici s-au dovedit n particular relevante pentru datele cu distribuie de tip Gamma. 6. Statistici bazate pe momente de ordin superior. Statistici care msoar asimetria sau curbura pot fi folosite i pentru testarea valorilor aberante.
n xi x

3 3 2

x x i
2

n xi x

4 2

2 xi x

7. Statistici W. Aceste teste se bazeaz pe rapotul dintre ptratul unei combinaii liniare a tuturor datelor i suma ptratelor abaterilor fa de medie. ( wi xi )2 W = 2 xi x

(ponderile w , calculate in functie de parametrii selectiei , se gasesc in tabele). O situaie special apare atunci cnd avem un grup de valori anormale superior sau inferior i cnd testele enumerate mai sus nu pot pune n eviden aberaii datorit unui efect de mascare. De aceea s-au conceput teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc). Alte teste examineaz valorile extreme secvenial. n fapt acestea examineaz n principal valoarea aberant maxim pe baza unui test deviaie / dispersie i dac xn se devedete valoare aberant el se repet operaia pentru xn-1 pe proba redus. Procedura se continu pn cnd se gsete o valoare neaberant. Aplicarea unui test sau altul ne poate duce la concluzii in general diferite, in final decizia privind declararea unei valori ca discordante tinand de analiza fenomenului. Exemplu: 1, 5, 11, 4, 2, 6, 3 O prima masura de precautie pe care trebuie sa o luam este aceea de a verifica faptul ca distributia datelor nu se modifica radical prin schimbarea unitatilor de masura, deci la schimbari liniare sau la schimbarea de la o distributie normala la una exponentiala.

170

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Prima operatiune, indiferent de testul aplicat, este aceea de asezare a datelor in ordine crescatoare. 1, 2, 3 , 4, 5, 6 , 11 Rezultatul este bine sa fie vizualizat printr-o asezare a punctelor pe o dreapta.

Fig. nr. 6

Motivul pentru care o prima sau ultima valoare pot fi considerate ca discordante este acela ca aceste valori apar a fi foarte separate de de restul datelor , in raport cu imprastierea datelor din selectie. Aceasta ne duce in mod natural la ideia unei statistici bazata pe raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar D este o masura a dispersiei datelor . Pe post de A putem lua de exemplu diferenta intre valoarea extrema si urmatoarea valoare, cea mai apropiata de ea x7 x6 , sau distanta intre aceasta si restul datelor considerate ca un grup x7 M , unde M este media celorlalte 6 valori. Pentru D putem considera fie lungimea intervalului de valori x 6 x1 , sau distanta intre urmatoarele doua valori x6 x5 care este cu mult mai mic decat x7 x6 , sau dispersia primelor 6 valori Consideraiile de mai sus sugereaz urmtoarele statistici pentru testarea valorilor extreme: x x x x 5 5 y ( 6, 7 ; 1, 6 ) = 7 6 = = 1 ; y ( 6, 7 ; 5, 6 ) = 7 6 = = 5 x6 x1 5 x6 x5 1 T = x7 x 11 3,5 = = 2,14 s 3,5

xs xr xq x p Am putea lua de exemplu, la numitor n prima statistic ntregul domeniu de variaie al valorilor x x 5 = 0,5 y ( 6, 7 ;1, 6 ) = 7 6 = x7 x1 10
Statisticile sunt de forma y ( r , s ; p, q ) =

171

II.

Statistica matematica si biostatistica Teste statistice de discordanta

iar n loc de T =

x5 x x x sa folosim T = 5 , dar statisticile rmn n s s

esen aceleai. Consideram spre exemplu valorile concentratiilor maxime ale MELUOL , un metabolit activ al nicergolinei la 24 de voluntari sanatosi. Pentru a lua o decizie cat mai corecta, vom examina atat valorile individuale, cat si raportul valorilor pentru un acelasi voluntar. Mai mult decat atat, pentru a avea si o imagine a acestor valori si a raportului dintre ele, considera reprezentarile valorilor pentru medicamentul de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a dependentei T ( R ) ( care, daca valorile s-ar corela perfect, ar trebui sa fie o dreapta).
Tabelul nr. 21:
Subject 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16 17 18 19 20 21 22 23 24 N Mean CMAX,T (ng/ml) 65.70 7.85 10.11 3.94 29.54 10.58 6.84 14.79 17.29 11.61 27.48 5.24 32.11 12.49 4.23 7.01 1.96 3.09 15.91 21.54 3.34 3.75 12.67 23 14.31 CMAX,R (ng/ml) 48.98 6.73 21.76 2.65 22.60 14.84 5.95 16.54 6.57 8.75 14.82 3.72 36.33 20.29 4.60 14.96 1.76 3.03 15.01 14.94 4.30 6.72 14.08 23 13.475 T/R 134 117 46 149 131 71 115 89 263 133 185 141 88 62 92 47 111 102 106 144 78 56 90 media StDev T/R 46 47 56 62 71 78 88 89 90 92 102 106 111 115 117 131 133 134 141 144 149 185 263 111 48.6 CMAX,T (ng/ml) 2 3 3 4 4 4 5 7 7 8 10 11 12 12 13 15 16 17 22 27 30 32 66 14 14.2 CMAX,R (ng/ml) 2 3 3 4 4 5 6 7 7 7 9 14 15 15 15 15 15 17 20 22 23 36 49 13 11.4

172

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Fig. nr. 7
70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00 0 5 10 15 20 25 30 CMAX,T (ng/ml) CMAX,R (ng/ml)
60.00 R2 =0.7497 50.00

T(R)

40.00

30.00

20.00

10.00

0.00 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00

Fig. nr. 8
T
70 60

T/ R

300
60 50

250
50 40

200
40 30 30

150

100
20 20

50
10 10

0
0 1 3 5 7 9 11 13 15 17 19 21 23 0 1 3 5 7 9 11 13 15 17 19 21 23

11

13 15

17 19

21 23

Observam dupa ordonare, ca valorile concentratiilor maxime pentru voluntarul 1 sunt cele mai mari si, cel putin pentru T, mult mai mari (aparent discordante) decat pentru ceilalti voluntari. Voluntarul 9 apare normal in contextul valorilor individuale pentru T si R dar raportul lor este cel mai mare, si probabil destul de indepartat de celelalte rapoarte. 173

II.

Statistica matematica si biostatistica Teste statistice de discordanta

In tabelul de mai jos sunt redate rezultatele aplicarii testelor Dixon si Tn pentru R, T si T/R . Din punct de vedere al testului Dixon, toate valorile sunt discordante. Aplicand testul Tn , voluntarul 9 este de eliminat dat fiind raportul T/R discordant. Tabelul nr. 22: voluntar 9 voluntar 1 voluntar 1 voluntar 1 voluntar 9 voluntar 1 voluntar 1 voluntar 1 T/R T/R = R T T/R T/R R T Dixon 134 Dixon Dixon Tn = Tn = Tn = Tn = (Xk-Xk-2)/(Xk-X3)= valoare normala (Xk-Xk-2)/(Xk-X3)= (Xk-Xk-2)/(Xk-X3)= ( Xk-Xmediu)/S= ( Xk-Xmediu)/S= ( Xk-Xmediu)/S= ( Xk-Xmediu)/S= 0.55 0.57 0.58 3.14 0.48 3.12 3.62 >0.41 >0.41 >0.41 >2.82 <2.82 >2.82 >2.82

Acelasi test arata insa ca voluntarul 1 este anormal din punct de vedere al celor doua valori, dar nu si din punct de vedere al raportului T/R. Dat fiind ca decizia privind bioechivalenta este influentata doar de intravariabilitate si nu depinde de intravariabilitate, voluntarul 1 nu este de eliminat. In final, decizia privind clasificarea unei valori drept discordante, depinde de analiza fenomenologica si mai putin de rezultatul testelor statistice.

174

II.

Statistica matematica si biostatistica Teste statistice de discordanta

2.14.2. Criteriul Dixon pentru respingerea outliers Tabelul nr. 23


k 3

( ) r10 = X 2 X 1
r10

(X k X 1 ) (X k X 1 )

Nivel de semnificatie 5% 1% 0.941 0.988

daca cea mai mica valoare este suspecta 4 5

( X X k 1 ) = k

0.765 0.642

0.889 0.780

daca cea mai mare valoare este suspecta 6 7 8

( ) r11 = X 2 X 1
r11 = r21 =

( X k 1 X 1 )
(X k X 2 ) ( X k 1 X 1 ) (X k X 2 )

0.560 0.507 0.554

0.698 0.637 0.683

daca cea mai mica valoare este suspecta 9 10

( X k X k 1 ) ( X 3 X k 1 )

0.512 0.477

0.635 0.597

daca cea mai mare valoare este suspecta 11 0.576 0.679

daca cea mai mica valoare este suspecta 12 13

r21

( X X k 2 ) = k (X 3 X 1 )

0.546 0.521

0.642 0.615

daca cea mai mare valoare este suspecta 14

r22 =

( X k 2 X 1 )

0.546

0.641

daca cea mai mica valoare este suspecta 15 16

r22

( X X k 2 ) = k

(X k X 3 )

0.525 0.507

0.616 0.595

daca cea mai mare valoare este suspecta 17 18 19 20 21 22 23 24 25 0.490 0.475 0.462 0.450 0.440 0.430 0.421 0.413 0.406 0.577 0.561 0.547 0.535 0.524 0.514 0.505 0.497 0.489

175

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Valorile critice pentru t ca test bilateral la nivelul de semnificatie 5 % pentru eliminarea valorilor discordante: Tabelul nr. 24: Valoare 3 4 5 6 7 8 9 10 11 12 13 14 T 1.155 1.481 1.715 1.887 2.020 2.126 2.215 2.290 2.355 2.412 2.462 2.507 Valoare 15 16 17 18 19 20 25 30 35 40 50 100 T 2.549 2.585 2.620 2.651 2.681 2.709 2.822 2.908 2.979 3.036 3.128 3.383

2.14.3. Valori discordante fata de corelatia liniara Un tip special de valoare discordanta este cazul cand un punct experimental pare a nu se potrivi cu modelul corespunzator celorlalte date. Acest lucru este prezentat in figura 9 in contextul simplu al regresiei liniare. Punctele P din interiorul cercului punctat corespund unui model de regresie liniara. De remarcat totusi faptul ca elipsa ce am desenat-o noi in jurul dreptei de regresie este arbitrara , dar sa presupunem ca avem considerente fenomenologice care sa ne permita definirea unui domeniu in interiorul caruia punctele sa poata fi acceptate ca urmand modelul liniar. Daca presupunem ca variabila x nu este o variabila aleatoare, si pentru un x dat se determina experimental mai multe valori y, si daca acestea sunt distribuite normal, se poate calcula un interval de incredere in afara caruia sa putem eticheta valorile drept discordante

176

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Fig. 9 Estimarea dreptei care descrie relatia intre variabilele y si x

Putem, la fel de bine considera dreapta de regresie drept valoarea adevarata si sa consideram un domeniu centrat pe aceasta. Aceasta este echivalent cu inlocuirea dispersiei in fiecare punct x cu o singura dispersie, a intregii multimi de puncte (fig.10) . Dupa cum s-a prezentat la capitolul privind regresia liniara, dreapta adevarata y = + x (in cazul cand datele urmeaza efectiv un model liniar) este aproximata de dreapta care aproximeaza cel mai bine punctele experimentale y = a + b x , in sensul ca suma patratelor distantelor de la puncte la dreapta este minima (dreapta prin cele mai mici patrate).

Fig.10 Distributia normala a punctelor in jurul valorilor de pe dreapta de regresie

Sa consideram in continuare cateva tipuri de puncte in afara multimii de valori normale. Fie de exemplu punctul A in fig. 11. El va fi o valoare discordanta fata de multimea P sau in multimea P+A relativ la modelul regresiei liniare. El este la o distanta mare de dreapta care fiteaza punctele, sau altfel spus, includerea sa in multimea de date mareste semnificativ variatia reziduala. 177

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Important este, in afara de considerarea efectului punctului asupra erorii reziduale, sa evaluam si efectul asupra parametrilor dreptei de regresie. Parametrii acesteia sunt dependenti de punctele pe care le fiteaza. Daca in loc de A consideram punctul experimental B obtinand multimea de date P+B, B nu apare a fi o valoare discordanta (un punct experimental discordant) relativ la estimarea regresiei liniare a modelului. Dar punctul B are un efect considerabil asupra fitarii modelului, intrucat includerea sa in multimea punctelor care determina dreapta prin cele mai mici patrate creste substantial precizia cu care este estimata panta dreptei de regresie. Si aceasta deoarece x-ul sau este la o distanta considerabila fata de x-ul celorlalte puncte din P. In fapt el este o valoare discordanta in ce priveste coordonata x fata de complexul P+B. Spunem ca B este un punct cu parghie mare. A se obseva ca punctul parghie este o componenta a variabilei independente si nu a raspunsului. Astfel, daca in loc de B luam punctul experimental discordant C (cu aceeeasi coordonata x ca a lui B), obtinem multimea P+C si C are aceeasi parghie mare ca si B. Totusi, in comparatie cu B, includerea lui C schimba substantial estimarea liniei de regresie. Spunem ca C este un punct influential in multimea P+C. Deasemenea C este o valoare discordanta (relativ la modelul regresiei liniare ca in toate cazurile discutate). In multimea P+A valoarea discordanta A are o parghie mai mica dar este influentiala pentru ordonata la origine si mai putin pentru panta. Pentru simplitate am introdus notiunile de valori discordante, puncte parghie si date influentiale in termeni de puncte individuale. Dar, in particular, aceste notiuni se aplica la fel de bine si grupurilor sau submultimilor de puncte.

Fig. 11 Valori discordante fata de dreapta de regresie

178

II.

Statistica matematica si biostatistica Teste statistice de discordanta

2.14.3.1.Drepte si puncte discordante Problema discordantei se complica atunci cand in fapt datele nu se inscriu pe o singura dreapta ci pe doua sau mai multe drepte in functie de valorile lui x. Exemplul cel mai sugestiv si cel mai important pentru farmacocinetica in acest sens este acela al medicamentelor cu doua etape de injumatatire, una initiala rapida (de exemplu distributia in compartimentul profund) si una finala ( de exemplu eliminarea) , lenta , notate uzual cu si . Deci datele urmeaza un model biexponential si, dupa logaritmare, se obtin doua domenii de dependenta liniara a logaritmului concentratiei de timp , dupa cum se observa in fig.10 pentru concentratia plasmatica a nicergolinei.
Concentration of nycergoline after oral administration 100

c onc . ( ng/m l)

10

1 0 5 10 15 time ( hours) 20 25 30

Fig. 12

Datele de la 4 h la 8 h se inscriu pe o dreapta , iar datele de la 8 h la 24 h pe o alta dreapta. Deci avem un timp de injumatatire de distributie si un timp de injumatatire de eliminare. O analiza pur si simplu statistica ar duce la concluzia ca ultimele doua puncte reprezinta valori discordante. Compararea datelor privind farmacocinetica nicergolinei la mai multi voluntari duce la concluzia ca nu este vorba de o supraestimare a concentratiilor la ultimele doua puncte ci efectiv avem doua faze de eliminare din sange. Din alt unghi privind lucrurile, intr-un grup de subiecti caracterizati printr-o eliminare monoexponentiala si deci, in reprezentarea logaritmica cu inscrierea punctelor dincolo de tmax pe o dreapta, pot aparea unul sau mai multi voluntari cu eliminare biexponentiala. In fapt este posibil ca toti 179

II.

Statistica matematica si biostatistica Teste statistice de discordanta

subiectii sa aiba o eliminare bifazica, dar modelul aparent in functie de intervalul de recoltare si evaluare a probelor de sange sa fie cand cel real, cand unul simplificat. Ca exemplu, prezentam cazul ibuprofenului. Ibuprofenul fiind cu mult mai solubil in lipide urmeaza un model farmacocinetic cu cel putin doua compartimente. Datele experimentale pot fi insa modelate la majoritatea subiectilor cu un model monocompartimental. In fapt, apare o degenerare a modelului prin compensarea unor procese ce afecteaza concentratia plasmatica. Suntem interesati in vederea predictiei, de modele cat mai simple. Cand unul din subiecti apare efectiv cu o comportare mai complexa, poate fi de preferat eliminarea lui ca outlier, desi in fond, el este mai aproape de realitate decat ceilalti subiecti. Si aici lucrurile sunt relative. Daca vom considera curba medie pentru un lot de voluntari carora li s-a administrat oral omeprazol, vom putea obtine o fitare corespunzatoare cu solutia unui model monocompartimental. Unul dintre subiecti poate aparea discordant fata de medie. Introducerea unui time-lag ce corespunde unei intarzieri in absorbtie (omeprazolul se administreaza, din cauza ca este instabil in mediu acid, de regula sub forma de capsule enterosolubile) acesta revine si el in rand cu ceilalti. 2.14.3.2. Voluntari discordanti in studii de bioechivalenta Cazul cel mai reprezentativ este acela al medicamentelor al caror metabolizare poate fi lenta la o mica parte din subiecti. Analiza curbelor din figura 4 duce la ideea ca doi dintre voluntari sunt metabolizori lenti, deoarece au concentratii mult mai mari decat restul voluntarilor
Plasma levels of propafenone after repeted administration of RYTMONORM (KNOLL) TO 24 healthy volunteers

900

600

300

0 96
time (hour)

144

I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX XXI XXII XXIII XXIV

Figura 13.

180

concentration (ng/ml)

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Din punct de vedere statistic ei vor parea ca discordanti indiferent de testul aplicat. Din punct de vedere al scopului urmarit, dupa cum se vede din figura 14, ei nu ar trebui eliminati deoarece nu influenteaza rezultatul final medicamentele apar a fi bioechivalente (fig.14)
Mean plasma levels of propaf enone af ter repeted administration of PROPAFENON (..) and RYTMONORM (KNOLL) to 24 healthy volunteers

300

T c n e tra n (n /m o c n tio g l) R
200

100

0 96 time (hour) 144

Figura 14

De fapt, dupa cum este prezentat in capitolul privind evaluarea statistica a bioechivalentei, ceea ce importa cu mult mai mult, este intravariabilitatea, variabilitatea unui subiect fata de sine insusi, in cele doua perioade ale experimentului. Dupa cum se vede in figura 15, cei doi ouliers in ceea ce priveste intravariabilitatea au si o variatie semnificativa intre cele doua perioade, deci eliminarea lor poate fi luata in consideratie. In acest caz insa, curbele din figura 14 vor deveni si mai apropiate si nu se va schimba decizia privind bioechivalenta.
1000 con n tio (n /m ce tra n g l)

500

0
Figura 15

181

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Uneori, unele curbe pot parea discordante prin aceea ca prezinta doua sau mai multe maxime, ceea ce este neuzual in farmacocinetica. Daca este vorba insa de oxicami (piroxicam, meloxicam, tenoxicam etc.), acest fenomen este normal datorita circulatiei enterohepatice a acestor medicamente. Deci curbele de meloxicam din figura 16 nu pot fi considerate curbe discordante.
Mean plasma levels of meloxicam
1 .6

C n n tio (u /m o ce tra n g l)

0.8

R T 0 0 1 2

time (h)

Figura 16.

In evaluarea bioechivalentei esentiala este compararea perechilor de curbe apartinand aceluiasi voluntar. Dupa cum se vede din figura 17, cele doua curbe difera foarte mult. Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor, dar difera foarte mult la acelasi individ in perioade diferite, ceea ce reprezinta o intravariabilitate mare, caracteristica clasei conazolilor (ketoconazol, fluconazol, itraconazol etc.). Voluntarul prezentat are un raport mult prea mare atat intre concentratiile maxime, cat si intre ariile de sub curba si el este efectiv outlier.

182

II.

Statistica matematica si biostatistica Teste statistice de discordanta

Figura 17.

Aparent acelasi caz ar fi si in figura 18. Spunem ca aparent, deoarece in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt foarte frecvente si este vorba efectiv de bio-inechivalenta.
Mean plasma levels of mefenamic acid
7

3.5

R T

0 0 4 8 1 2 Time (hours) 1 6 20 24

Figura nr. 18

In concluzie, problema eliminarii unor puncte, sau a unor curbe, sau a multimii curbelor pentru un subiect dat, nu este in principal o problema de statistica ci una tinand de analiza fenomenului studiat, de variabilele ce-l determina si de modelul teoretic urmat.

183

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

2.15. Puterea testului. Calculul numarului de voluntari 2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru obtinerea unei estimari a mediei cu o precizie fixata Pentru un interval de incredere (1- ), pentru media une populatii precizia estimarii este in fapt definita de lungimea intervalului. Cu cat intervalul este mai mic, cu atat mai precisa va fi estimarea. De aceea, marimea esantionului se poate alege pornind de la lungimea intervalului de incredere care sa asigure o precizie stabilita anterior E, sau altfel spus, o limita a erorii. Astfel cand datele urmeaza o distributie normala, marimea esantionului necesar va fi data implicit de relatia: (1) n De exemplu, presupunem ca dorim sa avem 95% incredere si ca eroarea in media estimata sa fie mai mica de 10% din deviatia standard (i.e., E 0.1 ). 2 z 2 2 = 0.1 * si ca urmare n = Deci, z = 384.2 385 (0.1 * )2 n 2 Procedeul se extinde imediat la cazul estimarii intervalelor de incredere pentru diferenta intre mediile a doua selectii dupa cum se arata in tabelul urmator.
2

E = Y = z

Tabelul 25 Determinarea marimii esantionului in functie de precizie: Parametru Estimarea Intervalul de incredere Marimea esantionului

Y z
2

2 n = z 2

2
E2

1 2
p

Y1Y 2
p

(Y 1 Y 2 ) z
2

12
n

2 2

n = z
2 2

2 1

2 +2 )

E2

p z
2

pq n
p1 (1 p1 ) p 2 (1 p 2 ) + n n

2 n = z * 2
2 n = z * 2

pq E2
E2

p1 p 2

p1 p 2

p1 p 2 z
2

( p1q1 + p2 q2 )

185

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

E poate fi luat o valoare absoluta, o fractie din sau o fractie din valoarea mediei estimate. In lipsa unei estimari experimentale a lui p se poate lua un numar maxim prin aceea ca se ia p(1 p ) maxim, deci 1 p= . 2 De retinut ca alegerea lui n astfel incat eroarea sa nu depaseasca un anumit prag urmareste atingerea unei precizii date in estimarea lui cu considerarea numai a erorii de tip I. O abordare independenta de distributie poate fi obtinuta folosind inegalitatea lui Cebasev:

1- = P { Y E

(2) nE Inlocuind inegalitatea cu egalitatea si luand, la fel ca mai sus E = 0.1 si =0,05 obtinem :

2 } 1 2

2 2 = 2000 = 2 si n = 2 = 0,05 0,01 2 E nE


2
Observam ca cifra asiguratoare este mult mai mare din aceea ca nu avem nici o informatie despre distributie.
2.15.2. Testarea ipotezelor. Calculul numarului de subiecti in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu . Aceasta diferenta defineste grosismentul microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti. Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca , puterea tinde la 1, iar cand 0 avem 1 0 . Practic se determina numarul de subiecti necesari asigurarii unei anumite puteri pentru un risc dat sau, altfel spus selectarea unei

186

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

probabilitati pentru eroarea de tip II acceptabila in conditiile unui risc de eroare de tip I fixat. Raportul dintre si este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II.
2.15.3. Testarea ipotezelor privind media unui lot Presupunem ca testam urmatoarele ipoteze: H0 : = 0 vs. H a : > 0

cu riscul cand dispersia 2 este cunoscuta. Simplificam ipoteza alternativa alternativa, luand H a : = 0 + unde >0 este o diferenta minima pe care o consideram semnificativa clinic si vrem sa o punem in evidenta. Daca diferenta este mai mare decat , n va fi mai mic. Deci noi luam in acest fel un n asigurator (conservativ) asumandu-ne un risc cat mai mic. Deoarece, in ipoteza alternativa ca = 0 + , testul statistic Y ( 0 + )

/ n
urmeaza o distributie standard normala. Puterea testului este data de relatia 1 = P { H 0 respinsa H a ade var ata} =
Y ( 0 + ) . = P > z1 = 0 + / n / n n n = P z > z = 1 P z < z , de unde , din definitia cuantilelelor n n z = z1 = z

187

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

si de aici

2 Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este H a : < 0 . Pentru a testa ipoteza bilaterala H 0 : = 0 vs. H a : = 0 sau H a : = 0 + H 0 este respinsa in zona critica, adica pentru
x 0

n=

2 [z + z ]2

sau

x 0

n Deci
x 0 z 1 = P 2 n

x 0 z = 1 = sau 1 2 n P x 0 + z * sau x 0 + z * = 1 = 1 n n 2 2 x x 1 0 1 1 1 = P 0 + z sau +z 1 2 2 n n n n x 1 Deoarece media adevarata este 1 , este repartizat N (0,1) . Prin

urmare

1 + z 1 = 0 2 n

+ 1 0 1 + z 1 2 n

188

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

1 0.5 se poate considera ca 0 1 + z 0 , si deci Pentru 0 2

n
1 +z = 0 1 2 n
1

Conform definitiei avem (z ) = , z

= z si ca urmare
2

1 1 z = 0 z si = 0 . n z + z 2
n Scotand pe n din ecuatie obtinem: z + z 2 n= 2 ( 0 1 )
2 2 2

Daca impartim cu 12 obtinem:


1 2 2 *100 = ( CV ) si 0 *100 = % 1 1
2

si formula devine:
( CV % ) z + z 2 n= 2 ( % )
2 2

Cazul distributiei binomiale Fie Y variabila aleatoare Bernoulli cu probabilitatea de succes p si probabiliatae de esec 1-p. Obiectivul studiului este de a alege intre H0 : p = p0 si Ha : p = p1 (p1>p0) din evaluarea unui esantion de marime n. Proportia de selectie 1 n P = Yi n i =1 urmeaza aproximativ o distributie normala cu media p si dispersia p(1-p)/n .
189

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Pentru testarea ipotezelor enuntate ne folosim de aproximarea normala P E ( P) P p0 = Z D( P) p0 q0 n p p p0 qo 0 z p = p1 = p p 0 + z p = p1 = = n p0 qo n p p p p p0 qo 1 1 = 0 z p1 q1 p1 q1 p1 q1 n n

z =

z + z In concluzie rezulta pentru n : z

p1 q1 n p0 q0 = p1 q1

p0 q0 p1 q1
p1 q1
2

p1 q 1 + z

p0 q 0 =n

2.15.4. Testul pentru compararea mediilor a doua populatii O procedura asemanatoare ca mai sus poate fi aplicata pentru determinarea marimii esantionului necesar pentru obtinerea unei puteri date in compararea a doua metode de tratament. Fie 1 si 2 mediile tratamentului 1 si, respectiv, tratamentului 2. Cele doua ipoteze sunt: H 0 : 1 = 2 vs. H a : 1 2
2 Presupunand ca 12 si 2 sunt cunoscute si considerand o ipoteza alternativa specifica, simplificata H a : 1 2 = formula care da puterea testului este prin definitie

190

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

1 = P { H 0 respinsa H a ade var ata} = Y 1 Y2 = P >z 1 d 2 unde d = sau Y 1 Y2


z
2

1 = 2 +

12
n1

2 2

n2

Dar, in ipoteza alternativa, statistica

(Y 1 Y 2 )

este o variabila

normala standard, z Facand aceleeasi operatii ca mai sus, de punere in evidenta a variabilei normal repartizate, si neglijand Y 1 Y2 1 = 2 + se obtine: P z 2 d (Y Y 2 ) 1 = P 1 1 = 2 + . > z d d 2 De aceea = z , 2 d de unde, z = z .
2

2 Daca presupunem ca n = n1 = n2 si 12 = 2 = 2 atunci

2 2 si deci z + z = 2 = 2 2 d 2 n

191

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

( + ) z + z 2 2 z + z = 2 2 n= 2 2 Pentru un test unilateral, formula de mai sus pentru determinarea marimii esantionului devine: 2 2 ( 12 + 2 ) z + z n= 2 De retinut ca atunci cand dispersia populatiei este necunoscuta, alegerea marimii lotului nu este o problema usoara. De exemplu, in testarea ipotezei nule in expresia H0 : = 0 vs. H a : > 0
2 1 2 2

cand valoarea adevarata este = 0 + , statistica

Y ( 0 + )

s/ n distributie t necentrata cu parametrul de ne-centrare = / .

urmeaza o

Tabelul de mai jos contine marimea calculata a loturilor pentru testul t privind meda si respectiv, diferenta dintre mediile tratamentelor respective, pentru diferite valori ale lui - diferenta semnificativa

192

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Tabelul nr. 26:


Test unilateral Riscul = 0.05 Test bilateral

=
=
0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 3.0 3.5

= 0.1

0.01

0.05

0.1

0.2

0.5

=
=

0.01

0.05

0.1

0.2

0.5

0
139 97 72 55 44 36 30 26 22 19 17 15 14 13 11 11 9 8 7 7 6 6 5 101 71 52 40 33 27 22 19 17 15 13 12 11 10 9 8 7 6 6 5 122 70 45 32 24 19 15 13 11 9 8 8 7 6 6 5 5 5

1 2
137 88 61 45 35 28 23 19 16 14 12 11 10 9 8 7 7 6 5 5 4 4 4 3

101 80 65 54 46 39 34 30 27 24 21 19 18 15 13 11 10 9 8 8 7 7 6 6 6 5

122 90 70 55 45 38 32 28 24 21 19 17 15 14 13 11 10 8 8 7 6 6 6 5

0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 3.0 3.5 4.0

112 89 76 66 57 50 45 40 36 33 27 23 20 17 15 14 12 11 10 9 8 8 7 7 6 5 4 4

108 88 73 61 52 45 40 35 31 28 25 23 19 16 14 12 11 10 9 8 7 7 6 6 5 5 5 4 3

108 86 70 58 49 42 36 32 28 25 22 20 18 15 13 11 10 9 8 7 7 6 6 5 5 5 4 4 3

102 78 62 51 42 36 30 26 23 21 18 16 15 14 12 10 9 8 7 6 6 5 5 4 4 4 4 4 3

193

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

2.15.5. Compararea a doua proportii

Cand variabilele rezultate sunt cu doua valori posibile (tratamentele fie imbunatatesc, fie nu imbunatatesc starea pacientului) variabilele care ne intereseaza mai mult sunt proportiile pacientilor a caror stare s-a ameliorat si nu media unor masuratori date. Fie p1 si p2 proportia de succes (e.g. vindecare sau imbunatatire) in grupul in care s-a facut tratamentul si, respective in grupul de control. Marimea esantionului se poate determina similar cu cazul testului t bilateral obtinandu-se pentru n :
z 2 p(1 p) + z p1 (1 p1 ) + p 2 (1 p 2 ) n= 2 2 ( p1 p 2 ) p + p2 unde p = 1 . 2
2

2.15.6. Marimea esantionului pentru comparari de mai multe medii prin analiza dispersionala (ANOVA) Pentru analiza dispersionala pe o singura cale cu n observatii pe fiecare tratament, obiectivul principal este de a testa ipoteza H 0 privind provenienta esantioanelor din aceiasi populatie. Folosind notatiile de la capitolul privind analiza dispersionala avem: H 0 : 1 = 2 = = k = 0 , si cu ipoteza alternativa

H a : cel putin un i nu este zero

Reamintim ca: SSE n k 2 SSA E ( MSA) = E =2 + i si E (MSE ) = E k (n 1) = 2 k 1 i =1 k 1 Astfel, pentru o deviatie data de la ipoteza nula H 0 , masurata prin
n i2 /( k 1) , valori mari ale lui 2 micsoreaza sansele de obtinere a
i =1 k

valorii FA = MSA/MSE in zona critica a testului. Sensibilitatea testului descrie puterea procedurii de a detecta diferentele intre mediile grupurilor si reprezinta, in fapt, puterea testului.

194

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Aceasta putere se interpreteaza ca probabilitatea ca F sa cada in zona critica atunci cand ipoteza nula este falsa si mediile tratamentelor difera intre ele. Conform ipotezei nule FA=MSA/MSE urmeaza o distributie F cu (n1,n2) grade de libertate, unde v1 = k 1 si v2 = k (n 1) = N k . Deci, pentru analiza dispersiei one-way, puterea este data de: 1 = P{FA > f ( , v1 , v 2 ) H a este ade var ata} =
n k 2 = P FA > f ( , v1 , v 2 ) i 0 k 1 i =1
k i =1

(3)

Pentru valori date pentru n i2 /( k 1) si 2 puterea poate fi crescuta folosind esantioane mai mari. Problema revine la proiectarea unui experiment cu o valoare a lui n astfel incat sa avem asigurata o putere data. In ipoteza alternativa ca

i =1

2 i

0, FA urmeaza o distributie

noncentrata cu un parametru de noncentralitate unde 2 =

n i2
i =1

Asfel relatia (3) devine n k 2 1 = P FA > f ( , v1 , v 2 ) i 0 = P{FA > f ( , v1 , v2 , )} k 1 i =1 relatie care defineste implicit numarul necesar de subiecti.

2 2

2.15.7. Modelul crossover Ipoteze punctuale privind egalitati. FieYijk raspunsul voluntarului i in secventa k in perioada j. Consideram un model care neglijeaza efectele carryover inegale: Yijk = + S ik + Pj + T( j ,k ) + eijk ,

(4) unde i = 1,2, , n k este numarul de voluntary, j este perioada, k = 1, 2 este secventa. In modelul de mai sus este media totala, S ik este efectul aleatoriu al voluntarului i in secventa k, Pj este efectul de perioada j, T( j ,k ) este efectul direct al tratamentului administrat in perioada j, secventa k, adica 195

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Placebo pentru k = j
T( j ,k ) =

si eijk

Medicamentul testat pentru k j, k = 1, 2; j = 1, 2 eroarea in masuratori. Pentru modelul (4) se presupune ca {S ik } sunt distribuite

2 independent si identic cu media zero si dispersia S si {eijk } sunt distribuite

independent cu media zero si dispersia 2 . Se presupune ca {S ik } si {eijk } sunt independente intre ele. Sa testam urmatoarele ipoteze: H 0 : T = P

vs H a : T P (5) Consideram diferentele intre perioade pentru fiecare voluntar in interiorul fiecarei secvente definite: 1 d ik = (Yi 2 k Yi1k ), 2 unde i = 1,2, , n k , k = 1, 2. Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum urmeaza: Y T YP Td = , 1 1 + d n1 n2
1 si (Y . 11 + Y . 22 ) 2 2 nk 1 1 nk 1 nk 2 d = (d ik d . k ) , Y . jk = n Yijk , d . k = n d ik n1 + n2 2 k =1 i =1 k i =1 k i =1 n1 + n2 2 grade de Conform ipotezei nule, Td are o distributie t cu libertate. Daca nu se accepta ipoteza nula, atunci Td > t (1 / 2, n1 + n2 2).

unde

YT =

1 (Y . 21 + Y . 12 ) 2

YP =

In ipoteza alternativa simplificata T = p + puterea testului Td poate fi evaluat similar. In scop de echilibrare, presupunem ca n1 = n2 = n ; ceea ce inseamna ca fiecare secventa va avea acelasi numar de voluntari. 196

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Cele doua ipoteze de mai sus sunt de regula inlocuite cu doua perechi de ipoteze (metoda Schuirmann) H 01 : T P L vs. H a1 : T P > L si H 02 : T P U vs. H a 2 : T R U , unde L si U sunt limitele pentru echivalenta semnificative clinic. Dupa cum se observa ipoteza nula este ca medicamentele nu sunt bioechivalente. Cu aceasta prezumtie de vinovatie este micsorat riscul pacientului. Daca studiul nu dezvinovateste medicamentul testt, acesta nu poate fi introdus in terapie. Putem sa nu acceptam ipoteza nula a inechivalentei daca:
Y T Y P L TL = > t ( , n1 + n2 2) d (1/ n1 ) + (1/ n2 ) Y T Y P U TU = < t ( , n1 + n2 2) d (1/ n1 ) + (1/ n2 )

si

Fie = T P si S ( ) puterea testului bilateral Schuirmann pentru un dat. In cazul bioechivalentei observam ca, in contextul in care se doreste minimalizarea riscului pacientului, avem particularitatea ca functioneaza intr-un fel prezumtia de vinovatie, in sensul ca H 0 este ipoteza ca medicamentele nu sunt bioechivalente iar puterea testului este probabilitatea de a accepta ipoteza bioechivalentei in cazul cand acestea sunt echivalente = P (respinge H 0 H 0 ade var ata ) = riscul pacientului

1 = P (respinge H 0 H a ade var ata )

= P ( accepta H 0 H a ade var ata ) = riscul producatorului

In scopul calcularii puterii reformulam putin ipotezele H 0 in sensul ca vom lua L = u = In acest context problema testului devine o problema de probabilitate de a detecta o diferenta pe care o consideram ca semnificativa clinic; in cazul bioechivalentei aceasta diferenta este de 20%. 197

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Ipoteza complexa H 01 : T R L H a1 : T = R H 02 : T R u H a 2 : T = R Analizam in continuare cazul

Ipoteza simplificata H 01 : T R = H a1 : T = R H 02 : T R = H a 2 : T = R

H 01 : T R = vs. H a1 : T R = 0
x+ t 1 = P ( respinge H 0 H a ade var ata ) = P 1 ,2 n 2 T = R = d 2 n x T = R = P t1 ,2 n 2 d 2 d 2n n x t1 ,2 n 2 1 = 1 P T = R 2 2 d d n n t ,2 n 2 = t1 ,2 n 2 d 2n = t1 ,2 n 2 t ,2 n 2 = t1 ,2 n 2 + t1 ,2 n 2 d 2 n 2 2 n = 2 ( t1 ,2 n 2 + t1 ,2 n 2 ) * d2 In fapt noi am notat

X = X T X R si 2 = d 2 ,
dar dupa cum s-a arata anterior,

=
2 d

2
2 , deci
e

198

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari


2 2 1 e n = ( t1 ,2 n 2 + t1 ,2 n 2 ) * 2 2

si tinand cont ca Impartind termenii raportului cu se obtine pentru numarul de subiecti in fiecare secventa: 2 2 CV 1 n = ( t1 ,2 n 2 + t1 ,2 n 2 ) * '2 2 , ' = *100 unde ' = 0, 2 Pentru cazul bioechivalentei si pentru intreg experimental, 2 2 CV n = ( t1 ,2 n 2 + t1 ,2 n 2 ) * 2 20 Pornind de la grupul 2 de ipoteze se obtine H 01 : T R = H 02 : T R = 0

CV =

e *100

1 = P(respinge H 0 H a ade var ata )

X t 1 = P 2 n 2, T R = 0 = 2 n X = P 2 n si asa mai departe. 2 n +t2 n 2, T R = 0

199

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Cazul cand exista o diferenta intre medicamente

Consideram in continuare cazul cand diferenta intre cele doua medii nu mai este zero ci are o valoare data 0 :

T R = 0
De regula pentru produsele bioechivalente 0 este mai mic decat 7% din R . Consideram din nou o ipoteza simplificata: H 02 : T R = vs H a 2 : T R = 0 si notam
X = XT X R si vom folosi statistica

X 0 X T X R ( T R ) = d 1/ n + 1/ n d 2/ n Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti necesari pantru a asigura o putere data : 1 = ( ) = P ( respinge H 0 H a ade var ata ) = T2 n 2 =

X = P t T R = 0 = 2 n 1 , 2 n 2 2 X 0 0 T R = 0 = P +t 2 n 2 n 1 , 2 n 2 2 0 = P T2 n 2 T R = 0 +t 2 n 1 2 , 2 n 2 0 Deci 2 n + t1 ,2 n 2 = t ,2 n 2 2
2 2 de unde n = 2 t ,2 n 2 + t ,2 n 2 * 2 ( ) Observam ca puterea depinde de , iar numarul de subiecti necesar pentru detectarea unei diferente semnificative clinic data este cu atat mai mare cu cat cele doua medicamente sunt mai apropiate.
2

200

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

2.15.8. Calculul comparativ al numarului de subiecti necesari in testarea bioechivalentei terapeutice a medicamentelor. 2.15.8.1. Calculul in testarea bioechivalentei Medicamentele bioechivalente nu difera niciodata in ceea ce priveste concentratiile plasmatice cu mai mult de 20 % , diferenta fiind in medie mai mica de 7 % . Studiile de bioechivalenta au rostul de a verifica statistic faptul ca doua medicamente unul de referinta si unul testat difera in ceea ce priveste concentratiile in sange cu mai putin de 20 %, diferenta care este considerata nesemnficativa clinic. Aceasta valoare a dus insa si la multe confuzii si controverse. S-a considerat ca este posibil ca un medicament sa aiba concentratii 80 % din medicamentul de referinta iar altul sa aiba concentratii 120 % din medicamentul de referinta. In acest fel, pacientul care ar schimba intre ele cele doua medicamente de referinta ar avea la un moment dat o variatie de 40 % in nivelele plasmatice. Concluzia este falsa deoarece porneste de la o exprimare literar folclorica a definitiei matematice a bioechivalentei. Definitia exacta cere ca intervalul de incredere 90 % pentru diferenta intre nivelele plasmatice medii ale medicamentului testat si a celui de referinta sa sa fie mai mic decat 20 % :

T P 0,8 AUC 1,25 0,9 i R AUC

T c max P 0,8 R 1,25 0,9 c max

Intrucat lungimea intervalului de incredere este proportionala cu variabilitatea medicamentului, cu cat aceasta este mai mare, cu atat diferenta medie intre parametrii farmacocinetici trebuie sa fie mai mica. Practic se ajunge la aceea ca medicamentele bioechivalente difera in medie in ceea ce priveste concetratiile plasmatice, cu mai putin de 5-6 % ceea ce se si verifica efectiv in practica , dupa cum se poate vedea mai jos
Statistica pe 273 aplicaii generice n 1997 1 Pentru 127 studii de bio-echivalen in vivo

AUC 0-t final (t-last) AUC 0 Infinit C max


1

3,47 2,84% 3,252,97% 4,293,72%

Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995, 1999

201

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

De observat ca media diferenei ntre generic i inovator e mai mic dect diferena minim de 5% in uniformitatea coninutului permis de USP.
2.15.8.2. Calculul in testarea echivalentei clinice Obiectiv de demonstrat: Testarea bioechivalentei pornind de la nivelele concentratiilor plasmatice necesita zeci de subiecti in timp ce testarea echivalentei terapeutice necesita zeci de mii de subiecti . Calculul numarului de subiecti necesari pentru demonstrarea unui efect de reducere a unui marker biologic pentru o afectiune data, in cazul in care acesta ia valori numerice continue si avem dovezi ca datele sunt distribuite normal se face in functie de diferenta semnificativa terapeutic in valorile markerului, de riscul asumat si de puterea testului 1 . Presupunem ca testam urmatoarele ipoteze:

H 0 : = 0

vs.

H a : > 0

cu riscul cand dispersia 2 este cunoscuta. Pentru ipoteza alternativa specifica, spunem H : = + unde >0 este o diferenta pe care o consideram semnificativa clinic. Numarul de subiecti necesari pentru testarea acestei ipoteze este
a 0

z + z z + z = n= ( )
2 2

In cazul bioechivalentei se ia un risc de 10 % si o putere de 90 %. Diferenta semnificativa clinic pe care vrem sa o depistam este de 20 %.

= 0,05 z = 1,64 ; = 0,1 z = 1,3 si = 0,2


2

Pentru un medicament cu variabilitate moderata - 20 % ( dincolo de 30 % spunem ca medicamentul este cu variabilitate mare) , inlocuind in formula se obtine

202

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari



2

n =

2 z + z
2

0 . 2 2 (1 . 64 + 1 . 28 ) 2 9 0 .2 2

2.15.8.3. Cazul compararii efectelor clinice Cnd variabilele rezultate sunt cu dou valori posibile (tratamentele fie mbuntesc, fie nu mbuntesc starea pacientului) variabilele care ne intereseaz mai mult sunt proporiile pacienilor a cror stare s-a ameliorat i nu media unor msurtori date. Fie p1 i p 2 proporia de succes (vindecare sau mbuntire) n grupul n care s-a fcut tratamentul i, respectiv n grupul de control. Mrimea eantionului se poate determina similar cu cazul testului t bilateral. Consideram ipotezele:

H 0 : p1 = p 2 H 0 : p1 p 2 = 0 H a : p1 p 2 H a : p1 p 2 0
Pentru a calcula numarul de subiecti in functie si de puterea testului trebuie specificata diferenta semnificativa clinic in cazul parametrului masurat. In cele mai multe studii clinice obiectivul este demonstrarea eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt medicament. Indiferent de comparator, este important sa se specifice ce diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta diferenta o vom nota cu . Aceasta diferenta defineste grosismentul microscopului definit de studiul clinic cu care comparam cele doua medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci va fi nevoie de un numar mic de subiecti. Daca diferenta este relative mica, va fi nevoie de un grup de subiecti mai mare. Daca , puterea tinde la 1, iar cand 0 avem 1 0 . Practic se determina numarul de subiecti necesari asigurarii unei anumite puteri pentru un risc dat sau, altfel spus selectarea unei probabilitati pentru eroarea de tip II acceptabila in conditiile unui risc de eroare de tip I fixat. Raportul dintre si este ca cel din selectia de incertitudine a lui Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea erorii de tip II. Ipoteze ce urmeaza a fi testate vor fi: 203

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

H 0 : p1 p 2 = 0 H a : p1 p 2 =
Cunoscandu-se puterea testului = 1 vom determina marimea esantionului. Conform definitiei puterea testului este: Deci, 1 = P p1 p 2 = =

= 1 = 1 P(accepta H 0 H a ade var ata ) = P(respinge H 0 H a ade var ata )

p1 p 2 1 1 pq + n1 n2

1 1 = P p1 p 2 z pq + p1 p 2 = 1 n1 n2 2 Vom scadea din ambii membri ai inecuatiei precedente si vom obtine: 1 = P p1 p 2 z 1 2


p p 2 = P 1 z 1 p1 q1 p 2 q 2 2 + n n2 1 Dar, Z=

1 1 pq + p1 p 2 = = n1 n2
1 1 pq + n1 n2 p1 q1 p 2 q 2 + n1 n2 p1 p 2 =

p1 q1 p 2 q 2 + n1 n2

p1 p 2 N (0,1) si obtinem: p1 q1 p 2 q 2 + n1 n2

204

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

1 = P Z z 1 2 1 P Z z 1 2 Deci, 1 P Z z 1 2 = P Z z 2 Dar,

1 1 pq + n1 n2 p1 q1 p 2 q 2 + n1 n2

p1 q1 p 2 q 2 + n1 n2

p1 p 2 =

1 1 pq + n1 n2 p1 q1 p 2 q 2 + n1 n2

p1 q1 p 2 q 2 + n1 n2

p1 p 2 = = 1 (1 ) =

1 1 pq + n1 n2 p1 q1 p 2 q 2 + n1 n2 1 1 pq + n1 n2 p1 q1 p 2 q 2 + n1 n2

p1 q1 p 2 q 2 + n1 n2

p1 p 2 = = p1 p 2 = =

p1 q1 p 2 q 2 + n1 n2

P(Z z

p1 p 2 = ) = , deci
1 1 pq + n1 n2 p1 q1 p 2 q 2 + n1 n2

z = z
2

p1 q1 p 2 q 2 + n1 n2

205

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Aducand la acelasi numitor obtinem:

1 1 pq + n1 n2 1 1 Vom determina diferenta = z pq + + z 2 n1 n2 z p1 q1 p 2 q 2 + = z n1 n2 2


= z 2 z 2 = 2 pq(n1 + n2 ) n1 n2 + z n2 p1 q1 + n1 p 2 q 2 n1 n2

p1 q1 p 2 q 2 + n1 n2

Ridicand la patrat obtinem: pq (n1 + n2 ) + z n1 n2 n2 p1 q1 + n1 p 2 q 2 sau, altfel scris:


2

2 = z 2
= z 2
2

1 1 pq + + z n1 n2

p1 q1 p 2 q 2 + n1 n2
2

Considerand n1 = n si n2 = kn1 = kn vom obtine: 1 1 pq + + z n kn p1q1 p2 q2 + = n kn


2

= z 2

pq

( k + 1) + z
kn

p1q1k + p2 q2 kn

z kn = 2

pq(k + 1) + z 2

p1 q1 k + p 2 q 2

z Deci, n = 2

pq(k + 1) + z 2 k

p1 q1 k + p 2 q 2

206

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

z 2 pq + z p1 q1 + p 2 q 2 In cazul in care n1 = n2 k = 1 si n = 2 2 p1 + p 2 . unde p = 2

2.15.8.4. Cazul aspirinei. Dintre pacientii cu infarct miocardic mor , intr-un interval de un an circa 10 % 2 , iar aspirina se pare ca reduce acest numar de decese cu 10 pana 30 % din riscul celor care nu iau aspirina. Ne propunem in continuare sa calculam numarul de pacienti cu infarct miocardic ce trebuiesc urmariti pe un an de zile pentru a detecta o reducere cu 20% a riscului de mortalitate , deci de la de la 10% la 8%. Ne alegem ricul = 0,05 si o putere a testului de 0.9 ( deci =0,1) 10% 20% 8% 10% + 8% 18% p1 = 0,10 , p 2 = 0,08 si p = = = 9% p = 0,09 2 2 = 0,1 0,08 = 0,02 este riscul evenimentului (infarct) n absena tratamentului minus riscul evenimentului n prezena tratamentului sau procentulul riscului evenimentului la lotul martor minus procentul riscului evenimentului la lotul tratat.
1.96 2 * 0.09 * 0.91 + 1,28 0,1 * 0,9 + 0,08 * 0,92 4.300 n= 0,02 Deci n studiile infarctului miocardic, aproximativ 10% dintre pacieni mor n decursul unui an. Un test clinic ar avea nevoie de aproximativ 430 decese n grupul de control (adic, de aproximativ 4300 pacieni n grupul de control i 4300 n grupul de persoane tratate) pentru a obine 90% putere de detectare, 20% reducerea mortalitii la un nivel de 5% ( = 0,05 ). n al doilea exemplu calculm numrul de subieci pentru cazul n care avem o reducere cu 20% a riscului de mortalitate de la 30% la 24%.
Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988
2

207

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

=0,05 si =0,1 30% 20% 24%

p1 = 0,30 , p 2 = 0,24 si p =

30% + 24% 54% = = 27% p = 0,27 2 2 = 0,30 0,24 = 0,06


2

1.96 2 * 0.27 * 0.73 + 1,28 0,3 * 0,7 + 0.24 * 0,76 1.150 n= 0,06 Rezultatul se nmulete cu doi pentru c testul se efectueaz pe dou loturi identice. Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. Numarul de morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor) 30 1150 * 350 100 Rezultatul calculelelor pentru alte combinatii de rata evenimentului si reducerea riscului sunt date in tabelul de mai jos. Procentul de mortalitate %
Reducerea riscului % 10% 20% 30% 40% 50% 10 1800 430 180 100 60 15 1700 400 170 90 55 20 1600 390 165 87 53 30 1400 350 150 80 50 40 1200 300 130 70 45

Test bilateral n care =0,05; P=0,09. Avem la dispozitie doua exprimari, amandoua corecte in masura explicarii clare privind modul de calcul al scaderii. Astfel daca mortalitatea scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20% relativ la valoarea de referinta. Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi in studiu noi evaluam doua ipoteze privind mediile populatiei: H 0 : = 0 si H A : = 0 + deci diferenta este una absoluta. Daca insa plasam efectul intr-un cadru mai larg de comparare a diverselor efecte in diverse boli, ideea ca orice tratament nu modifica un marker biologic cu mai mult de 30% din valoarea sa, este un rezultat mult mai general, global aplicabil multimii markerilor, este semnificativ pentru boala in sine care este caracterizata de o multime mare de parametri masurabili sau nu. 208

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

2.15.8.5. Calculul numarului de subiecti necesari demonstrarii echivalentei terapeutice a doua medicamente care sunt bioechivalente Cnd compar aspirina 100% cu aspirina 80% presupun ca medicamentul care elibereaza numai 80 % din cantitatea de aspirina declarata are numai 80 % din actiunea celui care elibereaza intrega cantitate. Deci diferenta considerata mai sus intre aspirina si placebo ( 0.02) va scadea la 80 % , deci va fi de 0.016 .Diferenta intre testat si referinta care trebuie depistata pentru a respinge bioechivalenta cu ajutorul efectului de reducere a ratei de mortalitate a bolnavilor cu infarct intr-un interval de un an va fi = 0,020 0,016 = 0,004 diferenta echivalentei terapeutice In cazul in care tratez cu aspirina 100% avem 10% 20% 8%, iar 16% in cazul aspirinei 80% avem 10% 8,4% p1 = 0,08 q1 = 1 p1 = 0,92 p 2 = 0,084 q 2 = 1 p 2 = 0,916 p + p2 p= 1 = 0,082 q = 1 p = 0,918 2 n acest caz
1.96 2 * 0.082 * 0.918 + 1,28 0,08 * 0,92 + 0.084 * 0,916 n 0,004 n 98776 in fiecare grup, deci un total de circa 197552 de pacienti cu infarct, de urmarit un an.
2

Concluzii

Literatura medicala abunda de folclor privind cazuri in care doua medicamente bioechivalenta nu au fost echivalente clinic dar, studiile sistematice in acest sens lipsesc. Din modul de prezentare a problemei rezulta clar ca autorii nu au nici cea mai mica idee despre ce inseamna bioechivalenta si cu ata mai putin stiu care este numarul de subiecti necesari pentru a demonstra ceea ce in fapt nu se poate demonstra.

209

II. Statistica matematica si biostatistica Puterea testului. Calculul numarului de voluntari

Reprezentativ un astfel de studiu in cazul amiodaronei 3 se refera la un sondaj de opinie in randul medicilor de familie. Indiferent de numarul foarte mare al ignorantilor asupra subiectului rezultatul nu poate fi considerat ca o concluzie stiintifica.

James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology, vol. 85, may 1, 2000

210

II.

Statistica matematica si biostatistica Distributia binomiala

2.16. DISTRIBUTIA BINOMIALA 2.16.1. Compararea proportiilor cu testul exact Fisher Consideram toate rezultatele posibile a doua incercari independente, n1 in primul caz si n2 in al doilea caz, toate cu aceeasi probabilitate de succes P. Notam numarul succeselor cu k1 si k2 . Tabelul nr. 27 k1 k2 k1 + k2 n1 k1 n2 k2 n1 + n2 ( k1 + k2 ) n1 n2 n1 + n2

unde: k1 si k2 numarul succeselor n1 k1 si n2 k2 numarul esecurilor n1 , n2 numarul de incercari si k1 + k2 fixate Consideram rezultatele particulare x1 = k1 si x2 = k2 . Calculam probabilitatea obtinerii acestor rezultate k1 si k2 , cand se dau marimile esantioanelor n1 si n2 si numarul total de succese obtinute ( k1 + k2 ), cu presupunerea ca probabilitatea de succes P este aceeasi pentru fiecare din cele doua incercari. Definim E1 si E2 ca fiind evenimentele ( x1 = k1 , x2 = k2 ) respectiv( x1 + x2 = k1 + k2 ). Probabilitatea ca sa se obtina datele din tabel este: P { E1 E2 } (**) P { x1 = k1 , x2 = k2 x1 + x2 = k1 + k2 } = P { E1 E2 } = P { E2 } unde ( E1 E2 ) reprezinta realizarea concomitenta a evenimentelor E1 si E2 . Daca se realizeaza E1 , adica ( x1 = k1 , x2 = k2 ), atunci automat se intampla E2 , deoarece nu putem avea x1 = k1 si x2 = k2 fara a avea simultan ( x1 + x2 ) = ( k1 + k2 ).

211

II.

Statistica matematica si biostatistica Distributia binomiala

De aceea probabilitatea evenimentului probabilitatea evenimentului E1 , adica relatia (**) se obtine


P { x1 = k1 , x2 = k2 x1 + x2 = k1 + k2 } =

( E1E2 ) este aceeasi P { E1E2 } = P {E1} . Inlocuind


= P ( x1 = k1 x2 = k2 ) P ( x1 + x2 = k1 + k2 )

cu in

P { E2 }

P { E1}

P ( E2 E1 ) P ( E2 ) Din definitia distributiei binomiale P( E1 ) si P ( E2 ) vor fi date de formulele: k n k k k n k k P( E1 ) = Cn 11 p 1 (1 p) 1 1 Cn 22 p 2 (1 p ) 2 2 PE2 ( E1 ) =

P( E2 ) = Cn 11+ n 22 p
k k

k +k

k 1 +k 2

(1 p)

n 1 + n 2 ( k 1 + k 2 )

PE 2 ( E1 ) =

Cn 11 Cn 22
k +k Cn 11+ n 22

( k1 + k2 )! n1 + n2 ( k1 + k2 ) ! n1 !n2 ! k1 !k2 !(n1 k1 )!(n2 k2 )! n1 + n2 ) ! (

De obicei in tabelele de contingenta se foloseste notatia din tabelul de mai jos. Cu aceasta notatie probabilitatea rezultatelor devine Tabelul nr. 28 A B a c a+c b d b+d a+b c+d

(a + b)!(c + d )!(a + c)!(b + d )! = c !d !a !b !(a + b + c + d )! (a + b)!(c + d )!(a + c)!(b + d )! 1 1 = =C (a + b + c + d )! c !d !a !b ! c !d !a !b ! PE 2 ( E1 ) = P ( a, c a + c ) = Regula de calcul se poate obtine mai usor daca observam ca la numarator avem factorialele totalurilor marginale, iar la numitor numerele din tabel si totalul general.

212

II.

Statistica matematica si biostatistica Distributia binomiala

Exemplu. Din studii anterioare se stia ca proportia de reactii adverse, in special dureri de cap, la voluntarii sanatosi dupa administrarea isosorbit mononitrat (ISMN) este de circa 30%. S-a testat o noua formulare T comparativ cu formularea de referinta in ceea ce priveste biodisponibilitatea. Protocolul experimentului clinic a cerut, pe langa compararea biodisponibilitatii, si inregistrarea efectelor adverse. Experimentul a fost de tip incrucisat, pe 24 voluntari din care, in prima perioada 12 au primit medicamentul de referinta (R) si 12 medicamentul testat (T). Doi voluntari dintre cei care au primit referinta au abandonat experimentul. In final numarul voluntarilor cu dureri de cap a fost de 3 pentru R si 5 pentru T. Deci punand datele in tabelul 2x2 se obtine:

Medicament Reactii adverse (RA) Total Da Nu R 3 9 12 T 5 5 10 Total 8 14 22 Proportia de RA la ISMN a fost gasita mai mare medicamentul testat: 5 3 > . 10 12 Se poate afirma ca acest lucru este adevarat cu probabiliatatea 90%. Verificam in acest scop ipotezele: H 0 : PT = PR cu = 0,10. H A : PT > PR Aplicam testul Fisher. Sa calculam pentru inceput probabilitatea de a se obtine exact rezultatul obtinut in experiment.. Conform cu cele reprezentate mai sus, luand n1 =12, n2 =10 si k1 + k2 = 8

3 9 12 8!14!12!10! P 5 5 10 = = 0,173 8 14 22 3!5!5!9!22! Mai departe trebuiau calculate si probabilitatile pentru combinatiile mai putin probabile decat combinatia obtinuta experimental si cu proportii mai mari pentru PT . Avem de exemplu:

213

II.

Statistica matematica si biostatistica Distributia binomiala

2 10 12 1 8!14!12!10! P 6 4 10 = = 0, 04 22! 2!6!4!10! 8 14 22 1 11 12 1 P 7 3 10 = c = 0, 0045 si 1!7!11!3! 8 14 22

0 12 12 1 =0 P 8 2 10 = c 0!8!12!2! 8 14 22 5 Deci P p = (1,173 + 0, 04 + 0, 0041 + 0 ) > 0,10 . P = 0,213. 10 Deci, in ipoteza ca cele doua medicamente nu difera in ceea ce priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de 5 este 0,213. 10 Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse este mai mare in medicamentul testat decat in cel de referinta doar din intamplare. Este de mentionat o restrictie importanta a testului Fisher si anume aceea ca numarul total de cazuri de un anumit tip este constant (in cazul nostru am ales in consecinta numai combinatiile pentru care numarul total de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in experiment ). De altfel, raportat la un experiment anterior acesta ar fi trebuit sa fie 6-7. Desi aceasta restrictie este bine cunoscuta ca incorecta, testul Fisher se aplica in toata lumea fara precautii in ceea ce priveste verosimilitatea asimilarii practic a tuturor sumelor marginale constante. In continuare sa comparam rezultatul cu rezultatul obtinut din compararea proportiilor experimentale folosind aproximarea normala. Pentru a verifica ipotezele H 0 : p1 = p2 = p cu = 0,10, calculam H A : p1 > p2

214

II.

Statistica matematica si biostatistica Distributia binomiala

1 1 p1 p2 + 2n1 2n2 , unde p = n1 p1 + n2 p 2 = k1 + k 2 = 3 + 5 = 4 Z= n1 + n2 n1 + n2 12 + 10 11 1 1 p (1 p ) + n1 n2


Z= 5 3 1 1 + 10 12 20 24 4 7 1 1 + 11 11 10 12 = 0, 77

P ( Z 0, 77 ) = ( 0, 77 ) = 0, 22 ceea ce este foarte apropiat de rezultatul obtinut cu metoda Fisher. Mai departe comparam cele doua proportii de RA folosind testul 2 . Revenim la tabel 3 9 12 5 5 10 8 14 22 si calculam valorile asteptate pornind de la estimarea combinata a probabilitatii: k +k 3+5 4 p= 1 2 = = n1 + n2 12 + 10 11
Valorile asteptate vor fi
4 = 4,36 11 4 E (k2 ) = n2 p = 10 = 3, 64 11 Iar celelalte valori se obtin prin scadere din n1 si n2 . Deci, dupa scrierea datelor asteptate, tabelul devine: E (k1 ) = n1 p = 12

3 (4,36) 9 (7,64) 12 5 (3,64) 5 (6,36) 10 8 14 22 si mai departe:

215

II.

Statistica matematica si biostatistica Distributia binomiala


2

Ei 4,36 7, 64 Oi = valorile observate Ei = valorile asteptate (expectation)

=
2

( Oi Ei )

( 3 4,36 ) =

( 9 7, 64 ) +

( 5 3, 64 ) +
3, 64

( 5 6,36 ) +
6,36

= 1, 46

Daca vom cauta in tabele, vom gasi ca valoarea de prag pentru distributia 2 cu un singur grad de libertate pentru aria de 0,90 este 2,71. Deoarece 1,46 este mai mic decat 2,71, se accepta ipoteza ca cele doua proportii sunt egale sau, mai exact spus, nu se poate respinge ipoteza ca sunt egale. Dupa cum s-a discutat la prezentarea testului 2 aplicat in compararea proportiilor acesta este echivalent pentru un singur grad de libertate cu aplicarea distributiei normale. Valoarea obtinuta la aplicarea testului Z ridicata la patrat ar trebui sa dea valoarea obtinuta prin statistica 2 , dar 0, 77 2 1, 46 . Daca insa, in calculul statisticii Z renuntam la aplicarea corectiei de continuitate obtinem: 5 3 0 10 12 Z= = 1, 21 4 7 1 1 + 11 11 10 12 si 1,212 1,46 . Deci, testul 2 este echivalent cu testul Z fara corectia de continuitate.

216

II.

Statistica matematica si biostatistica Distributia binomiala

2.16.2. Tabele de contingenta R x C Un tip special de experimente clinice este acela in care mai multe grupuri de subiecti sunt comparate in ceea ce priveste un raspuns , numit si marker ce nu iau valori numerice ci un numar finit de stari cum ar fi agravat, neschimbat, vindecat, ameliorat. Se poate intampla adesea ca si atunci cand raspunsul reprezinta o variabila aleatoare continua, din punct de vedere clinic sa fim interesati in incadrarea acestor valori in anumite intervale. Daca spre exemplu masuram viteza de sedimentare a hematiilor ( VSH ), dat fiind nespecificitatea acestui parametru sa ne fie mai util sa catgorisim valoare obtinuta ca normala ( de exemplu intre 0 si 5 mm/h), crescuta moderat ( 5 40 mm/h ) sau foarte mare ( peste 40 mm/h). Uneori procesul este invers, de cuantificare a unor stari prin asocierea unor numere pe o anumita scara, de exemplu o scara vizuala privind durerea sau o scara de apreciere a eficientei unui tratament antireumatic, cum este de exemplu indicele WOMAC, ce vine sa integreze o serie mai mare de semne clinice mai mult sau mai putin subiective, mai mult sau mai putin corelate intre ele. In toate cazurile de mai sus putem fi interesati in frecventa diferitelor raspunsuri in cadrul unor grupuri constituite ad-hoc in raport cu obiectivele studiului , de exemplu barbati emei, lot tratat lot netratat etc. La modul general, experimente de tipul celor de mai sus duc la niste tabele pe care se numesc tabele R x C , unde R este numarul de grupuri ( row ) si C numarul de coloane. Cazul cel mai simplu si de altfel si cel mai frecvent este cazul tabelelelor 2 x 2 , de exeplu vindecat, nevindecat sau toxic, non toxic etc. Aceste tabele se mai numesc si tabele de contingenta, termenul de contingenta fiind etimologic unul preluat din geometrie ( tangent, cotangent etc). De regula, in aceste tabele suntem interesati sa verificam ipoteze privind proportiile privind prevalenta unor simpome sau efecte in aumite grupe si, in acest caz problema se reduce la compararea unor frecvente, care subiect a fost tratat la capitolul verificarea ipotezelor statistice. O formulare echivalenta, in contextul aranjarii rezultatelor in tabele, cu ipotezele privind frecventele , se refera la relatiile intre linii si coloane. Consideram spre exemplu un tabel generic privind rezultatele comparative, pe loturi paralele, obtinute cu doua medicamente, unul de referinta R, si unul testat T (tabelul 29).

217

II.

Statistica matematica si biostatistica Distributia binomiala

Tabel 29. Exemplu de tabel de contingenta 2x3 R T lipsa efect 20 15 efect moderat 30 30 vindecat 40 50

Ipoteza nula ca tratamentele sunt echivalente se traduce in ipoteza privind independenta liniilor, sau altfel spus, rezultatele nu implica diferente intre tratamente. In fapt liniile nu depind de criteriile dupa care se face impartirea intre ele, nu depind de nivelele factorului dupa care se face clasificarea. In fond ele nu sunt independente intre ele ci, in ipoteza H 0 avem aceiasi linie indiferent de nivel. Relatiile intre liniile si coloanele tabelelor de contingenta pot fi testate cu ajutorul testului 2 cu (R-1)(C-1) grade de libertate. Ei unde O sunt valorile observate iar E sunt valorile asteptate (Expected). Pentru calculul valorilor asteptate va trebui sa completam tabelul cu totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2 obtinut din tabelul29 prin considerarea numai a doua raspunsuri : lipsa efect si vindecat Tabel 30. Exemplu de tabel de contingenta 2x2 R T total lipsa efect 20 15 35 vindecat 40 50 90 60 65 125

2 ( R 1)( C 1)

( Oi Ei )

Rescriem tabelul sub o forma generica ( tabelul 31) Tabel 31. Tabel de contingenta 2x2 generic lipsa efect vindecat R n1 k1 k1 n1 T n2 k2 k2 n2 total 218

( n1 + n2 ) (k1 + k2 )

k1 + k2

n1 + n2

II.

Statistica matematica si biostatistica Distributia binomiala

o putem reduce la k k compararea celor doua frecvente de pacienti vindecati 1 si 2 . n1 n2 k2 sunt In acest scop presupunem ca cele doua variabile k1 si distribuite binomial cu acelasi parametru p ( proportia celor care raspund la tratament). Dupa cum s-a aratat la capitolul privind distributia binomiala mediile si dispersiile sunt date de formulele E ( k1 ) = n1 p ; E ( k2 ) = n2 p ; D ( k1 ) = n1 pq ; D ( k2 ) = n2 pq Dar, atunci cand p este mic npq = np (1 p ) = np p 2 np si deci

Problema compararii celor doua tratamente

D ( ki ) E ( ki )
Mai departe, cand ni standardizat z =
k E (k ) D (k ) =

este suficient de mare variabila aleatoare


k np k np O E se aproximeaz ca = npq np E

fiind normal repartizat. In aceste conditii

( Oi Ei )
Ei

este prin definitie repartizata 2

iar o estimare natural a lui p este p =

k1 + k 2 si respectiv n1 + n2 ( n + n ) ( k1 + k2 ) p= 1 2 n1 + n2
35 = 0.28 125

In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si

E(k2)= 65x90/125=46.8 E(k1)= 60x90/125=43.2 E( n1 k1 )=60x35/125=16.8 E( n2 k2 )= 65x35/125=18.2 Formam acum un tabel completat cu valorile asteptate ( tabelul 32) Tabelul 32 Valorile observate si valorile asteptate lipsa efect vindecat R 20 (16.8) 40 (43.2) 60 T 15 (18.2) 50 (46.8) 65 total 35 90 125 si calculam valoarea testului

219

II.

Statistica matematica si biostatistica Distributia binomiala


2

= 16.8 18.2 43.2 46.8 1 1 1 1 + + + 3.22 = 1.62 16.8 18.2 43.2 46.8 Pentru o semnificatie de 95%, valoarea de prag a lui 12 este 3.84 . Deci putem spune ca liniile sunt independente si deci tratamentele sunt echivalente.
2 1

( 20 16.8 ) =

(15 18.2 ) +

( 40 43.2 ) +

( 50 46.8 ) +

Aplicatie: Vom testa reactia diferitelor persoane la razele solare in functie de culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor (albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de expunere. Valorile observate sunt prezentate in tabelul urmator:
Culoare ochilor Albastri Verzi Caprui Total Jupuire 25 5 6 36 Reactii adverse Eritem Non - reactie 28 6 5 7 10 15 43 28 Reactii adverse Eritem
43 = 23,71 107 43 17 * = 6,83 107 43 31 * = 12,46 107 43 59 *

Total 59 17 31 107 Total

Valorile asteptate sunt prezentate in tabelul urmator:


Culoare ochilor Albastri Verzi Caprui Total Jupuire
59 * 36 = 19,85 107 36 17 * = 5,72 107 36 31 * = 10,43 107 36

Non - reactie
59 * 28 = 15,44 107 28 17 * = 4,45 107 28 31 * = 8,11 107 28

59 17 31 107
= 18,14

Testul statistic este:


2 (2 1)(31) = 4 = 3

(Oi E i )2
Ei

(25 19,85)2 + (28 23,71)2


19,85 23,71

+ ... +

(15 8,11)2
8,11

2 Pentru un nivel de semnificatie = 0,10 avem 4 = 9,49 si cum 18,14 9,49 vom respinge ipoteza H 0 : reactia nu depinde de culoarea ochilor.

220

II.

Statistica matematica si biostatistica Distributia binomiala

2.16.3.Teste de independenta la clasificarea dupa doua criterii

Problema tabelelor de contingenta este problema demonstrarii faptului ca doua criterii de clasificare introduse pe aceiasi populatie sunt independente. Doua criterii se pot considera independente daca distributia dupa un criteriu este aceiasi indiferent daca mai aplicam sau nu si al doilea criteriu de clasificare. De exemplu daca rezultatele obtinute prin aplizarea a doua tratamente si gruparea dupa varsta sunt independente , ne asteptam sa avem aceleasi proportii de ameliorari si/sau vindecari in toate grupele de varsta cu cele doua medicamente. Ipoteza nula este aceea ca cele doua criteriide clasificare sunt independente. Verificarea acestei ipoteze se face folosind exact acelasi test ca mai sus

2 ( R 1)( C 1)

( Oi Ei )
Ei

dar interpretarile calculelor sunt diferite. Consideram din nou tabelul 30 , unde cele doua criterii de clasificare sunt medicamentul administrat si efectul obtinut. Tabelul 33. Clasificarea pacientilor dupa tratament si efecte lipsa efect efect moderat vindecat R 20 30 40 T 15 30 50 total 35 60 90 total 90 95 185

Sa estimam probabilitatile asteptate in fiecare celula in conditiile incare cele doua criterii sunt independente ( ceea ce semnifica in fapt echivalenta medicamentelor R si T). Estimam la inceput probabilitatile marginale, pornind de la totalurile marginale. Probabilitatea ca un pacient luat la intamplare din lotul selectat sa nu prezinte o ameliorare a starii sale este de 35/90=0.39 ; probabilitatea ca la un subiect oarecare efectul sa fie moderat este 60/90=0.67 si probabilitatea vindecarii este 90/185. Similar, probabilitatile caun subiect sa fi primit medicamentul de referinta este 90/185 si respectiv 95/185 ca sa fi primit medicamentul testat. Una din definitiile independentei a doua evenimente A si B este aceea ca P ( A B ) = P ( A) P ( B ) 221

II.

Statistica matematica si biostatistica Distributia binomiala

In conditiile ipotezei nule ca cele doua siteme de clasificare ( efectul si medicamentul 0 sunt independente, pentru prima celula a tabelului rezulta:

P(lipsa efect medicament R ) = P(lipsa efect ) * P(medicament R ) = 35 90 * = 0.092 185 185 Probabilitatea ca un subiect sa simta o ameliorare la administrarea 60 90 medicamentului R va fi si asa mai departe. 185 185 Valorile asteptate se obtin apoi prin inmultirea probabilitatii clasificarii intr-o celula data cu numarul total de subiecti deci , pentru prima celula avem 0.092*185=17 . Observam ca aceasta valoare se poate calcula mai usor deoarece 35 90 35 * 90 deci valoarea asteptata pentru o celula data se * * 185 = 185 185 185 poate obtine ca produsul intre totalurile marginale impartit la totalul general. Se observa ca am intrat deja in algoritmul prezentat anterior pentru tabelele 2x2. =

222

II.

Statistica matematica si biostatistica Distributia binomiala

2.16.4. Tabelele 2x2 corelate

In experimentul anterior, in fapt am comparat numarul de reactii adverse la doua grupuri paralele de subiecti. In evaluarea rezultatelor si in concluziile obtinute desigur ca un rol important l-a avut si intervariabilitatea subiectilor, care este in general destul de mare. Nu am avut nici o informatie privitoare la omogenitatea celor doua loturi. Dupa cum s-a prezentat de mai multe ori in paginile anterioare, in experimentul biologic se recurge ori de cate ori este posibil la experimentul incrucisat, in care fiecare subiect este propriul sau martor. O evaluare mult mai relevanta in ceea ce priveste efectele adverse comparative pentru cele doua medicamente o obtinem daca vom compara frecventa acestora la acelasi lot, sa zicem lotul 1 (de 12 subiecti) care in perioada a 1a a primit R si in perioada a 2a a primit T. Observam ca R a avut ra la 3 voluntari, iar T la 5 voluntari. De fapt, la o examinare mai amanuntita rezultatele sunt conform tabelelor urmatoare: 1 2 3 4 5 6 7 8 9 10 11 12 ra ra ra R ra ra ra ra ra T
R ra N- ra Total 1 4 5 T ra 5 7 N- ra 2 3 9 12 Total Deci un subiect a avut RA la amandoua medicamentele si 5 nu au avut la nici unul din cele doua medicamente, comportamentul lor nu ne da informatii despre diferentele intre medicamente, ci numai despre toxicitatea substantei active. Informatia despre o eventuala diferenta este cuprinsa in intregime in celelalte doua cifre (2 si 4). Daca medicamentele ar fi complet echivalente ar fi de asteptat ca numarul celor care au avut reactii adverse la R si nu au avut la T sa fie aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au avut la R. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel. Deci avem in fapt de evaluat tabelul: ra la R si n-ra la T 2 ra = reactii adverse ra la T si n-ra la R 4 n-ra = non-reactii adeverse Total 6

223

II.

Statistica matematica si biostatistica Distributia binomiala

Folosind direct distributia binomiala cu p =


k P ( x 2 ) = Cn p k q n k
0 2

1 si n = 6, obtinem: 2

si

deoarece

1 2

6 5 1 22 k 0 1 2 P ( X 2 ) = Cn p n = C n + Cn + Cn p 6 = 1 + 6 + = 0,34 = 2 26 64 0
2

Sau folosind aproximarea normala: 1 1 x0 + np 2+ 3 0,5 2 2 = P ( X 2) = = 1,5 = ( 0, 41) = 0,34 1 npq 6 4 Deci acelasi rezultat. Concluzia este ca nu putem respinge ipoteza echivalentei celor 2 medicamente in ceea ce priveste reactiile adverse. Daca am fi aplicat un test de comparare tabelului aparent, de exemplu folosind aproximarea normala a datelor din tabel, am fi obtinut: 5 3 1 1 1 3 Z = 12 12 24 24 = 12 = 0,46 ( 0,46) = 0,32 14 1 14 1 4 7 1 * * + 12 12 12 12 12 3 Concluzia este aceiasi ca nu se poate respinge ipoteza ca cele doua medicamente au avut proportii de substante active diferite doar din intamplare. In fapt, in esenta numarul de date este prea mic pentru a putea asuma, la un risc acceptabil, ca cele doua medicamente au toxicitate diferita.

224

II.

Statistica matematica si biostatistica Distributia binomiala

2.16.5. Teste de omogenitate In unele situatii practice, numarul subiectilor pentru fiecare nivel al unuia din criterii este fixat dinainte. De exemplu numarul de barbati si numarul de femei inrolati in studiu sau numarul de subiecti pe diferite categorii de varste. Daca vom testa nivelele efectului unui medicament clasificarea dupa acest criteriu va fi o variabila aleatoare. Problema pe care ne-o punem in acest caz este aceea a omogenitatii: sunt esantioanele omogene in raport cu un criteriu dat? Ipoteza nula in acest caz este aceea ca toate esantioanele provin dintr-o populatie omogena si deci frecventele in interiorul celor doua grupe nu difera semnificativ.

Exemplu Consideram o clasificare a fumatorilor in ceea ce priveste numarul de tigari fumate si varsta. Fixam in prealabil numarul de subiecti din grupele de varsta 20-30, 30-40, 40-50, peste 50 ani si stabilim nivelele de fumatori 0-10, 10-20, peste 20 tigari/zi. Presupunem ca am obtinut tabelul de mai jos: Nr. tigari 0-10 10-20 > 20 total Varsta (ani) 20-30 20 30 50 100 30-40 30 40 50 120 40-50 40 30 50 120 > 50 50 30 20 100

total 140 130 170 440

Deci vom considera ipotezele: H0: cele 4 categorii de varsta sunt omogene in ceea ce priveste consumul de tigari. HA: cele 4 categorii de varsta nu sunt omogene in ceea ce priveste consumul de tigari. Calculam ca mai sus valorile asteptate: valoarea asteptata va fi produsul totalurilor marginale, impartit la numarul total de subiecti.
100 140 = 31,8 etc . 440 Intr-adevar, daca populatiile sunt omogene sau echivalente si toate esantioanele provin din aceeasi populatie in ceea ce priveste consumul de

Exemplu: in prima celula

225

II.

Statistica matematica si biostatistica Distributia binomiala

tigari, cea mai buna estimare a proportiei in totalul populatiei, a celor ce consuma mai putin de 10 tigari/zi este 100/440 acelasi pentru celelalte categorii de fumatori. Ne vom astepta in acest caz sa gasim de exemplu (100/440) 140 fumatori 0-10 tigari in categoria de varsta 20-30 ani.

226

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17. APLICATII IN EPIDEMIOLOGIE 2.17.1. Studii cohort Studiile epidemiologice se ocupa de punerea in evidenta a unor factori (de exemplu fumatul) care cresc riscul de aparitie a unor boli de exemplu cancerul pulmonar. O abordare corecta a acestor studii trebuie sa se bazeze pe urmarirea in timp a doua loturi unul expus la factorul considerat de risc si un lot martor care nu este expus factorului de risc. Un astfel de studiu se numeste studiu Cohort. Radacina indoeuropeana ghort inseamna in esenta loc ingradit. In latina avem hortus gradina, in limbile slave gorod oras, in romana gard, in engleza yard curte, etc. Deci un studiu cohort indica faptul ca subiectii studiului sunt separati intr-un fel, ingraditi si urmariti. Aceste studii prezinta dezavantajul ca necesita un timp indelungat pentru a fi efectuate, pentru ca trebuie asteptat uneori un numar mare de ani. In cazul bolilor rare numarul subiectilor ce ar trebui urmariti pentru a se ajunge la un numar de bolnavi care sa permita evaluari statistice demne de incredere ar trebui sa fie urias. 2.17.2. Studii case report In locul studiilor prospective, controlate, pe subiecti sanatosi, se poate recurge la alte studii, retrospective pe bolnavi, studii case report, pe baza rapoartelor de caz, a fiselor de observatii si a altor documente. In astfel de studii retrospective se compara numarul bolnavilor care au fost expusi la un factor de risc cu numarul bolnavilor care nu au fost expusi. In contextul aceluiasi exemplu dat mai sus, se compara numarul bolnavilor de cancer pulmonar fumatori, cu numarul bolnavilor care nu sunt fumatori. Lucrurile sunt ceva mai complexe in cazul celor care au fumat o perioada de timp si apoi s-au lasat, sau cazul celor care nu au fumat dar au fost expusi sistematic fumului de tigara. Aparent celor doua tipuri de studii ar fi echivalente, dar de fapt nu sunt. Consideram urmatorul exemplu fictiv: se impart bolnavele de cancer de col uterin care au murit in primul an de la depistarea bolii in doua categorii: prima categorie cele cere au numele Maria sau Ileana a doua categorie cele care au alte nume Rezultatul obtinut este acela ca numele Maria si Ileana creste semnificativ riscul de cancer. Rezultatul este evident fals. Greseala nu este de statistica ci apare din aceea ca loturile nu sunt omogene in ceea ce priveste provenienta din 227

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

mediul rural si din orase. Maria si Ileana sunt mai mult nume de la sate acolo unde asistenta medicala este, din pacate, foarte precara. Depistarea bolii se face mai tarziu sau prea tarziu si tratamentul este si el bolnav. Intr-un studiu prospectiv se poate urmari omogenitatea loturilor printr-o judicioasa stabilire a criteriilor de includere / excludere in / din studiu, ceea ce este mult mai dificil la un studiu preponderent post mortem. 2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case report) a riscului din cauza expunerii la un factor dat. Riscul expunerii.

PE (D ) se evalueaza PNE (D ) intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi (E expus, D disease = boala) Dar, in case study, noi nu expunem subiectii, ci consideram bolnavi. Deci eveniment produs este boala, si obtinem: PD () Pentru simplificare, ne situam in cazul bolilor rare P (ND ) = 1 Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula Bayes
Riscul expunerii se defineste prin formula R =

PD (E )P(D ) PD (E )P(D ) PD (E )P(D ) + PND (E )P( ND ) PD (E )P(D ) + PND (E ) si, similar, la cei neexpusi: PE (D ) =
PNE (D ) = PD (NE )P(D ) PD (NE )P (D ) PD (NE )P(D ) + PND (NE )P(ND ) PD (NE )P(D ) + PND (NE )

Inlocuind in raport se obtine


R= PD (E )P(D )[PD (NE )P(D ) + PND (NE )] [PD (E )P(D ) + PND (E )]PD (NE )P(D )

si daca simplificam prin P(D ) , se obtine: R =

PD (E )[PD (NE )P (D ) + PND (NE )] [PD (E )P(D ) + PND (E )]PD (NE )

228

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

Riscul retrospectiv (odds ratio) Consideram raportul defectelor - odds ratio OR care se obtine intr-un studiu retrospectiv (case-study): Rapoartele odds sunt rapoartele intre proportia celor expusi si proportia celor de neexpusi in populatia de bolnavi si respectiv acelasi raport in populatia de sanatosi. Spre exemplu se considera proportia factorilor intr-un lot de bolnavi de cancer pulmonar si proportia fumatorilor intr-un lot din intreaga populatia. Raportul acestor proportii, numit odds ratio, este o masura a riscului de imbolnavire al celor expusi. PD ( E ) P ( E ) PND ( NE ) P ( NE ) = D OR = D PND ( E ) PD ( NE ) PND ( E ) PND ( NE ) In exemplul nostru: proportia fumatorilo r in populatia de bo ln avi OR = proportia fumatorilo r in populatia de sanatosi In cazul bolilor rare ar trebui determinat numarul de imbolnaviri intr-un lot expus comparativ cu un lot neexpus pe perioade foarte lungi ceea ce este foarte scump si, in general, nu este fezabil datorita iesirii din studiu a foarte multi dintre subiecti. In aceasta situatie insa, daca aproximam ca probabilitatea imbolnavirii este aproximativ zero ( P(D ) 0 ) si probabilitatea de neimbolnavire este aproape 1( P( ND ) 1 ), riscul obtinum retrospectiv OR este o estimare a riscului din cauza expunerii R. Intradevar,
R= PD (E )[PD (NE )P(D ) + PND (NE )] PD (E )PD (NE )P(D ) + PD (E )PND (NE ) PD (E )PND (NE ) = = [PD (E )P(D ) + PND (E )]PD (NE ) PD (E )P(D )PD (NE ) + PND (E )PD (NE ) PND (E )PD (NE )

Si comparand cele doua rezultate am obtinut R OR

229

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz

Riscul relativ estimat retrospectiv (odds ratio - OR) este intotdeauna pozitiv si rareori trece de 10. Distributia sa de probabilitate nu este normala la marimile de esantioane obisnuite. Transformarea logaritmica ln(OR ) este de obicei folosita pentru a duce la distributii aproximativ normale. Daca vom considera un lot testat si unul de referinta avem, dupa definitie: pC pT ; OC = unde C = control si T = testat OT = 1 pT 1 pC p (1 pC ) p p O si ln OR = ln OT ln OC = ln T ln C OR = T = T 1 pT 1 pC OC pC (1 pT ) Observam ca daca riscul nu difera in cele doua loturi, OR = 1 pT = pC , o estimare a lui OR se obtine din frecventa experimentala: pT 1 pC x x unde pT = T si pC = C OR = nT nC pC 1 pT

( (

) )

Deoarece OR nu este normal distribuit se foloseste in practica

ln OR
In vederea obtinerii unei estimari a dispersiei lui ln OR aplicam asa zisa metoda Metoda de calcul aproximativ a dispersiei unei functii f de variabila aleatoare x, D ( f ( x ) ) prin dezvoltarea lui f in jurul lui :

E ( f ( x ) ) = f ( ) + f ( )( )
D ( f ( x ) ) = E f ( x ) f ( ) 2 = E ( f ( x ) ) ( x ) = ( f ( x ) ) D ( x ) p vom avea: In cazul in care f ( p ) = ln 1 p
2 2

f ( x ) = f ( ) + f ( )( x )

230

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie


2

p 1 p) p ln p * ( = D ( f ( p ) ) = ln D ( p ) = n 1 p 1 p 1 1 p (1 p ) 1 = + = * n np (1 p ) p 1 p
2

Aplicand regula in cazul nostrum se obtine formula lui Woolf: 1 1 D ( ln ( OR ) ) = + = nT pT (1 pT ) nC pC (1 pC )

1 1 1 1 1 1 1 1 1 1 + + = + + + + nT pT 1 pT nC pC 1 pC a b c d Intervalul de incredere Intervalul de incredere de 95% este egal cu: 1 1 1 1 ln(OR ) 1,96 + + + a b c d Intervalul de incredere in scala originala de risc relativ estimat este prin urmare dat de [ORL ; ORU ] sau e ln (ORL ) ; e ln (ORU ) unde ln(ORL ) si = ln(ORU ) sunt limitele inferioare si superioare ale lui ln(OR ) Observatie: Intervalul [ORL ; ORU ] nu este simetric fata de media riscului relativ estimat.

2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc relativ intr-un studiu case report, cu o precizie data 1 Se doreste o eroare mai mica de Se poate face o estimare a numarului de subiecti in ipotezele: Esantioanele sa fie egale n1 = n2 = n Riscul relativ estimat este mai mare de 1. ORL OR W = = L OR OR

Woolf B. On estimating the relationship between blood group and disease, Human Genet., 19, 251-3, 1955

231

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

* OR = OR OR L = W L = e ln (OR ) e ln (ORL ) = =e
ln (OR )

ln (OR ) z *SE [ln (OR )] 1 2

= OR OR * e

z *SE [ln (OR )] 1 2

ln (1 ) = z

* SE [ln (OR )] = z

1 1 1 * + n P1 (1 P1 ) P2 (1 P2 )

Rezolvand obtinem:
1 1 + z2 1 P (1 P1 ) P2 (1 P2 ) 2 1 n= [ln(1 )]2

2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR) Ipoteza nula este de obicei H 0 : OR = 1 Aceasta este echivalenta cu

H 0 : P1 = P2 si ipoteza alternativa este H A : P1 P2 Prin urmare, pentru a calcula marimea esantioanelor necesare pentru testarea ipotezelor privind riscul relativ estimat retrospectiv, se poate folosi aceeasi abordare ca cea folosita la testarea ipotezei H 0 : P1 = P2 vs

H A : P1 P2 = Formula corespunzatoare este:


2 P 1 P + z1 [P1 (1 P1 ) + P2 (1 P2 )] , unde P = P1 + P2 2 2 (P1 P2 ) In studiile de control a cazului, P2 - rata de expunere de control este de obicei cunoscuta cu o precizie mare. In acest caz este folosita expresia modificata. z1 n= 2 z1 n= 2 [2 P2 (1 P2 )] + z1 [P1 (1 P1 ) + P2 (1 P2 )] 2 (P1 P2 )
2

[ (

)]

232

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17.7. Originea conceptului OR (Odds Ratio) propus de ctre Woolf. Woolf a ajuns la conceptul de odds ratio pornind de la studiul datelor din literatur medical referitoare la predispoziia ctre anumite boli existent la anumite grupe sanguine. Mai muli cercettori au evideniat 2 c exist o predispoziie ctre cancerul gastric la subiecii cu grupa sangvin A i o predispoziie ctre ulcerul peptic la cei cu grupa sangvina 0 . Pentru cancer frecventele sunt de 2% si respectiv 1% si deci, pentru un lot de 5000 subiecti cu grupa A si 5000 de subiecti cu grupa 0 s-ar obtine rezultatele:
B+ (bolnavi cu cancer gastric) 100 (a) 50 (c) 150 B(control) 5000 (b) 5000 (d) 10.000 p (Procent de boala in grupa) 2% 1%

Grupa sangvina A Grupa sangvina 0 Total

Consideram in continuare un studiu retrospective si calculam: p1 proporia celor cu grupa A n lotul de bolnavi: 100 2 = p1 = 150 3 p2 proporia celor cu grupa A n lotul control: 5000 1 p2 = = 10000 2 Avem: 2 1 p1 p2 = = 0,1667 3 2 Consideram ca proportiile de 1% si 2% sunt adevarate si in cazul in care lotul de control include cele doua grupuri de sange in alt raport decat 1:1, de exemplu 9:1
B+ (bolnavi cu cancer gastric) 180 (a) 10 (c) 190 B(control) 9000 (b) 1000 (d) 10.000

Grupa sangvina A Grupa sangvina O

Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the ABO blood groups, Brit Med J, 1, 799, 1953

233

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

In acest caz : 180 9000 p1 p2 = = 0, 047 190 10000 Intuitiv, dac n-ar exista o predispoziie pentru cancer de stomac la cei cu grupa A, cele dou proporii ar trebui s fie egale. i totui, dup cum se poate observa, cele dou proporii din exemplul de mai sus difer semnificativ. Acesta este un exemplu n care intuiia sau logica convenional ne poate induce n eroare i n care metodele statistice ne pot veni n ajutor. Woolf a observat deci c diferena ntre cele dou proporii depinde de numrul de subieci cu grupa A i cu grupa 0 din lotul de control, deci difer de la un studiu clinic la altul, chiar dac rata specific de atac n interiorul unui grup sangvin dat rmane constant. El a artat deci, c dac de exemplu n lotul de control avem 5000 de subieci cu grupa A, si 5000 de subieci cu grupa 0 se obine un rezultat, i n cazul n care exist 9000 de subieci cu grupa A si respectiv 1000 de subieci cu grupa 0 se obtine un rezultat mult diferit de primul caz.. Rezultatele sunt foarte diferite n condiiile n care proporia de bolnavi n cele dou grupe rmn constante 2% i 1%. n aceste condiii el a propus nlocuirea testului de comparare a celor dou proporii aa cum s-a enutat, cu compararea raportului ratelor de inciden 100/5000 i 50/5000. Ratele de inciden reprezint proporiile de bolnavi n cadrul grupei sangvine A (a/b) i proporia de bolnavi din cadrul grupei sangvine 0 (c/d): a ad OR = c = b bc d Pentru compararea ratelor de incidenta, se testeaz ipotezele: H 0 : OR = 1 vs H1 : OR 1 n studiile case-control (caz martor) OR (Odds Ratio) msoar asocierea dintre o expunere i riscul de dezvoltare a unei boli. n cazul bolilor rare, dupa cum s-a aratat mai sus, OR red o estimare destul de precis a riscului relativ (RR).

234

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17.8. Metoda Mantel-Haenszel de calcularea OR in studii casecontrol stratificate 3 Cand avem mai multe studii clinice epidemiologice, de exemplu unul pe femei si unul pe barbati, in ipoteza ca nu exista diferente semnificative intre cele doua sexe in ceea ce priveste riscul unei anumite boli induse de un factor de risc dat, este natural sa reunim loturile si sa facem calculele pentru populatia reunita. Daca insa nu putem presupune acest lucru, o metoda alternativa de calcul este metoda Mantel-Haenszel .Metoda Mantel-Haenszel este folosit pentru a estima pooled odds ratio din mai multe straturi sau mai multe studii similare: k ai d n i i =1 OR MH = k i , unde ni = ai + bi + ci + di bi c n i i =1 i
Strat / Studii 1 Cazuri Expusi Neexpusi Total ......... j ........................ Expusi Neexpusi Total ......... K ........................ Expusi Neexpusi Total Control Total

a1 c1 m11
............

b1 d1 m01
............

n11 n01 n1
.............

aj cj m1 j
............

bj dj m0 j
............

n1 j n0 j nj
.............

aK cK m1K

bK dK m0K

n1K n0K nK

Notam ORi = i . Deoarece i =

ai d i si deci ai di = bi ci i , avem: bi ci

Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective studies of disease, JNCI 1959, 22:719-748

235

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

OR = MH

ai di bi c bi ci i n i i ni ni i = = = = w , bi ci bi ci bjc j i i n n n i i j j

unde wi = suma.

bi ci ni poate fi interpretata ca ponderea componentei i in bjc j nj

Facem observatia ca ponderile wi sunt in fapt estimari ale inversului dispersiilor componentelor i . In anumite conditii restrictive, aplicand metoda verosimilitatii maxime se poate arata ca 4 dispersia lui ORMH se calculeaz conform ecuaiei: K b c K a d a j + d j bj + c j a j d j a +d j j j n j * j n j nj * nj + nj * nj j =1 j =1 j j + + D ln OR MH = 2 K a d K b c K ad 2 j j j j 2 j j j =1 n j =1 n j =1 n j j j

( (
K

))

bjc j bj + c j * nj j =1 n j K bc 2 j j j =1 n j
2

Intervalul de ncredere se poate obine folosind ecuaia: OR MH exp z D log OR MH 2

( (

))

P.Silocks, An easy approad to the Robins Breslow. Greendland variance estimation, Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110)

236

II.

Statistica matematica si biostatistica Aplicatii in epidemiologie

Exemplu . Consideram rezultate dintr-un studiu privind incidenta cancerelor de gura efectuat in Olanda
Femei Paciente cu Leucoplakie localizare mucoas obraji Control (femei populaie Olanda) Total Fumtoare 6 30.3 36.3 Nefumtoare 5 69.7 74.7 Total 11 100 111

Brbai Pacieni cu Leucoplakie localizare mucoas obraji Control (brbai populaie Olanda) Total

Fumtori 11 36.7 47.7

Nefumtori 1 63.3 64.3

Total 11 100 112

Vom aplica relatia OR MH

ai di n i =1 = k i in care avem: bi c n i i =1 i

a1 = 6 b1 = 5 c1 = 30,3 d1 = 69, 7 n1 = 111

a2 = 11 b2 = 1 c2 = 36, 7 d 2 = 63,3 n2 = 112

In cazul nostru obtinem:


a1d1 a2 d 2 6*69.7 11*63.3 + + n1 n2 111 112 = 5.9 = = b1c1 b2 c2 5*30.3 1*36.7 + + 111 112 n1 n2

OR MH

deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul fumatorilor decat in cazul nefumatorior . 237

TABELE STATISTICE Tabele pentru z

z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1

0 0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2258 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 0,4990

1 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2612 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,4991

2 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4982 0,4987 0,4991

3 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,4991

4 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2996 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,4992

5 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,4992

6 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,4992

7 0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,4989 0,4992

8 0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2518 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951 0,4963 0,4973 0,4980 0,4986 0,4990 0,4993

9 0,0359 0,0754 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4639 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,4990 0,4993

239

TABELE STATISTICE
3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,4994 0,4995 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,4999 0,5000

240

TABELE STATISTICE Tabele pentru t

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

t 0 ,55
0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126

t 0 , 60
0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,254 0,254 0,253

t 0 , 70
0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,527 0,526 0,524

t 0 , 75
1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674

t 0 ,80
1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842

t 0 ,90
3,08 1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,36 1,36 1,35 1,34 1,34 1,34 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1,28

t 0 ,95
6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1,645

t 0,975
12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,04 2,04 2,02 2,00 1,98 1,96

t 0 ,99
31,82 6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,48 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 2,33

t 0,995
63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 2,58

241

TABELE STATISTICE Tabele pentru F0,95

1 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

10

161 18,5 10,1 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84

200 19,0 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,43 3,33 3,32 3,23 3,15 3,07 3,00

216 19,2 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68 2,60

225 19,3 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,61 2,53 2,45 2,37

230 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,45 2,37 2,29 2,21

234 19,4 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,34 2,25 2,18 2,10

237 19,4 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,40 2,39 2,37 2,36 2,35 2,33 2,25 2,17 2,09 2,01

239 19,4 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,18 2,10 2,02 1,94

241 19,4 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,30 2,28 2,27 2,25 2,24 2,22 2,21 2,12 2,04 1,96 1,88

242 19,4 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,32 2,30 2,27 2,25 2,24 2,22 2,20 2,19 2,18 2,16 2,08 1,99 1,91 1,83

243

TABELE STATISTICE

1 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

12

15

20

24

30

40

60

120

254 19,5 8,53 5,63 4,37 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,51 1,39 1,25 1,00

244 19,4 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,00 1,92 1,83 1,75

246 19,4 8,70 5,86 4,62 3,94 3,51 3,22 3,01 2,85 2,72 2,62 2,53 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,18 2,15 2,13 2,11 2,09 2,07 2,06 2,04 2,03 2,01 1,92 1,84 1,75 1,67

248 19,5 8,66 5,80 4,56 3,87 3,44 3,15 2,94 2,77 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,16 2,12 2,10 2,07 2,05 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,84 1,75 1,66 1,57

249 19,5 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,51 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,01 1,98 1,96 1,95 1,93 1,91 1,90 1,89 1,79 1,70 1,61 1,52

250 19,5 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,25 2,19 2,15 2,11 2,07 2,04 2,01 1,98 1,96 1,94 1,92 1,90 1,88 1,87 1,85 1,84 1,74 1,65 1,55 1,46

251 19,5 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,53 2,43 2,34 2,27 2,20 2,15 2,10 2,06 2,03 1,99 1,96 1,94 1,91 1,89 1,87 1,85 1,84 1,82 1,81 1,79 1,69 1,59 1,50 1,39

252 19,5 8,57 5,69 4,43 3,74 3,30 3,01 2,79 2,62 2,49 2,38 2,30 2,22 2,16 2,11 2,06 2,02 1,98 1,95 1,92 1,89 1,86 1,84 1,82 1,80 1,79 1,77 1,75 1,74 1,64 1,53 1,43 1,32

253 19,5 8,55 5,66 4,40 3,70 3,27 2,97 2,75 2,58 2,45 2,34 2,25 2,18 2,11 2,06 2,01 1,97 1,93 1,90 1,87 1,84 1,81 1,79 1,77 1,75 1,73 1,71 1,70 1,68 1,58 1,47 1,35 1,22

244

TABELE STATISTICE Tabele 2

Numar grade de libertate 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Aria 0,025 0 0,0501 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3.247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791

0,950 3,842 5,992 7,815 9,488 11,071 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,173 36,415 37,653 38,885 40,113 41,337 42,557 43,773

0,975 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,647 41,923 43,195 44,461 45,722 46,979

0,990 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892

245

BIBLIOGRAFIE

1. W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 1, 1972. 2. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947 3. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952 4. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 5. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 6. Chow, S.C. & Liu, J.P. (1992) Design and analysis of bioavailability and bioequivalence studies. New York, Marcel Dekker (cap. 3) [1]. 7. Saporta, C. (1990) Probabilit, Analyse des donnes et statistique. Paris, Ed. Technip (cap. 15) [2]. 8. Vaduva, I. (1970) Analiz dispersional. Bucureti, Ed. Tehnic (cap. 4) [3]. 9. K.A.Brownlee, Statistical Theory and metodology in Science and Engineering, J. Wiley, New York, 1960 10. D. Ceausescu, Tratarea statstica a datelor chimico analitice, Ed. Tehnica, Bucuresti, 1973 11. M. Tiron, teoria erorilor de masurare si metoda celor mai mici patrate, Ed. Tehnica, Bucuresti, 1972 12. F. Gremy, D. Salmon, Bases statistiques pur la recherchemedicale et biologique, Dunod, Paris, 1969 13. M. R. Spiegel, Probability and statistique, McGraw Hill, New York, 1980 14. D. Ceausescu, Utilizarea statisticii matematice in chimia analitica, Ed. Tehnica, Bucuresti, 1980 15. M. Iosifescu, T. Postelnicu, Curs de biomatematica, Univ. Ecologica, Bucuresti, 1990 16. M. Iosifescu, Gh. Mihoc, R. Teodorescu, Teoria probabilitatilor si statistica matematica, Ed. Tehnica, Bucuresti, 1966 17. S. Bolton, Statistics, in Remington: The Science and Practice of Pharmacy, 9 th ed., Mark publ., Easton, Pennsylvania, 1995 18. United States Pharmacopoeia, ed. XXIII, cap. Statistical Procedures for Bioequivalence Studies Using a Standard Two treatment Crossover design, 1995 19. P. G. Welling, F.L.S. tse, S. Dighe, Pharmaceutical Bioequivalence, cap. 3, C.M. Metzler: Statistical criteria, M. Dekker, New York, 1991 247

BIBLIOGRAFIE

20. V.W.Steinijans, D. Hauschke, Update on the statistical analysis of bioequivalence studies, Int. J.Clin.Pharmacol. Ther. Toxicol,. 28(3), 105 110, 1990 21. M. Rowland (ed), Variability and Drug Therapy: Description, Estimation and Control, Raven Press, New York, 1985 22. S.C. Chow, J.P.Liu, Design and Analysis of Biovailability and Bioequivalence Studies, M. Dekker, London, New York, 1992 23. A. Rescigno. A. Marzo, U. Thyroff Friesinger, A new measure of bioequivalence, 1 st European Congress of Pharmacology, Milano, june 1995, poster nr. 19 24. A Marzo, Open questions in bioequivalence, 1 st European Congress of Pharmacology, Milano, june 1995, poster nr. 18 25. E. Beyssac, C. Lauro. Marty, H-l Chabard, J-M Aiache, Study of bioequivalence metrics, 6-th European Biopharmaceutics and Pharmacokinetics, Atena, aprilie 1997 26. C. Mircioiu, V. Voicu: Degenerated, solutions of pharmacokinetics models for some lipophilic drugs, Canad. J. Physiol, Pharmacol. 72 (suppl.1), 305, 1994 27. C. Mircioiu, V. Voicu, M. Jiquidi: Mathematical algoritms and computer programs as source of variability in population drugs, 1-st Congress of the European Association for Clinical Pharmacology and Therapeutics, September, 27-30, 1995, Paris 28. C. Mircioiu: Mathematical variability in pharmacokinetics, 6-th Europ. Congress of Biopharmaceutics and Pharmacokinetics, Atena, 22-24 April 1996, Europ. J. Drug Metab. Pharmacokin. (special issue), abstract 371 29. Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 4894 30. Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST) 31. W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 1, 1972 32. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947 33. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am. Stat. Assoc.,47,583-621,1952 34. W.H.Kruskal, W.A.Wallis; Use of ranks in the one criterion analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952 35. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973 248

BIBLIOGRAFIE

36. R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York, 1958 37. C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites, Biointernational 2005, Octomber 24th-26th, London 38. J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21, 467-480, 1965 39. C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974 40. Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995, 1999 41. Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988 42. James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology, vol. 85, may 1, 2000 43. Woolf B. On estimating the relationship between blood group and disease, Human Genet., 19, 251-3, 1955 44. Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the ABO blood groups, Brit Med J, 1, 799, 1953 45. Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective studies of disease, JNCI 1959, 22:719-748 46. P.Silocks, An easy approad to the Robins Breslow. Greendland variance estimation, Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110) 47. C.Mircioiu, Statistica aplicata in farmacie si studii clinice, Ed. Universitara Carol Davila, Bucuresti, 2007

249

CUPRINS

I. 1.1. 1.1.1. 1.1.2. 1.1.3. 1.1.4. 1.1.5. 1.2. 1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6. 1.2.7. 1.2.8. 1.3. 1.3.1. 1.3.2. 1.3.3. 1.3.4. 1.3.5. 1.3.6. 1.3.7. II. 2.1. 2.2. 2.3. 2.4. 2.4.1. 2.4.2. 2.4.3. 2.4.4. 2.4.5. 2.4.6.

ELEMENTE DE TEORIA PROBABILITATILOR Campuri de probabilitate Corp borelian Spatii masurabile Probabilitate Probabilitate conditionata Formula probabilitatii cauzelor (Bayes) Variabile aleatoare Definitie Operatii cu variabile aleatoare Functia de repartitie Densitatea de repartitie Valoarea medie Dispersia Inegalitatea lui Cebasev Teorema lui Bernoulli (legea numerelor mari) Distributii de probabilitate Distributia normala Distributia binomiala Distributia Poisson Aproximarea normala a distributiei binomiale Repartitia 2 Helmert - Pearson Repartitia STUDENT Repartiia F (Behrens - Fisher Snedecor) sau distribuia raportului a dou dispersii STATISTICA MATEMATICA SI BIOSTATISTICA Teorema limita centrala (A.M.Leapunov) Teorema lui Cebev Metoda verosimilitatii maxime Teoria selectiei Populatii si selectii. Inferenta statistica Media de selectie Dispersia de selectie Covarianta de selectie Coeficientul de corelatie de selectie Proprietati ale caracteristicilor de selectie

1 2 3 5 7 7 11 11 11 12 13 14 16 18 19 21 21 23 24 25 25 27 28

29 29 30 31 36 38 39 39 40 41

251

CUPRINS

2.5. 2.5.1. 2.5.2. 2.5.3. 2.5.4. 2.5.5. 2.6. 2.6.1. 2.6.2. 2.6.3. 2.6.3.1 2.6.3.2 2.6.3.3 2.7. 2.7.1. 2.7.2. 2.7.3. 2.7.4. 2.7.4.1 2.7.4.2 2.7.4.3 2.7.5. 2.7.6. 2.8. 2.8.1. 2.8.2. 2.8.3. 2.8.4. 2.8.5. 2.8.6. 2.8.7. 252

Estimatii Estimarea intervalului de incredere pentru medii Estimarea intervalului de ncredere 1 pentru diferenei a dou medii Estimarea intervalelor de ncredere pentru dispersie Estimarea intervalului de ncredere raportul a dou dispersii Utilizarea intervalelor de ncredere n studiile de comparare a biodisponibilitii medicamentelor Verificarea ipotezelor statistice Ipoteze asupra mediei Ipoteze asupra diferenelor a dou medii Estimarea dispersiei Estimarea raportului a doua dispersii Compararea mai multor dispersii: testul Bartlett, testul rapid Cochran, testul Hartley Utilizarea testului t in analiza comparativa a medicamentelor Teste neparametrice Media si dispersia unui esantion dintr-o populatie finita Testul de rang Wilcoxon Ajustarea pentru valori egale in testul Wilcoxon Teste referitoare la perechi de observatii Testul semnelor Testul Wilcoxon pentru observatii perechi Testul H Alegerea intre testele laplaciene si testele neparametrice Analiza de variatie pe doua cai a rangurilor. Testul Friedman Regresia liniara Estimatii si ipoteze asupra coeficientului b Estimarea dispersiei punctelor dreptei de regresie Calculul intervalelor de ncredere pentru dreapta de regresie n cazul stabilitii formelor farmaceutice Studiul stabilitii medicamentelor Regresia ponderata Analiza reziduala in testarea ipotezelor privind corelatia Stabilirea dreptei de regresie in bioanalitica

44 45 47 50 50 51 53 54 56 58 58 59 60 63 64 67 70 71 71 73 74 76 77 79 79 84 86 88 89 95 100

CUPRINS

2.9. 2.9.1. 2.9.1.1 2.9.1.2 2.9.1.3 2.9.2. 2.9.2.1 2.9.2.2 2.9.2.3 2.9.2.4

Metode statistice de analiza factorilor de variabilitate in experimentul biologic (ANOVA) Analiza functionala unifactoriala Aplicarea ANOVA in testarea ipotezei privind depdendenta liniara a datelor Compararea parametrilor farmacocinetici ai unui medicament dupa administrarea pe mai multe cai Conditii necesare pentru aplicarea analizei dispersionale Analiza dispersionala multifactoriala Modelul variabilei aleatoare Scindarea sumei patratelor abaterilor Variatia unui parametru farmacocinetic atat in functie de calea de administrare cat si in functie de numarul de administrari Compararea biodisponibilitatii unei substante active administrate in preparate diferite si in perioade diferite de tratament Estimarea efectelor intr-un experiment standard cross over prin teste t Modelul statistic Testarea efectului secventei de administrare Efectul direct al medicamentului Efectul perioadei

105 106 109 110 112 114 116 117 118 120

2.10. 2.10.1. 2.10.2. 2.10.3. 2.10.4. 2.11. 2.11.1. 2.11.2. 2.11.3. 2.11.4. 2.11.5. 2.12. 2.12.1. 2.12.2. 2.12.3.

121 121 122 125 129

Estimarea efectelor prin ANOVA 131 Modelul statistic general 131 ANOVA in cazul unui studiu privind bioechivalenta a doua 134 medicamente, incrucisat, cu 2 perioade si 2 secvente Calculul variabilitatii interindividuale 137 Calculul efectelor de secventa 138 Analiza efectelor fixe cu ajutorul dispersiilor 139 Legatura intre ANOVA si testul t in compararea efectelor Compararea intre modelul statistic general si modelul statistic specific cross over Testarea efectului secventei de administrare folosind metoda ANOVA Testarea efectului perioadei folosind ANOVA 143 143 143 144

253

CUPRINS

2.13. 2.13.1. 2.13.1.1 2.13.1.2 2.13.1.3 2.13.2. 2.13.3.

2.13.3.1 2.13.3.2 2.13.3.3

2.13.3.4 2.13.4. 2.14. 2.14.1. 2.14.2. 2.14.3. 2.14.3.1 2.14.3.2 2.15. 2.15.1. 2.15.2. 2.15.3. 2.15.4. 2.15.5. 2.15.6. 2.15.7. 2.15.8. 2.15.8.1 254

Estimarea bioechivalentei Metode parametrice de estimare a bioechivalentei Metoda intervalului de incredere Metoda celor doua testari unilaterale Schuirmann Transformarea logaritmica a datelor Metode non-parametrice de estimare a bioechivalentei Compararea rezultatelor metodelor parametrice si non parametrice in estimarea bioechivalentei unor forme farmaceutice cu meloxicam Estimarea egalitatii mediilor plasmatice folosind testul non parametric Wilcoxon Estimarea bioechivalentei prin calculul non parametric al intervalelor de incredere Estimarea bioechivalentei folosind testul non parametric Wilcoxon, pornind de la un model care ia in considerare si efectele de perioada Calculul parametric Compararea rezultatelor Teste statistice de discordanta Constructia testelor de discordanta Criteriul Dixon de respingere a outliers Valori discordante fata de corelatia liniara Drepte si puncte discordante Voluntari discordanti in studii de bioechivalenta Puterea testului. Calculul numarului de voluntari Estimarea parametrilor. Calculul esantionului minim pentru obtinerea unei estimari a mediei cu o precizie fixata Testarea ipotezelor. Calculul numarului de voluntari in functie de probabilitatile erorilor de tipul I si tipul II fixate in prealabil Testarea ipotezei privind media unui lot Testarea pentru compararea mediilor a doua populatii Compararea a doua proportii Marimea esantionului pentru comparari de mai multe medii prin analiza dispersionala (ANOVA) Modelul cross over. Ipoteze punctuale privind egalitati Calculul comparativ al numarului de subiecti necesari in testarea bioechivalentei terapeutice a medicamentelor Calculul in testarea bioechivalentei

147 147 147 147 148 149 151

153 156 159

163 165 167 168 175 176 179 180 185 185 186 187 190 194 194 195 201 201

CUPRINS

2.15.8.2 2.15.8.3 2.15.8.4 2.15.8.5

Calculul in testarea echivalentei clinice Cazul compararii efectelor clinice Cazul aspirinei. Calculul numarului de subiecti necesari demonstrarii echivalentei terapeutice a doua medicamente care sunt bioechivalente Distributia binomiala Compararea proportiilor cu testul exact Fisher Tabele de contingenta R x C Teste de independenta la clasificarea dupa doua criterii Tabelele 2x2 corelate Teste de omogenitate Aplicatii in epidemiologie Studii cohort Studii case report Evaluarea prospectiva (studii cohort) si retrospectiva (case report) a riscului din cauza expunerii la un factor dat Intervalul de incredere pentru riscul relativ estimat retrospectiv (odds ratio) in studiile de control de caz Calcularea marimilor esantionului pentru estimarea unui risc relativ estimat intr-un studiu case report, cu o precizie data Calcularea marimii esantioanelor pentru testarea ipotezelor privind riscul relativ estimat retrospectiv (OR) Originea conceptului OR (Odds Ratio) propus de ctre Woolf Metoda Mantel-Haenszel de calcularea OR prin combinarea mai multor experimente clinice Tabele statistice pentru z Tabele statistice pentru t Tabele statistice pentru Fischer Tabele statistice pentru 2 Bibliografie Cuprins

202 203 207 209

2.16. 2.16.1. 2.16.2. 2.16.3. 2.16.4. 2.16.5. 2.17. 2.17.1. 2.17.2. 2.17.3. 2.17.4. 2.17.5. 2.17.6. 2.17.7. 2.17.8. Anexe

211 211 217 221 223 225 227 227 227 228 230 231 232 233 235 239 241 243 245 247 251

255

S-ar putea să vă placă și