Sunteți pe pagina 1din 253

Constantin Mircioiu Roxana Colette Sandulovici

STATISTICA APLICATA
IN
FARMACIE SI STUDII CLINICE
Editia a – II – a

EDITURA UNIVERSITARA “CAROL DAVILA”


BUCURESTI, 2009
Prof. dr. farm., mat. CONSTANTIN MIRCIOIU
Dr. farm., mat. ROXANA COLETTE SANDULOVICI

STATISTICA APLICATA
IN
FARMACIE SI STUDII CLINICE
Editia a II - a

pentru

cursul de biostatistica
Facultatea de Farmacie, Universitatea de Medicina si Farmacie
“Carol Davila”, Bucuresti

cursul de biostatistica doctoranzi


Universitatea de Medicina si Farmacie “Carol Davila”, Bucuresti

cursul de biostatistica si farmacocinetica


Masterul de Biostatistica
Facultatea de Matematica, Universitatea Bucuresti

EDITURA UNIVERSITARA “CAROL DAVILA”


BUCURESTI, 2009
PREFATA

La numai un an dupa prima aparitie a cartii de fata, conceput initial


ca un curs pentru studentii din anul IV ai facultatii de farmacie, contextul
stiintific si didactic s-a schimbat “semnificativ statistic”. In urma experientei
cursurilor si seminariilor din cadrul facultatilor de farmacie si facultatilor de
matematica a aparut necesitatea de a revizui o parte din material in scopul
cresterii ponderii exemplelor din cadrul cercetarilor experimentale si
studiilor clinice, mai dificile de urmarit decat exemplele “ideale”, dar mai
ilustrative in ceea ce priveste modul de rezolvare a unor probleme reale,
complexe.
S-au adaugat in primul rand cateva capitole noi de biostatistica
“reala”:
• estimarea bioechivalentei prin metode non-parametrice, problema
amplu dezbatuta in acesti ani in contextul propunerii de a schimba regulile
americane si europene de evaluare a bioechivalentei,
• estimarea retrospectiva a factorilor de risc in cazul bolilor rare,
• relatia intre evaluarea bioechivalentei si a echivalentei terapeutice,
• aplicarea ANOVA in estimarea modelelor liniare.
Necesitatea acestor din urma capitole au aparut, in primul rand, in
cadrul masteratului de Biostatistica organizat de Facultatea de Matematica
in colaborare cu Facultatea de Farmacie si au facut obiectul unor dezbateri
multidisciplinare la care au participat matematicieni, medici, farmacisti,
chimisti si biologi in cadrul seminariilor de biostatistica aplicata la studiile
clinice.
O alta directie a dezvoltarii a privit evaluarea statistica a datelor
clinice in cadrul unor studii clinice concrete analizate la cursurile si
seminariile de biostatistica la scoala doctorala de pe langa Universitatea de
Medicina si Farmacie “Carol Davila”.
In final, dincolo de insusirea unor reguli de baza privind evaluarile
statistice in capitolele mentionate s-a incercat sa se acrediteze conceptul
fundamental privind validarea in spirala: validarea rezultatelor prin analiza
statistica, validarea rezultatelor statistice prin evaluarea fenomenologica,
remodelarea fenomenelor, extrapolarea experimentului, evaluarea statistica,
s.a.m.d.
Rezumand intr-o singura fraza bunele intentii ale autorilor - acestia
au vrut sa transmita ideea ca aplicarea in analiza datelor clinice numai a
bunului simt sau numai a regulilor formale de calcul te pot rataci si uneori
chiar sminti.
Autorii Bucuresti, 2009
I. Elemente de teoria probabilitatilor Campuri de probabilitate

1.1. CÂMPURI DE PROBABILITATE

Teoria matematică a probabilităţilor porneşte de la faptul că fiecărui


rezultat posibil al unui experiment aleator, rezultat pe care îl vom denumi
eveniment, i se asociază o valoare numerică, numită “probabilitatea”
evenimentului respectiv. Această valoare este o caracteristică obiectivă a
evenimentului în condiţiile experimentului dat.
Să efectuăm, de exemplu, un experiment de m ori. Dacă în cele m
experienţe un eveniment A s-a produs de k ori, atunci 0 ≤ k ≤ m, de unde
rezultă pentru frecvenţa relativă:
k
0 ≤ ≤1
m
adică frecvenţa relativă a unui eveniment este întotdeauna un număr cuprins
între 0 şi 1.
Ţinând cont că frecvenţa relativă oscilează în jurul probabilităţii
evenimentului considerat şi că probabilitate este acea caracteristică a
evenimentului care ne indică în ce proporţii se produce evenimentul în cazul
repetării experimentului de un număr foarte mare de ori, rezultă că şi
probalitatea este tot un număr între 0 şi 1.
Din definiţia probabilităţii ca generalizare a conceptului de frecvenţă
relativă, rezultă că probabilitatea unui eveniment imposibil este 0, iar
probabilitatea unui eveniment sigur este 1.
Evenimentele pot fi simple, în sensul că nu se pot descompune mai
departe, sau compuse din alte evenimente ce se petrec simultan. În acest
context putem considera două operaţii între evenimente.
Scriem A ∩ B şi înţelegem prin aceasta un eveniment care constă în
producerea evenimentelor A şi B, simultan. Scriem A ∪ B pentru cazul când
se produce cel puţin unul din cele două evenimente.
Fiind date două rezultate A şi B ale unui experiment efectuat de n
ori, să presupunem că A s-a obţinut de k1 ori şi B de k 2 ori. Evenimentul
A ∪ B, deci obţinerea unui eveniment din cele două rezultate, s-a obţinut ca
k +k k k
atare, de 1 2 = 1 + 2 ori, ceea ce sugerează o regulă de tipul
n n n
Probabilitate (A ∪ B) = Probabilitate (A) + Probabilitate (B)
În cele ce urmează vom introduce o prezentare axiomatică a
conceptului de probabilitate, după Kolmogorov 1 .

1
Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din
Moscova, a avut contribuţii deosebite în analiza matematică, analiza funcţională şi teoria
1
I. Elemente de teoria probabilitatilor Campuri de probabilitate

1.1.1. Corp borelian

1.1.1.1. Definiţie:

Fie E o mulţime şi K o familie nevidă de părţi ale lui E, K ⊂ ℘(E)


cu proprietăţile:
1. A ∈ K ⇒ CA ∈ K
2. ( Ai )i∈N ⊂ K ⇒

∪ 1
Ai ∈ K
3. E ∈ K
Deci, este închisă la operaţiile de complementare şi reuniune.
Se spune, în acest caz, că familia K, împreună cu operaţiile
menţionate, formează un corp bolerian. Denumirea de borelian vine de la
matematicianul Emil Borel, unul dintre fondatorii teoriei probabilităţilor.

1.1.1.2. Consecinţă:

Un corp borelian este o familie închisă faţă de operaţiunea de


intersecţie, indiferent de numărul elementelor sale pe care le intersectăm:
( Ai )i∈N ⊂ K ⇒ ∩ Ai ∈ K
⎛ ⎞
Demonstraţia se face imediat folosind faptul că ∩ A = C ⎜⎝ ∪ A ⎟⎠
i
i
i
i şi

proprietăţile 1 şi 2.

1.1.1.3. Propoziţie:

Fiind dată o familie de corpuri boreliene (Ki )i ∈ I , intersecţia lor este


tot un corp borelian.
Demonstratia se face imediat, folosind proprietăţile corpului borelian
şi ale operaţiilor de intersecţie, reuniune şi complementare.

1.1.1.4. Definiţie:

probabilităţilor. Cartea sa “Grundbegriffe der Wahrscheinlichketetsrechnung”, Berlin,


1933, a însemnat o revoluţie în teoria probabilităţilor, arătând că, formal, această teorie
se poate trata ca un caz particular de teorie a integralei (sau “teoria măsurii”).

2
I. Elemente de teoria probabilitatilor Campuri de probabilitate

Fie H o familie oarecare de părţi ale unei mulţimi E . H poate fi


completată la un corp borelian, numit corpul generat de Η , dacă i se adaugă
E şi toate mulţimile ce se formează prin reuniune, intersecţie şi
complementare pornind de la elementele H ∈ Η.
Dacă luăm pe dreaptă, mulţimea intervalelor deschise de forma
( −∞, a ) , a ∈ R , corpul borelian generat se numeşte simplu “borelianul pe
dreapta” şi constituie baza teoriei probabilităţilor, aşa cum va fi ea abordată
în prezenta lucrare.
Deoarece orice interval închis se poate obţine prin operaţiile
meţionate din intervale deschise şi invers, orice interval deschis poate fi
generat pornind de la intervale închise, borelianul pe dreapta este în acelaşi
timp generat de mulţimea intervalelor închise.
Într-adevăr, se poate scrie:

[a, b] = ∩∞n =1 ⎛⎜ a − 1 , b + 1 ⎞⎟ şi (a, b ) = ∪∞n =1 ⎡⎢a + 1 , b − 1 ⎤⎥


⎝ n n⎠ ⎣ n n⎦

1.1.1.5. Definiţie:

O familie ( Ai )i ∈ I se numeşte desfacere a lui E dacă:


1. I este cel mult numărabilă;
2. ∀i, ∀j ⇒ Ai ∩ Aj = φ
3. ∪ Ai = E

1.1.2. Spaţii măsurabile

1.1.2.1.1. Definiţie
O mulţime E împreună cu un corp borelian K formează un spaţiu
măsurabil (E,K). Elementele lui K se numesc mulţimi măsurabile.

1.1.2.2. Definiţie
Fiind date (E,K) si (F,L) spaţii măsurabile, o funcţie f: (E,K) → (F,L)
se numeşte funcţie măsurabilă dacă îndeplineşte condiţia:
∀ A, A ∈ L ⇒ f-1(A) ∈ K sau, altfel spus: f-1(L) ⊂ K

1.1.2.3. Proprietăţi
a) Dacă f şi g sunt măsurabile, atunci f g, f +g şi f*g sunt măsurabile.
3
I. Elemente de teoria probabilitatilor Campuri de probabilitate

b) Dacă f este continuă, atunci f este borelian măsurabilă.

1.1.2.4. Observaţie
Se poate face un paralelism între spaţiile topologice şi spaţiile
măsurabile, între funcţiile continue şi funcţiile măsurabile. Astfel, o funcţie
este continuă dacă preimaginea oricărei mulţimi deschise este o mulţime
deschisă iar măsurabilă este atunci când preimaginea oricărei mulţimi
măsurabile este măsurabilă. Deasemenea, dacă f şi g sunt două funcţii
continue, atunci f + g şi f*g sunt continue.

1.1.2.5. Definiţie
Se numeşte măsură orice funcţie pozitivă definită pe corpul
mulţimilor măsurabile, μ : K → R+ , “aditivă” pe orice familie ( Ai )i ∈ I
numărabilă de mulţimi măsurabile disjuncte:
( )
∀n, ∀m, An ∩ Am = Φ ⇒ μ ∪1 An = ∑1 μ ( An )
∞ ∞

1.1.2.6. Consecinţe
a) μ (Φ ) = 0
Într-adevăr, dacă luăm A1 = A , A2 = Φ ⇒
μ ( Φ ) = μ ( Φ ∪ Φ ) = 2μ ( Φ ) ⇒ μ ( Φ ) = 0
b) Fie un şir de mulţimi A1 ⊆ A2 ⊆ ... şi fie A = ∪ An , atunci μ ( An ) → μ ( A)
Demonstraţie:
Fie Bn = An + 1 \ An . Mulţimile Bn sunt disjuncte şi An = B1 ∪ B 2 ∪ ... ∪ Bn .
⎛ n ⎞ n
Din aditivitatea lui μ rezultă μ ( An ) = μ ⎜⎜ ∪ Bi ⎟⎟ = ∑ μ (Bi ) = sn
⎝ i =1 ⎠ i =1
( ) ( )
sn → s = μ ∪i =1 Bi = μ ∪n =1 An = μ ( A)
∞ ∞

A = ∪ An şi μ ( Ai ) < ∞ ⇒ μ ( An ) < μ ( A)
Altfel, An = {n, n + 1,...}, ∩A n = Φ dar μ ( An ) = ∞

1.1.2.7. Exemple
a) Fie μ definită după cum urmează:
• μ ( A) = ∞ dacă A este infinită şi
• μ ( A) = numărul elementelor din A , dacă A este finită.
Această măsură se numeşte în mod natural “măsura de numărare”.
b) Fie un punct exterior x0 ∈ E fixat. Definim:
4
I. Elemente de teoria probabilitatilor Campuri de probabilitate

• μ x ( A) = 1 dacă x0 ∈ A şi
0

• μ x ( A) = 0 dacă x0 ∉ A
0

Măsura este utilizată în mecanica cuantică şi se numeşte “măsura lui Dirac”.

1.1.3. Probabilitate
Vom defini probabilitatea ca o măsură particulară.

1.1.3.1. Definiţie:
Fiind dat un spaţiu măsurăbil (E, K ) . O funcţie P: K → [0,1] cu
proprietăţile:
a) P – măsură şi
b) P (E ) =1
se numeşte probabilitate.
Deci, probabilitatea ar fi o măsură “normată”.

1.1.3.2. Proprietăţi:
Pe baza proprietăţilor măsurii şi a faptului că P (E ) =1, se pot
demonstra cu uşurinţă următoarele proprietăţi:
1. A ⊃ B ⇒ P( A / B ) = P( A) − P(B )
2. (∀n ) , An ⊂ An + 1 ⇒ P(∪ An ) = lim n → ∞P( An )
3. (∀n ) , An ⊃ An + 1 ⇒ P(∩ An ) = lim n → ∞P( An )
4. P( A ∪ B ) = P( A) + P(B ) − P( A ∩ B )
( )
5. P ∪ An ≤ ∑ P( An ) , numită subaditivitate numărabilă
6. P(Φ ) = 0
7. P(CA) = 1 − P( A)
În contextul teoriei probabilităţilor, mulţimile măsurabile devin
evenimente, “spaţiul măsurabil” devine câmp de evenimente, iar E devine
evenimentul total.

1.1.3.3. Definiţie:
Un câmp de evenimente (E, K ) înzestrat cu probabilitatea P, se
numeşte câmp de probabilitate.

1.1.3.4. Definiţie:
Un eveniment care nu mai poate fi inclus în alt eveniment

5
I. Elemente de teoria probabilitatilor Campuri de probabilitate

A ∈ K , ∀B ∈ K , A ⊂ B sau A ∩ B = Φ
se numeşte eveniment elementar sau atom.
1.1.3.5. Observaţii
Prezentarea axiomelor teoriei probabilităţilor în contexul mai larg al
teoriei măsurii, dincolo de formalismul simplu şi rigoare, oferă şi avantajul
unor interpretări “fenomenologice” şi “picturale” pentru unele formule.
Astfel, dacă probabilitatea este o măsură, la fel ca aria pentru figurile plane
(Fig. 1), formula:
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
se poate citi ca:
aria ( A ∪ B ) = aria ( A) + aria ( B ) − aria ( A ∩ B )
ceea ce pare ca evident.

Fig. 1.
Definiţia clasică elementară a probabilităţii derivă în mod natural din
noţiunea de frecvenţă, despre care am vorbit mai sus.
Dacă un eveniment A se poate realiza în m feluri diferite dintr-un
număr total n de evoluţii posibile (e j ) j =1, n , egal probabile, atunci :
1 m
a) P ( e j ) =
şi b) P ( A ) =
n n
1.1.3.6. Exemplu
Exemplul clasic de câmp de probabilitate finit îl constituie
evenimentele ce pot apărea atunci când, dintr-o urnă în care se află bile albe
şi negre se extrag n bile. Dacă proporţia bilelor albe în urnă este p, şi deci a
celor negre este q = 1 − p , probabilitatea evenimentului A, ca din n bile
extrase, k să fie albe, conform definiţiei clasice definite mai sus, se
calculează imediat şi este:
P ( A) = Cnk p k q n −k
De exemplu, evenimentul ca din trei bile extrase, două să fie albe -
a - şi una să fie neagră - n - se poate descompune în felul următor :
A = ( a a n ) ∪ ( a n a )∪ ( n a a ) şi

6
I. Elemente de teoria probabilitatilor Campuri de probabilitate

P ( A) = P ( a a n ) + P ( a n a ) + P ( n a a ) = p 2 q + p 2 q + p 2 q = 3 p 2 q = C32 p 2 q3−2

1.1.4. Probabilitate condiţionată


Fie B un eveniment a cărei probabilitate este diferită de 0.
Probabilitatea unui eveniment A, reprezintă proporţia în care ne aşteptăm să
se realizeze A în cadrul tuturor evenimentelor câmpului de probabilitate la
care aparţine A
Probabilitatea lui A se mai poate analiza însă şi în contextul în care
ştim că s-a produs anterior evenimentul B. Probabilitatea evenimentului A
condiţionată de B se notează, în acest caz, cu: P(A/B) sau PB(A).
Dacă s-a constatat experimental o frecvenţă de apariţie kA şi,
respectiv kB, pentru A şi B, frecvenţa relativă de apariţie a lui A, când deja
a apărut B, va fi:
k AB = nAB ≅ P (A ∩ B )
k
kB kB P (B )
n
În acest context apare naturală definiţia probabilităţii evenimentului
A, condiţionată de B, prin formula:
P (A ∩ B )
PB ( A) =
P (B )
Un caz special îl constituie acela în care probabilitatea de apariţie a
evenimentului A este aceiaşi, indiferent dacă s-a produs sau nu evenimentul
B:
P(A) = PB(A)
Spunem, în acest caz, că evenimentele A şi B sunt evenimente
independente.
Observăm că, rescriind formula anterioară
P(A ∩ B )
PB ( A) = ⇒ P( A ∩ B ) = PB( A) * P(B ) = P( A) * P(B )
P(B )
se poate lua ca definiţie că două evenimente sunt independente atunci când:
P ( A ∩ B ) = P ( A) * P ( B )

1.1.5. Formula probabilităţii cauzelor (Bayes)


Fie A1, A2,…, An o desfacere a lui E pe care, în contextul teoriei
probabilităţilor, o numim sistem complet de evenimente. Ea reprezintă în
acelaşi timp o desfacere pentru E cât şi pentru orice eveniment X ⊂ E .
E = ∪ Aj
X = ∪ ( Ai ∩ X )
7
I. Elemente de teoria probabilitatilor Campuri de probabilitate

Dat fiind că evenimentele Ai ∩ X sunt disjuncte, avem


P( X ) = ∑ P( Ai ∩ X ) .
Să presupunem că ∀i, P( Ai ) ≠ 0 . În aceste condiţii avem următoarea
teoremă:

1.1.5.1. Teorema probabilităţii cauzelor

Probabilitatea producerii oricărui eveniment X, este egală cu suma


probabilităţilor de producere a lui X, condiţionate de evenimentele complete
ale sistemului ( Ai )i = 1, n şi
P(Aj )PAj (X )
PX ( Aj ) =
∑ P( Ai )PAi( X )
Demonstraţie:

P (X ∩ Aj )
Din definiţie avem PX(Aj) =
P (X )
P ( Aj )
P ( X ∩ Aj )
P (X ∩ Aj ) P ( Aj ) P( Aj )PAj ( X )
deci, PX(Aj) = = =
∑i P ( Ai∩ X)
( i∩ X)
P ( Ai ) ∑ P( Ai )PAI ( X )
∑i P A
P ( Ai )

PX(Aj) poate fi interpretat ca fiind probabilitatea ca X să aibă cauza


Aj. În acest caz, formula calculează probabilitatea lui X în funcţie de
probabilităţile cauzelor care ar fi putut determina evenimentul X.
Probabilităţile P(Ak) se numesc apriorice, pentru că ele se cunosc
înainte de eveniment. Probabilităţile PX(Aj) sunt probabilităţile aceloraşi
cauze, dar după ce s-a întâmplat evenimentul X, şi se numesc din acest
motiv, probabilităţi aposteriorice.
Exemplu, când un pacient intoxicat este adus la urgenţă el prezintă
anumite simptome şi medicul, folosind experienţa sa, rezultatele
determinărilor în sânge şi un sistem computerizat elaborează o listă cu
probabilităţile ca intoxicaţia să se fi făcut cu o anumită substanţă.
În fizica statistică parametrii termodinamici sau cuantici ai unui
sistem rezultă din însumarea unui număr foarte mare de evenimente.
Probabilitatea de trecere de la o stare iniţială la o stare finală este dată de
suma probabilităţilor de trecere pe anumite căi Ai ponderate fiecare cu

8
I. Elemente de teoria probabilitatilor Campuri de probabilitate

probabilitatea, sau altfel spus ponderea lor, p(Ai). Deoarece numărul căilor
poate fi de puterea continuului, în locul sumelor apar integrale.
Sau, dacă s-ar produce o crimă, aposteriori, ne punem problema
ierarhizării suspiciunilor privind potenţialii criminali.
Problema nu este de loc “teoretică” dacă suntem de exemplu o
societate de asigurări sau dacă testul este un test de malignitate.
Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor
din lumea aceasta şi legătura lor cu cauza finală – Dumnezeu.
Formula probabilităţii cauzelor ne arată cum se transformă
probabilităţile apriorice în probabilităţi aposteriorice, după apariţia
evenimentului X.
De exemplu, ştiind că un medicament se absoarbe în, şi se elimină
din sânge pe mai mult căi, cu diferite probabilităţi date de considerente
fizico-chimice şi fiziologice, în funcţie de rezultatul unor determinări a
concentraţiei ale acestora în sângele unui pacient, ne putem pune problema
stabilirii ponderilor efective ale acestor căi, în scopul “individualizării”
tratamentului.

1.1.5.2. Observaţie:
Putem deasemenea să considerăm cazul particular al desfacerii
evenimentului total în două evenimente A şi complementul său CA.
Formula lui Bayes devine în acest caz:
PA( X )P( A)
PX(A) =
PA( X )P( A) + PCA( X )P(CA)

1.1.5.3. Aplicaţie:
Dacă, de exemplu, P(B) este proporţia (probabilitatea) unei boli în
populaţie şi cunoscând proporţia în care un test diagnostic este pozitiv la
bolnavi PB(+) şi la sănătoşi PNB(+) putem calcula probabilitatea ca un
pacient la care rezultatul testului este pozitiv să fie bolnav:
PB ( + ) P ( B )
P+ ( B ) =
PB ( + ) P ( B ) + PNB ( + ) P ( NB )
unde:
PB ( + ) este probabilitatea ca un bolnav să fie catalogat pozitiv de
către test şi se numeşte “sensibilitatea” testului.
PNB ( − ) este probabilitatea ca un sănătos să fie catalogat negativ de
către test şi se numeşte “specificitatea” testului.

9
I. Elemente de teoria probabilitatilor Campuri de probabilitate

Problema devine teribil de importantă dacă, de exemplu, este vorba


de un test de depistare a cancerului

10
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.VARIABILE ALEATOARE

1.2.1. Definiţii:
a) Se numeşte variabilă aleatoare (întâmplătoare sau statistică) o
funcţie reală f definită pe mulţimea K a evenimentelor, cu proprietatea că,
oricare ar fi numărul real a, mulţimea x ∈ K pentru care f ( x ) ≤ a este un
eveniment din K .
În termeni de teoria măsurii, o variabilă aleatoare este o funcţie
f : ( E , K , P ) → ( R, B ) , măsurabilă.
Practic vorbind avem definită probabilitatea ca variabila să aibă valori
mai mici decât orice număr dat a.

b) O variabilă aleatoare se numeşte variabilă aleatoare simplă dacă ia


un număr finit de valori:
f : E → R , f ( E ) finită şi P ( f ( x ) = xi ) = P ( f −1 ( xi ) ) = pi

c) Vom lucra, în cele ce urmează, ca regulă, cu variabile aleatoare


independente, adică variabile ce iau valori independente una de cealaltă:
P (( f ( x ) = xi ) ∩ (g ( y ) = y j )) = P ( f ( x ) = xi ) * P (g ( y ) = y j ), ∀ xi , y j

1.2.2. Operatii cu variabile aleatoare:


Se poate verifica uşor că variabilele aleatoare formează o algebră, adică
suma, şi produsul a două variabile aleatoare este tot o variabilă aleatoare;
mai mult compunerea a două variabile aleatoare este tot o variabilă
aleatoare.
Trebuie în acest context să fim atenţi la independenţa sau
nonindependenţa variabilelor aleatoare implicate în operaţie.
De exemplu putem citi X+X unde X este o variabilă aleatoare în două
feluri. Putem, de exemplu, să considerăm un experiment repetat de două ori
rezultatele fiind independente
⎛1 2⎞ ⎛1 2⎞ ⎛2 3 4⎞
⎜1 1⎟+⎜1 1⎟ = ⎜1 1 1⎟,
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝2 2⎠ ⎝2 2⎠ ⎝4 2 4⎠
în timp ce, dacă considerăm că X şi X nu iau valori independent, atunci
⎛2 4⎞
X + X = 2X = ⎜ 1 1 ⎟
⎜ ⎟
⎝2 2⎠
11
I. Elemente de teoria probabilitatilor Variabile aleatoare

Putem reprezenta grafic aceste probabilităţi.


⎛1 2 3⎞
De exemplu, X = ⎜ 1 1 1 ⎟ apare sub forma
⎜ ⎟
⎝4 2 4⎠

Fig. 2 Reprezentarea grafica a Fig. 3 Curba cumulativă a distribuţiei


probabilitatilor

1.2.3. Functia de repartitie


Funcţia de repartiţie asociată lui f este funcţia F ( x ) , F : → [ 0,1]
definită de formula:
F ( x ) = P ( f 〈 x ) = P ( f −1 ( −∞, x ) )
Importanţa acestei funcţii constă în faptul că, dacă F ( x ) este dată se
poate determina probabilitatea ca f să ia valori într-un interval I ⊂ ,
oricare ar fi acel interval.
În cazul în care f ia un număr finit de valori, de exemplu {1,2,3}, când
cunoaştem P( f 〈 k ) ∀k = 1,2,3 , cunoaştem practic şi P( f = k ) ∀k = 1,2,3 .
Într-adevăr, P( f = 1) = P( f 〈 2)
P( f = 2) = P(( f 〈3) ∩ ( f 〉2)) = P( f 〈 3) * P( f 〉 2) = P( f 〈 3) * (1 − P( f 〈 2))
P( f = 3) = 1 − P( f = 1) − P( f = 2)
Ca regulă generală: P ( f = k ) = 1 − P ( f 〈 k + 1) − P ( f 〈 k )
Deci am determinat o distribuţie de probabilitate care poate fi
reprezentată sub forma unei matrici:
⎛1 2 3⎞
P( f = k ) = ⎜⎜ ⎟⎟
⎝ p1 p2 p3 ⎠

12
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.3.1.Proprietăţi
Funcţia de repartiţie are următoarele proprietăţi:
a) a ≤ b ⇒ F ( a ) ≤ F ( b ) b) lim F ( a ) = 0
a →−∞

c) lim F ( a ) = 1 d) F este continuă la stânga.


a →+∞

1.2.3.2. Dacă F este continuă spunem că f este variabilă aleatoare


continuă.
În acest caz, probabilitatea ca f să ia orice valoare particulară este 0
⇒ ∀ξ , P ( f ( x ) = ξ ) = 0

1.2.3.3. Exemplu :
Dacă ne punem problema probabilităţii ca temperatura în cameră să fie t
=20,347562 aceasta este evident zero şi de fapt problema nici nu are sens –
în măsura în care temperatura este o valoare medie în jurul căreia avem
fluctuaţii continue. Dacă ne punem problema ca temperatura să fie într-un
anumit interval noţiunea de funcţie de repartiţie capătă un conţinut concret.

1.2.4. Densitatea de repartitie


Fie F ( x ) funcţia de repartiţie a unei variabile aleatoare ξ. Dacă există o
funcţie ρ ( x ) , integrabilă pe intervalul (− ∞,+∞ ) , cu proprietatea că pentru
orice x ∈ este verificată egalitatea:
∂F
ρ ( x) =
∂x
atunci, ρ ( x ) se numeşte densitatea de repartiţie sau densitatea de
probabilitate a variabilei aleatoare ξ,
În acest caz, probabilitatea ca variabila aleatoare să ia valori într-un
interval ( −∞, a ) este dată de formula:

P (ξ ( x ) 〈 a ) = F ( a ) = ∫ ρ ( t )dt şi respectiv:
a

−∞

P ( b ≤ ξ ( x ) 〈 a ) = F ( a ) − F ( b ) = ∫ ρ ( t )dt − ∫ ρ ( t )dt = ∫ ρ ( t )dt


a b a

−∞ −∞ b

13
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.5. Valoarea medie


Se numeşte valoare medie (sau speranţă matematică) a unei valori
aleatoare f, numărul
M ( f ) = ∑ xipi , atunci când ξ este o variabilă aleatoare simplă şi,
respectiv
+∞
M(f )=∫ x ρ ( x )dx , atunci când ξ este o variabilă aleatoare continuă,
−∞
cu densitatea de probabilitate ρ.
În literatură, operatorul de medie se mai notează şi cu E, de la
“expectation” – speranţă în engleză.
În cazul variabilelor simple se observă că valoarea medie a variabilei f
este media ponderată a valorilor sale xi, cu ponderile pi, care reprezintă
“frecvenţele” de apariţie ale valorilor respective.

1.2.5.1.Proprietăţi ale mediei:


Dacă f şi g sunt independente, atunci avem:
a) M ( af ) = aM ( f )
b) M ( f + g ) = M ( f ) + M ( g )
c) M ( f * g ) = M ( f ) * M ( g )
Vom schiţa o demonstraţie a proprietăţii b):
M ( f + g ) = ∑ k ,l P ( Fk ∩ Gl )( xk + xl ) =

= ∑k ( ∑ P ( F ∩ G )) x + ∑ ( ∑
l
k l k
l k )
P ( Fk ∩ Gl ) xl
Dar, pe de altă parte, folosind proprietăţile intersecţiilor şi
reuniunilor de mulţimi, respectiv distributivitatea intersecţiei faţă de
reuniune şi a intersecţiei faţă de reuniune, şi faptul că ∪ l Gl = E avem

∑ P(F l
k ∩ Gl ) = P Fk ∩ ( (∪ G )) = P ( F )
l
l k

şi similar,
∑ P(Fk
k ∩ Gl ) = P ( Gl )
Deci,
M ( f + g ) = ∑ k P ( Fk )xk + ∑ l P ( Gl )xl = M ( f ) + M ( g )

14
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.5.2. Definitie:
a) Noţiunea de medie se generalizează, definindu-se momentul de ordin k al
unei variabile aleatoare:
• M k ( f ) = ∑ xik pi , atunci când ξ este o variabilă aleatoare simplă şi
respectiv,
+∞
• Mk ( f ) = ∫ x k ρ ( x ) dx , atunci când ξ este o variabilă aleatoare
−∞
continuă.
b) Se numeşte moment centrat de ordin k al variabilei aleatoare f momentul
de ordinul k al abaterii sale faţă de medie.
M kc ( f ) = ∑ (xi − μ f ) p i
k

k
[x − M ( f )] ρ (x )dx
+∞
şi respectiv, μ kc = ∫ ,în cazul unei variabile aleatoare
−∞
continue.
Dispersia de selecţie, sau varianta unui şir de rezultate numerice ale
unui experiment este media aritmetică a pătratelor abaterilor acestor valori
faţă de media lor aritmetică X .
Dacă x1 , x2 ,..., xn sunt cele n valori ale seriei, dispersia de selecţie a
acestora, s X2 , este:

∑(x − X )
2
i
s X2 =
n
După cum vom vedea mai departe la statistică, o formulă mai utilă
∑(x − X )
2
i
pentru dispersia de selecţie este: s X2 =
n −1
Dispersia de selectie este indicatorul principal al împrăştierii datelor
unui experiment.
Dispersia unei variabile aleatoare este conceptul ce generalizează
dispersia de selecţie.

15
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.6. Dispersia
Dispersia variabilei aleatoare X se notează cu D ( X ) sau σ 2 şi este, în
particular, momentul centrat de ordinul doi:
2
D ( X ) = σ 2 = M ⎡( X − M ( X ) ) ⎤ = ∫ ( x − M ( X ) ) ρ ( x ) dx , atunci
2 +∞

⎣ ⎦ −∞
când variabila aleatoare este continua, şi respectiv
σ 2 = M ⎡( X − M ( X ) ) ⎤ = ∑ ( xi − μ X ) pi , atunci când variabila
2 2

⎣ ⎦
aleatoare este discretă.
Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică a
variabilei X, iar sx abaterea standard.

1.2.6.1.Proprietăţi
a) Pentru orice variabilă aleatoare X şi orice constante a şi b
D ( aX + b ) = a 2 D ( X )
b) Dacă X, Y sunt două variabile aleatoare independente
D ( X + Y ) = D ( X ) + D (Y )
Demonstraţie:
Pentru orice două variabile aleatoare X şi Y , cu mediile μ X şi
respectiv μY , avem
D ( X + Y ) = M ( X + Y − μ X − μY ) = M ( X − μ X ) + M (Y − μY ) +
2 2 2

+2M ⎡⎣( X − μ X )(Y − μY ) ⎤⎦ = D ( X ) + D (Y ) + 2M ⎡⎣( X − μ X )(Y − μY ) ⎤⎦


Dar, atunci când X şi Y sunt independente ⇒ M ( XY ) = μ X μY ,
M ⎡⎣( X − μ X )(Y − μY ) ⎤⎦ = M ( XY − X μY − Y μ X + μ X μY ) =
= μ X μY − μ X μY − μ X μY + μ X μY = 0
⇒ M ⎡⎣( X − μ X )(Y − μY ) ⎤⎦ = 0 şi deci D ( X + Y ) = D ( X ) + D (Y )

c) Între dispersie, valoarea medie şi momentul de ordinul doi există


relaţia:
D ( f ) = M ( f 2 ) − ( M ( f ))
2

Demonstraţie:

16
I. Elemente de teoria probabilitatilor Variabile aleatoare

D ( X ) = ∑ ( xi − μ X ) pi = ∑ xi2 pi − 2∑ xi μ X pi + ∑ μ X2 pi =
2

= M ( f 2 ) − 2 μ X2 + μ X2 = M ( f 2 ) − ( M ( f ) )
2

1.2.6.2.Observaţie
Dacă numim M ( f 2 ) – media pătratului si ( M ( f ))
2
– pătratul
mediei formula capătă o formulare uşor de reţinut:”Dispersia este egală cu
media pătratului, minus pătratul mediei”.
Relaţia se mai poate scrie sub forma M ( X 2 ) = μ X2 + σ X2 şi am putea
s-o numim „teorema lui Pitagora în probabilitate”.

1.2.6.3.Exemplu
În modelul clasic al urnei cu bile pe care l-am prezentat mai sus,
probabilitatea evenimentului “din n bile extrase, k sunt albe” era
p k = C nk p k q n − k .
Media variabilei aleatore X care da numărul de bile albe din n bile
extrase va fi, prin definiţie,
M ( X ) = ∑ kCnk p k q n −k
Pentru a calcula această sumă considerăm următoarea identitate
( pt + q ) = ∑ Cnk p k t k q n−k , pe care o derivăm în raport cu t
n

(( pt + q ) )′ = ( ∑ C
n k
n p k t k q n − k )′

np ( pt + q ) = ∑ Cnk p k kt k −1q n − k şi apoi facem


n −1

t = 1 ⇒ np = ∑ Cnk p k kq n −k
Am obţinut, deci, M ( X ) = np
Folosind aceiaşi identitate, dar derivând de două ori se arată că:
D ( X ) = npq .
Cunoaşterea mediei şi dispersiei unei variabile aleatoare dă o
indicaţie asupra intervalului în care se află valorile variabilei, cu cea mai
mare probabilitate. Mai exact, după cum arată teorema următoare, cu cât ne
îndepărtăm mai mult de valoarea medie, cu atât valorile respective sunt mai
puţin probabile ca valori ale variabilei date.

17
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.7. Inegalitatea lui Cebâşev

Dacă σ2 este dispersia variabilei aleatoare X , probabilitatea ca


modulul abaterii sale de la valoarea medie să ia valori mai mari decât un
σ2
număr ε 〉 0 este mai mică decât .
ε2
σ2
P( x − m ≥ ε ) ≤ 2
ε

Demonstraţie:
[
Pornim de la definiţia dispersiei σ 2 = M ( xi − m ) = ∑ ( xi − m ) p i
2 2
]
şi împărţim suma în doi termeni: unul corespunzător valorilor xi pentru care
xi − m ≥ ε şi unul corespunzător valorilor lui xi pentru care xi − m 〈ε .
σ 2 = ∑ ( xi − m ) pi = ∑ ε ( x − m) ∑ ε ( x − m)
2 2 2
i pi + i pi
xi − m 〈 xi − m ≥

Dacă neglijăm primul termen al sumei şi minorăm xi − m


înlocuindu-l cu ε în al doilea termen, se obţine
(
σ 2 ≥ ∑ ε 2 pi = ε 2 p k1 + p k2 + ... + p kn , )
xi − m ≥ε

cu p k1 + p k 2 + ... + p kn suma probabilităţilor valorilor xk i pentru care


x ki − m ≥ ε .
Dar pk1 + pk2 + ... + pkn = P ( x − m ≥ ε ) şi deci am obţinut
σ 2 ≥ ε 2 P ( x − m ≥ ε ) ceea ce implică următoarea relaţie:
σ2
P( x − m ≥ ε ) ≤.
ε2
Deoarece suma între probabilitatea unui eveniment A şi
probabilitatea evenimentului contrar CA este 1, avem P ( CA) = 1 − P ( A) şi
inegalitatea se mai poate scrie sub forma
σ2
P ( xi − m 〈ε ) 〉 1 − 2
ε

18
I. Elemente de teoria probabilitatilor Variabile aleatoare

1.2.7.1.Exemplu:

Fie ε = 3σ , atunci inegalitatea Cebâşev dă:


1 8
P ( xi − m 〈 3ε ) = 1 − = = 0.88
9 9
Exprimat în cuvinte, această inegalitate aparent banală, spune din
punct de vedere fenomenologic, enorm de mult:

Probabilitatea ca orice variabilă aleatoare să ia valori mai


îndepărtate de valoarea sa medie decât de trei valori standard, este mai
mică decât 0,12.

Vom vedea mai departe că, în cazul în care variabila aleatoare are
suplimentar unele proprietăţi de regularitate, această probabilitate este chiar
mult mai mică.
Aceiaşi inegalitate ne permite înţelegerea legăturii între frecvenţa şi
probabilitate, legătura care exprimă însăşi fundamentarea statisticii pe teoria
probabilităţilor.
Să considerăm variabila aleatoare care dă numărul de bile albe într-o
extracţie de n bile din urnă. Pentru această variabilă avem următoarea
teoremă, care se generalizează în teoria probabilităţilor în forme care
depăşesc însă cadrul acestei lucrări.

1.2.8. Teorema lui Bernoulli (legea numerelor mari):

Dacă se notează cu p probabilitatea ca un eveniment A (de exemplu


k
apariţia bilei albe) să se realizeze într-un experiment şi f n = este
n
frecvenţa cu care se realizează evenimentul A în n experimente identice
consecutive, şirul ( f n ) converge către p în probabilitate.
Altfel spus:

Frecvenţa experimentala tinde în probabilitate la probabilitatea teoretică.

19
I. Elemente de teoria probabilitatilor Variabile aleatoare

Demonstraţie:
⎛k ⎞
lim n→∞ P⎜⎜ − p ≥ ε ⎟⎟ = lim n→∞ P( k − np ≥ nε ) = lim n→∞ P( k − M (k ) ≥ nε )
⎝n ⎠
σ2
Dar, aplicând inegalitatea lui Cebâşev: P ( k − M (k ) ≥ nε ) ≤ şi deci
n 2ε 2
⎛k ⎞ σ2
lim n→∞ P⎜⎜ − p ≥ ε ⎟⎟ ≤ lim n→∞ 2 2 = 0
⎝n ⎠ n ε
Teorema lui Bernoulli afirmă numai că inegalitatea f n − p ≥ ε nu
are şansa să fie realizată sau că inegalitatea f n − p 〈 ε are şanse mari să fie
îndeplinită dacă n este suficient de mare

20
I. Elemente de teoria probabilitatilor Distributii de probabilitate

1.3. DISTRIBUŢII DE PROBABILITATE

1.3.1. Distribuţia normală


Spunem că o variabilă aleatoare este normal repartizată N m, σ 2 , ( )
atunci când densitatea sa de probabilitate este data de formula:
( x − m )2
1 −
ρ (x, m,σ ) =
2
e 2σ
σ 2π
O primă condiţie ca ρ ( x ) să fie distribuţie de probabilitate este aceea

+∞
∫ ρ (x )dx = P(− ∞ 〈 f (t )〈 +∞) = 1
−∞
Pentru a verifica această condiţie, vom demonstra mai intai, folosind
integrala dublă, ca:
x2
+∞ −
∫−∞
e 2
dx = 2π
x2 y2
+∞ − +∞ −
Fie I = ∫ e 2
dx = ∫ e 2
dy ,
0 0
x2 y2 x2 + y 2
+∞ − +∞ − −
⇒I =∫ e 2 2
dx * ∫ e 2
dy = ∫∫ e 2
dxdy
0 0
D
Facem schimabarea de variabila: x = ρ cos θ si y = ρ sin θ unde
π
ρ ∈ ( 0 , ∞ ) si θ ∈ ⎡⎢0 , ⎤⎥ .
⎣ 2⎦
Vom obtine:
ρ2 ρ2 ρ2
π
+∞ − π +∞ − π − +∞ π
I =∫ ∫ 2∫
2 2
e 2
ρd ρ dθ = e 2
ρd ρ = − e 2
=
0 0 0 2 0 2
π π 2π
Am obtinut ca I 2 = ⇒I = =
2 2 2
x2 x2
+∞ − +∞ − 2π
Dar, ∫ −∞
e 2
dx = 2* ∫ e
0
2
dx = 2* I = 2*
2
= 2π
x−m
În cazul nostru, dacă facem schimbarea de variabilă u = avem
σ
( x − m )2 u2
+∞ 1 +∞ − 1 +∞ −
∫ ρ (x )dx = σ
−∞


−∞
e 2σ 2
dx =
σ 2π ∫ −∞
e 2
σ du = 1

21
I. Elemente de teoria probabilitatilor Distributii de probabilitate

Vom arăta în continuare că o variabilă aleatoare normal repartizată


are media m şi dispersia σ 2 .
Să calculăm mai întâi media:
( x − m )2 ( x − m )2
1 − 1 −
M [X ] =
+∞ +∞

σ 2π ∫−∞
xe 2σ 2
dx =
σ 2π ∫ (x − m + m)e
−∞
2σ 2
dx =
2

σ ( x − m ) − 2 ⎜⎝
1 ⎛ x−m ⎞ u2
1 +∞ ⎟ 1 +∞ −

σ 2π ∫−∞ σ ∫
= e σ ⎠
dx + m = ue 2
σ 2 du + m = 0 + m = m
σ 2π −∞

Integrala este nulă deoarece funcţia de integrat este impară.


Pentru calculul dispersiei ne folosim de identitatea:
D ( X ) = M ⎡⎣ X − M ( X ) ⎤⎦ = M ( X 2 ) − ⎡⎣ M ( X ) ⎤⎦
2 2

( x − m )2 u2

( ) 1 1

+∞ +∞ 2 −
M X 2
= ∫ x 2
e 2σ 2
dx = ∫ (m + σ u ) e 2 σ du =
σ 2π − ∞ σ 2π − ∞
+ ∞⎛
u 2
u 2
u2 ⎞
1 − − −
= ∫−∞ ⎜⎜ m e 2 + 2mσ u e 2 + σ u e 2 ⎟⎟du =
2 2 2

2π ⎝ ⎠
⎛ 2 ⎞
2
u
1 +∞ −
= ⎜⎜ m 2π + σ ∫−∞ u e 2 du ⎟⎟
2 2

2π ⎝ ⎠

Calculăm separat integrala rămasă şi obţinem:


+∞ ⎛
u2 u2 ⎞ u2 ⎛ −u
2

+∞ − − − +∞
∫−∞ u e du = −∫−∞ u ⎜⎜ −ue ⎟⎟du = ue −∞ − ∫−∞ 1* ⎜⎜ −e
+∞
⎟⎟du = 2π
2 2 2 2 2

⎝ ⎠ ⎝ ⎠
u2

unde am integrat prin părţi, luând u = ϕ şi − ue = ψ ′ 2

Deci am obţinut M (X 2 ) =
1

m 2 2π + σ 2 2π şi înlocuind în ( )
expresia lui D( X ) obţinem:
D( X ) =
1

m 2 2π + σ 2 2π − m 2 = σ 2( )
Pornind de la proprietăţile operatorilor de medie şi dispersie
M ( X − m) = M ( X ) − m
D( X − m ) = D( X ) şi

22
I. Elemente de teoria probabilitatilor Distributii de probabilitate

⎛X⎞ 1
D⎜ ⎟ = 2 D ( X )
⎝a⎠ a
se obţine că, dacă o variabilă aleatoare este normal repartizată N (m,σ ) ,
X −m
variabila aleatoare redusă este repartizată N (0,1) , deci cu distribuţia
σ
de probabilitate
x2

ρ (x ) = e 2

x2

Funcţia de repartiţie asociată este funcţia Φ(t ) = ∫ e
t
2
dx numită
−∞
funcţia lui Laplace şi ale cărei valori se găsesc în tabelele din practic toate
cărţile de statistică şi probabilităţi.

1.3.2. Distribuţie binomială


Distribuţia binomială apare, aşa cum s-a arătat mai sus, la descrierea
evenimentelor asociate extracţiilor dintr-o urnă cu bile albe şi bile negre.
Distribuţia variabilei aleatoare “numărul de bile albe din n bile
extrase” se poate reprezenta şi sub formă matricială:
⎛ 0 1 k n ⎞
X = ⎜⎜ 0 0 n 1 1 n −1
... k k n − k ... k n 0 ⎟⎟
⎝ Cn p q Cn p q Cn p q Cn p q ⎠
După cum am arătat media şi dispersia unei variabile aleatoare
repartizate binomial sunt M = np si D = npq

Repartiţia binomială apare întotdeauna atunci când un experiment cu


numai două răspunsuri posibile se repetă de n ori. Un caz particular îl
prezintă experimentele care se repetă de un număr foarte mare de ori, iar
evenimentul în a cărui apariţie suntem interesaţi are o probabilitate foarte
mică, categorisit uzual ca “eveniment rar”.

La limită, când n → ∞ , p → 0 , dar np rămâne constant, np = λ ,


se obţine distribuţia Poisson.

23
I. Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.3. Distribuţia POISSON


Considerăm deci că np = λ şi trecem la limită după n
n(n − 1)...(n − k + 1) λk ⎛ λ ⎞
n−k
n−k
lim n → ∞ C p q k
n
k
= lim n → ∞ ⎜1 − ⎟ =
k! nk ⎝ n⎠
n ( n − 1) ... ( n − k + 1) k
n−k
1 ⎛ λ⎞
= *lim n →∞ k
λ lim n →∞ ⎜1 − ⎟
k! n ⎝ n⎠
n(n − 1)...(n − k + 1)
dar lim n → ∞ =1 şi
nk
n−k
(− λ )
n−k ⎡ − ⎤
n n
⎛ λ⎞ ⎛ λ ⎞ λ
lim n → ∞ ⎜1 − ⎟ = lim n → ∞ ⎢⎜1 − ⎟ ⎥ = e − λ şi deci,
⎝ n⎠ ⎢⎝ n ⎠ ⎥
⎣ ⎦
λk
limn → ∞ C p q k
n
k n−k
= e− λ
k!
Deci, distribuţia Poisson este dată de matricea
⎛ 0 1 k n ⎞

X = −λ λ ... λ k
... λ n ⎟
⎜e e −λ e −λ e −λ ⎟
⎝ 1! k! n! ⎠
Calculând, după definiţie, media şi dispersia unei variabile aleatoare
distribuite Poisson şi ţinând cont că
λk λk λk
∑ k ≥0
=e λ
, ∑ k ≥0
k = λe λ
, ∑ k ≥2
k (k − 1) = λ2 e λ ,
k! k! k!
λk
∑k ≥1 k k!
= λe λ se obţine

λk e − λ λk λk −1
M ( X ) = ∑k ≥ 0 k =e −λ
∑ (k − 1)! = e λ ∑ (k − 1)! = e λ λ eλ = λ
k ≥1
−λ
k ≥1

k!

D( X ) = e − λ ∑ k ≥ 0
(k − λ )2 λk ⎛
= e − λ ⎜⎜ ∑ k ≥ 0
k 2λk
− 2λ ∑ k ≥ 0
kλk λk ⎞
+ λ2 ∑ k ≥ 0 ⎟⎟ =
k! ⎝ k! k! k! ⎠
⎛ λk ⎞ ⎡ λk λk ⎤
= e − λ ⎜⎜ ∑ k ≥1 [k (k − 1) + k ] − λ2eλ ⎟⎟ = e − λ ⎢∑ k ≥ 2 k (k − 1) + ∑ k ≥1 k ⎥ − λ2 =
⎝ k! ⎠ ⎣ k! k! ⎦
= e − λ (λ2eλ + λeλ ) − λ2 = λ

24
I. Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.3.1. Exemplu:
Numărul evenimentelor adverse la un medicament dat este repartizat
Poisson.
Cel mai mult este utilizată distribuţia Poisson în fizica statistică.

1.3.4. Aproximarea normală a distribuţiei binomiale


Ca o regulă generală, dacă np şi nq sunt mai mari sau egale cu 5,
poate fi folosită aproximarea normală. Pentru distribuţiile binomiale în care
p<0,5 aproximarea este bună pentru valori ale lui np şi nq mai mici decât 5.
k
−p
k − np n
În aceste condiţii, = este aproximativ normal distribuit cu
npq pq
n
media 0 şi deviaţia standard 1.
Această transformare înlesneşte de obicei calculul probabilităţilor
binomiale.

1.3.5. Repartitia χ2 Helmert - Pearson


Se consideră n observaţii independente x1, x2, …, xn (variabile
aleatoare independente) normal distribuite N ( m, σ 2 ) .
xi − m
Variabilele standard ui = , i = 1, n sunt de asemenea
σ
independente, iar suma pătratelor lor va avea o distributie ce poate fi
determinată.
Se defineşte X = ∑1 u i2 .
n

Distribuţia variabilei X rezultate se notează χ2(n) şi este diferită


pentru fiecare valoare a lui n, iar parametru n se defineşte ca numărul de
gradelor de libertate.
Vom determina în continuare parametrii (media şi dispersia) unei
variabile distribuite χ2.
Pentru a afla media distributiei χ2 este necesară aflarea lui M u i2 . [ ]
Deoarece M [u i ] = 0 , M ( ui2 ) = M ( ui2 ) − ⎡⎣ M ( ui ) ⎤⎦ = D [ui ] = 1
2

Ca urmare M ⎣⎡ χ 2 ( n ) ⎦⎤ = M ⎡ ∑1 ui2 ⎤ = ∑1 M ⎣⎡ui2 ⎦⎤ = n *1 = n


n n

⎣ ⎦
Dispersia va fi:

25
I. Elemente de teoria probabilitatilor Distributii de probabilitate

D ⎡⎣ χ 2 ( n ) ⎤⎦ = D ⎡ ∑1 ui2 ⎤ = ∑1 D ⎡⎣ui2 ⎤⎦ =
n n

⎣ ⎦

(
= nD ⎣⎡ui2 ⎦⎤ = n ⎡ M ( ui4 ) − M ( ui2 ) ⎤ = n ⎡⎣ M ( ui4 ) − 1⎤⎦ )
2

⎣⎢ ⎥⎦
4
[ ]
Pentru a obţine M u i se foloseşte regula integrării prin părţi:

∫ f (x )g ′(x )dx = f (x )g (x ) − ∫ f ′(x )g (x )dx


f ( x ) = u 3 ⇒ f ′( x ) = 3u 2
În acest caz se va identifică: u2 u2 , deci se va obţine:
− −
g (x ) = e 2
⇒ g ′( x ) = ue 2

u2 u2
+∞ +∞ 1 − 1 +∞ −
M ⎡⎣u ⎤⎦ = ∫ u ρ ( u ) du = ∫ u
4
i
4 4
e 2
du = ∫ u ue3 2
du =
−∞ −∞
2π 2π −∞

1 3 ⎛ − u2 ⎞ +∞ ⎛ −u ⎞
2 2
u2
1 +∞ 1 +∞ −
− ∫−∞ 3u ⎜⎜ −e 2 ⎟⎟ du = 3 ∫ du = 3M ⎡⎣u 2 ⎤⎦ = 3
2 2
u ⎜e
⎟⎟ −∞
ue 2

2π ⎜⎝ ⎠ 2π ⎝ ⎠ 2π −∞

Atunci,
[ ] [ ]
D u i2 = M u i4 − (M [u i ]) = 3 − (1) = 2
2 2

şi substituind în relaţia de mai sus se va obţine


D ⎡⎣ χ 2 ( n ) ⎤⎦ = nD ⎡⎣ui2 ⎤⎦ = 2n
Deci variabila x 2 = x12 + x 22 + ... + x n2 este repartizată χ2(n), cu n
grade de libertate, având:
• media E ( χ 2 ) = n , respectiv
• dispersia D ( χ 2 ) = 2n .
Se poate arăta că densitatea de probabilitate este dată de funcţia
2
χ n
1
f (χ ) = ( ) ,

2 2 −1
n
e 2 2
χ
⎛n⎞ 2
Γ⎜ ⎟2
⎝2⎠
unde Γ este funcţia Euler de speţa I-a studiată la cursul de matematică şi
+∞
anume : Γ (α ) = ∫ e−t t α −1dt .
0

Repartitia χ 2 se foloseşte foarte mult în statistica matematică în


verificarea ipotezelor asupra egalităţii dispersiilor.

26
I. Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.6. Repatiţia STUDENT

Analog cu distribuţia χ 2 , repartiţia t a fost propusă de Student


(pseudonimul lui W.S.Gosset, chimist statistician englez), pentru statistica
selecţiilor mici şi exprimă deviaţiile mediilor de selecţie x , faţă de media
s
întregii populaţii μ, măsurate în (abaterea standard a mediilor de
n
selecţie).
Dacă sunt date două variabile aleatoare Z ∈ N (0,1) si V ∈ χ 2 (n )
independente, se spune că variabila
Z
Tn = ∈T (n)
V
n
este repartizată Student cu n grade de libertate.
Mărimea t nu depinde decât de numărul gradelor de libertate.
Distribuţia de probabilitate a unei variabile aleatoare repartizate
t2
1 −2
Student tinde pentru n → ∞ , la distribuţia normală ρ (t ) → e

Densitatea de probabilitate este dată de funcţia:
⎛ n +1⎞
Γ⎜ ⎟ 2 −
n +1
1 ⎝ 2 ⎠ ⎛ x ⎞ 2
f ( x) = * * ⎜1 + ⎟ unde x ∈ R şi n ∈ N .
nπ ⎛n⎞ ⎝ n ⎠
Γ⎜ ⎟
⎝2⎠

27
I. Elemente de teoria probabilitatilor Distributii de probabilitate

1.3.7. Repartiţia F (Behrens - Fisher – Snedecor) a raportului a


două dispersii

Se consideră frecvent în statistică raportul a două dispersii care


estimează aceeaşi dispersie generală a unei colectivităţi. Dintr-o
colectivitate generală se extrag două selecţii U ∈ χ 2 (n1 ) , V ∈ χ 2 (n2 ) .

Raportul lor este o variabilă aleatoare repartizată F


U
n
F = 1 ∈ F (n1 , n2 )
V
n2

Examinând acest raport se observă că el nu conţine dispersia


colectivităţii generale σ2 , de unde rezultă că distribuţia acestui raport nu
depinde decât de numărul gradelor de libertate n1 si n2 ale celor două
dispersii.

Densitatea de probabilitate este dată de funcţia:


⎛n +n ⎞
Γ⎜ 1 2 ⎟ n1
n1
n +n
− 1 2
⎝ 2 ⎠ ⎛ n1 ⎞ 2 −1 ⎛ n1 ⎞ 2
f ( x) = * ⎜ ⎟ * x * ⎜1 + * x ⎟
n2
,
⎛ n1 ⎞ ⎛ n2 ⎞ ⎝ n2 ⎠ ⎝ n2 ⎠
Γ⎜ ⎟*Γ⎜ ⎟
⎝2⎠ ⎝ 2⎠
când x 〉 0 .

28
II. Statistica matematica si biostatistica Teorema limita centrala

II. STATISTICĂ MATEMATICĂ ŞI BIOSTATISTICĂ

Statistica matematică este principala aplicaţie a teoriei


probabilităţilor. Procedeele statistice constau, în esenţă, în elaborarea unor
concluzii plauzibile privitoare la colectivităţi mari de fenomene, pe baza
cunoaşterii unui număr restrâns dintre acestea şi extrapolării rezultatelor.
Legile care stau la baza statisticii şi care permit aceste generalizări
sunt teorema limită centrală şi legea numerelor mari.
Într-o exprimare intuitivă, avem rezultatul că, dacă o variabilă
aleatoare ξ este suma unui număr mare de variabile aleatoare
independente, fiecare variabilă aleatoare având o pondere mică în sumă,
atunci funcţia de repartiţie a variabilei aleatoare ξ este foarte apropiată de o
funcţie de repartiţie normală.
Exprimat mai riguros şi mai general, avem următoarea teoremă:

2.1. Teorema limită centrală (A.M.Leapunov)

Fie ξ1 , ξ 2 ,..., ξ n variabile aleatoare independente.


Fie M (ξ k ) = ak , D (ξ k ) = σ k2 şi ρ k3 = M ( ξ k − a k )
3
când k = 1, n
Notăm σ (2n ) = ∑1σ i2 , ρ (3n ) = ∑1 ρ i3
n n

ρ (n )
Dacă lim n → ∞ = 0 , atunci funcţia de repartiţie a variabilei
σ (n )
ξ1 + ξ 2 + ... + ξ n − (a1 + a2 + ... + an )
σ (n )
tinde, când n → ∞ , către funcţia Φ( x ) a lui Laplace.
x t2
1 −
Φ( x ) = ∫ e 2 dt
2π −∞
Teorema limită centrală este teorema fundamentală a teoriei erorilor.
Laplace, Gauss şi alţi matematicieni, studiind repartiţia erorilor, au ajuns la
concluzia că funcţia de repartiţie normală poate fi luată drept model teoretic
pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.

29
II. Statistica matematica si biostatistica Teorema limita centrala

2.2. Teorema lui Cebâşev


Dacă ζ 1 , ζ 2 ,..., ζ n sunt variabile aleatoare (discrete sau continue)
independente ale căror dispersii sunt mai mici decât o constantă C, atunci
oricare ar fi numărul pozitiv ε, probabilitatea inegalităţii
ζ 1 + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n )
− 〈ε
n n
tinde către 1, atunci când numărul variabilelor aleatoare tinde către infinit.
Demonstraţie:
ζ + ζ 2 + ... + ζ n
Să considerăm variabila aleatoare ζ = 1 . Având în
n
vedere liniaritatea operatorului de calcul a mediei avem
M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n )
( )
M ζ =
n
.

Aplicând inegalitatea lui Cebâşev variabilei aleatoare ζ se obţine:

⎛ ζ + ζ 2 + ... + ζ n ⎞
D⎜ 1 ⎟
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞ ⎝ n ⎠
P⎜ 1 − 〈ε ⎟ ≥ 1 −
⎜ n n ⎟ ε2
⎝ ⎠

Mai departe, din proprietăţile operatorului D


⎛ ζ + ζ 2 + ... + ζ n ⎞ D(ζ 1 ) + D(ζ 2 ) + ... + D (ζ n ) C + C + ... + C nC C
D⎜ 1 ⎟= ≤ = 2 =
⎝ n ⎠ n2 n2 n n

Deci
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞ C
P⎜ 1 − 〈ε ⎟ ≥ 1 − 2
⎜ n n ⎟ nε
⎝ ⎠
Trecând la limita pentru n → ∞ obţinem
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞
lim n→∞ P ⎜ 1 − 〈ε ⎟ ≥ 1
⎜ n n ⎟
⎝ ⎠
şi cum probabilitatea nu poate depăşi 1,
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞
lim n →∞ P ⎜ 1 − 〈ε ⎟ = 1
⎜ n n ⎟
⎝ ⎠

30
II. Statistica matematica si biostatistica Teorema limita centrala

Cel mai frecvent, în practică, variabilele aleatoare ζ i au aceiaşi medie μ şi


concluzia teoremei devine
⎛ ζ + ζ 2 + ... + ζ n ⎞
lim n→∞ P⎜⎜ 1 − μ 〈ε ⎟⎟ = 1
⎝ n ⎠
În esenţă, teorema lui Cebâşev stabileşte că, deşi variabilele
aleatoare independente pot lua valori îndepărtate faţă de mediile lor, media
aritmetică a unui număr suficient de mare de astfel de variabile aleatoare ia
cel mai probabil valori apropiate de un număr constant
M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n )
(sau μ atunci când mediile variabilelor sunt
n
egale între ele).
Ca urmare, între comportarea fiecărei variabile aleatoare şi
comportarea mediilor lor există diferenţă esenţială. Putem spune foarte
precis ce valoare va lua media aritmetică a acestor variabile aleatoare.
Explicaţia acestui fapt constă în aceea că abaterile diverselor variabile
aleatoare sunt de semne diferite şi, ca urmare, se compensează între ele.

2.3. Metoda verosimilitatii maxime


Metoda verosimilitatii maxime da ca estimatie a parametrului θ
aceea valoare θ care face maxima functia de verosimilitate.
Valoarea lui θ care maximizeaza functia de verosimilitate
maximizeaza si logaritmul functiei de verosimilitate.
Astfel estimatia de verosimilitate maxima (EVM) este o valoare a lui
θ care maximizeaza functia de verosimilitate si logaritmul functiei de
verosimilitate. In cele mai multe probleme cu un singur parametru
necunoscut, multimea valorilor parametrului θ : ( H ) este un interval al
dreptei reale. Derivatele
∂ ln P ( x, θ ) ∂ 2 ln P ( x, θ )
si
∂θ ∂θ 2
vor exista in toate punctele interioare ale multimii ( H )
EVM se gaseste ca radacina a ecuatiei de verosimilitate
∂ ln P ( x, θ )
=0
∂θ
∂ 2 ln P ( x, θ )
O radacina a ecuatiei de verosimilitate in care 〈 0 este
∂θ 2
un punct de maxim relativ.
31
II. Statistica matematica si biostatistica Teorema limita centrala

Printre radacinile ecuatiei de verosimilitate pot aparea si puncte de


minim relativ. Asrfel este necesar sa determinam semnul derivatei de
ordinul doi sau sa se verifice daca radacina obtinuta este un maxim relativ.
Apar situatii in care θ nu poate fi obtinut rezolvand ecuatia de
verosimilitate. De exemplu, maximul global al functiei de verosimilitate
poate sa se realizeze pe frontiera spatiului parametrilor ( H )

Aplicatie:
Fie X 1 , X 2 ,..., X n variabile aleatoare independente (si identic
repartizate) binare cu
P ( X 1 = 1) = p ∈ Θ = ( 0 , 1) .
Cand ( X1 , X 2 ,..., X n ) = ( x1 , x2 ,..., xn ) este observata, functia de
verosimilitate este:
n n
( )
l ( p ) = ∏ p xi (1 − p ) = p n x (1 − p ) , unde x = ∑ xi .
1− xi n 1− x

i =1 i =1

Pentru a gasi EVM pentru parametrul p , trebuie sa determinam


maximul functiei l ( p ) sau echivalent al functiei de log – verosimilitate care
este L ( p ) = ln l ( p ) .
Se observa ca
∂L nx n 1 − x
= − =0
( )
∂p p 1− p
are ca unica solutie p = x ∈ ( 0 , 1) (pentru x ∈ {0 , 1} se poate verifica separat
ca unicul punct critic al lui L este tot p = x ).
Cum
∂2 L
= −
nx n 1 − x
− 〈0
( )
∂p 2 p 2 (1 − p )2
putem concluziona ca p = x este unicul punct de maxim al lui L , si prin
urmare x este unicul EVM pentru p.

32
II. Statistica matematica si biostatistica Teorema limita centrala

Aplicatie:

Fie X 1 , X 2 ,..., X n variabile aleatoare independente, identic


repartizate cu repartitia normala N ( μ , σ 2 ) , unde
θ = ( μ , σ 2 ) ∈ Θ = \ × (0 , ∞)
sunt parametri necunoscuti, iar n ≥ 2 .
Pentru o observatie ( X 1 , X 2 ,..., X n ) = ( x1 , x2 ,..., xn ) , functia de log-
verosimilitate este:
n
1 n n
L (θ ) = ln l (θ ) = − ∑(x − μ) − ln σ 2 − ln ( 2π )
2

2σ 2 i
i =1 2 2
dat fiind ca, in acest caz,
( x − μ )2
1 −
fθ ( x ) =
2
e 2σ
σ 2π
Rezolvand din nou o problema standard de extrem (pentru functia de
2 variabile L ), gasim ca unicul punct de maxim al lui L , si deci unicul
EVM pentru θ = ( μ , σ 2 ) este dat de:
1 n 1 n
xi ; σm2 = ∑ xi − x ( )
2
μl = x =∑
n i =1 n i =1
Astfel gasim o proprietate specifica repartitiei normale: media si
abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate
maxima (EVM-uri) pentru media si dispersia populatiei.

Aplicatie:

In multe teste de laborator se iau probe din apa unui rau pentru a se
vedea daca apa este buna pentru inot. In particular prezinta interes
concentratia in bacterii coliform a apei. Numarul de bacterii coliform este
determinat pentru fiecare din cele n probe din apa raului. S-a obtinut
rezultatele x1 , x2 ,..., xn . Problema care se pune este de estima pe μ , media
numarului de bacterii coliform in unitatea de volum a apei raului.
Presupunem ca bacteriile sunt dispersate la intamplare in apa raului
si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. Atunci
probabilitatea de a gasi xi bacterii intr-o proba de volum unitate este data de
repartitia Poisson:
33
II. Statistica matematica si biostatistica Teorema limita centrala

μ x e− μ
i

f ( xi ) = , unde xi = 0,1, 2,... si 0 ≤ μ 〈 ∞ .


x!
Deoarece volumele disjuncte sunt independente, probabilitatea celor
n masuratori x1 , x2 ,..., xn este
μ ∑ i e − nμ
n x

P ( x, μ ) = ∏ f ( xi ) = n
i =1
∏ xj ! j =1

Avem:
ln P = ∑ xi ln μ − nμ
∂ ln P ( x, μ ) 1 ∂ 2 ln P ( x, μ ) 1
∂μ
=
μ
∑x i − n si
∂μ 2
=−
μ2
∑x
i

∂ ln P ( x, μ ) 1
Daca ∑x i 〉 0,
∂μ
= 0 are solutia unica μ =
n
∑ xi = x .

In acest punct a doua derivata este negativa, ceea ce indica ca avem


un maxim relativ.
Deoarece P ( x, 0 ) = 0 si P ( x, μ ) → 0 cand μ → ∞ , x este un
maxim absolut.

∂ ln P ( x, μ )
Daca ∑x i = 0 , ecuatia
∂μ
= 0 nu are solutie si maximul

l = 0 . Astfel, in fiecare
se realizeaza pe frontiera spatiului parametrilor: μ
caz, avem μ l = x.

Probabilitatea variabilelor de selectie este maxima daca media


populatiei μ este estimata prin media de selectie x .

Observam ca
M μ ( ) n
( )
l = M X = 1 M ( X ) = 1nμ = μ
∑ i
n
ceea ce arata ca μ = x este un estimator nedeplasat pentru μ .

34
II. Statistica matematica si biostatistica Teorema limita centrala

Observatie:

Cu ajutorul functiei de verosimilitate se construieste unul dintre cele


mai utilizate teste statistice pentru modele parametrice: testul raportului de
verosimilitate.

Definitie:
Fie {
X un esantion dintr-o populatie P ∈℘ = Pθ θ ∈ Θ ⊂ \ k , }
pentru care se considera urmatorul set de ipoteze :
H 0 : θ ∈ Θ0 vs. H A : θ ∈ Θ1
unde Θ0 ∪ Θ1 = Θ si Θ0 ∩ Θ1 = Φ .

Se numeste test al raportului de verosimilitate LR 1,2 (Likelihood


ratio test) orice test care respinge ipoteza H 0 daca si numai daca
λ ( X ) 〈 c ∈ [ 0 , 1] , unde:
supθ ∈Θ0 l (θ )
λ(X ) =
supθ ∈Θ l (θ )

1
Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials,
Statistics in Medicine, 27 (2008), 4874 - 4894
2
Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST)
35
II. Statistica matematica si biostatistica Teorema limita centrala

2.4. TEORIA SELECŢIEI

2.4.1. Populaţii şi selecţii. Inferenţa statistică

În practică avem adesea nevoie să facem judecăţi asupra unor mari


colecţii de rezultate posibile experimental ori a altor cantităţi, dar nu putem
sau este extrem de scump, să examinăm toate aceste date. În astfel de cazuri,
în loc să examinăm întregul set de date pe care îl numim în cele ce urmează
populaţie, tragem concluziile după examinarea a o parte din ele, alese la
întâmplare, parte pe care o numim selecţie.
Procedeul de obţinere a probelor este numit tot selecţie, iar
procedeul de extrapolare a concluziilor la întreaga populaţie este cunoscut
ca inferenţa statistică.
Vom considera că o caracteristică dată a populaţiei este o variabilă
aleatoare pe un câmp de probabilitate (Ω, K, P ) în care elementele lui Ω
sunt chiar elementele populaţiei, iar P este o probabilitate cunoscută sau nu.
Enumerarea valorilor observate ale caracteristicii urmărite şi a
frecvenţelor lor relative defineşte repartiţia statistică a selecţiei.
Teorema lui Leapunov, numită şi teorema fundamentală a statisticii
matematice, care justifică utilizarea metodei selecţiei stabileşte că funcţia de
repartiţie statistică a caracteristicilor selecţiilor tinde la funcţia teoretică de
repartiţie a caracteristicii studiate când volmul selecţiei tinde la ∞.

2.4.1.1. Exemplu
Putem dori să tragem concluzii despre evoluţia rezistentei unei
tulpini de germeni patologeni la un medicament dat şi, în acest scop,
examinăm rezultatele antibiogramelor făcute într-un eşantion de spitale într-
o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului
precedent. Deşi rezultatele obţinute se referă la spitale şi mai precis numai
la o parte din ele, concluziile le extindem la scara întregii populaţii.

2.4.1.2. Exemplu
Rezultatele privind absorbţia unui medicament după administrarea
orală prin determinarea nivelurilor din plasma ale medicamentului la un lot
de voluntari sănătoşi le considerăm ca rezultate probabile pentru întreaga
populaţie ce include şi potenţiali pacienţi.
Populaţia poate fi infinită sau finită, în ultimul caz, numărul
indivizilor populaţiei – N- se mai numeşte şi volumul populaţiei. În mod

36
II. Statistica matematica si biostatistica Teorema limita centrala

similar, numărul de indivizi sau valori din cadrul unei probe este denumit
volumul probei sau volumul eşantionului.
Valabilitatea concluziilor despre populaţie depinde de
“reprezentativitatea” probei. Pentru populaţii finite aceasta înseamnă că
fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când spunem
că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că
selecţia unor voluntari sănătoşi pentru determinarea parametrilor
farmacocinetici ai unui medicament nu este din acest punct de vedere o
selecţie reprezentativă. În cazurile în care avem motive să credem că
patologia căreia se adresează medicamentul nu afectează funcţiile
metabolice şi de excreţie, această aproximare este acceptată pentru motivul
că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp de
lucru mult crescute.
În practică, în studiile de bioechivalenţă, pentru reducerea volumului
loturilor pe care se fac testările, se administrează amândouă medicamentele
la toţi membri lotului, în două perioade diferite. Fiecare component al
lotului primeşte unul din medicamente în prima perioadă şi celălalt în a
doua perioadă.
Deoarece perioada de administrare poate influenţa şi ea rezultatul
experimentului, alegerea indivizilor care vor primi în prima perioadă primul
medicament se face în mod aleator. În cazul când sunt mai multe perioade,
de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un
tabel de felul urmator
Tabelul nr. 1:
I II III IV
A B D C
B C A D
C D B A
D A C B
aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată
în fiecare linie şi în fiecare coloană. Se numeşte pătrat latin deoarece, cum
se va arata mai departe, în cazul în care mai intervine şi o altă variabilă, de
exemplu doza din fiecare medicament, se folosesc şi litere grecesti,
alcătuindu-se pătrate “greco-latine”.
Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari
sănătoşi, pornind de la ipoteza că modificările de biodisponibilitate asociate
stărilor patologice sunt aceleaşi pentru cele două medicamente testate, ceea
ce, evident, este numai în parte adevărat.
În toate experimentele biologice, planificarea experimentului trebuie
făcută în aşa fel încât diferenţele în tratament să nu coincidă cu diferenţe în
37
II. Statistica matematica si biostatistica Teorema limita centrala

vârstă, sex, sau alţi parametri. Dacă, de exemplu, femeile din lot primesc
primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt
“confundate” cu diferenţele de tratament. În acest caz nu se poate spune
dacă diferenţele obţinute se datorează tratamentului sau diferenţei de sex.

2.4.1.3. Parametrii de selecţie ai unei variabile aleatoare :


Dacă printr-un procedeu oarecare cuantificăm răspunsul culturilor
microbiene la antibioticele din exemplul 1, sau dacă luăm în consideraţie
concentraţiile de medicament în sânge, din al doilea exemplu, şi
probabilităţile ca valorile să aparţină unor intervale diferite, obţinem o
variabilă aleatoare X asociată cu rezultatul experimentului corespunzător.
Parametrii acestei variabile aletoare sunt denumiţi, prin abuz de
limbaj, “parametri ai populaţiei”.
Dacă în exemplul al doilea Xi este concentraţia de medicament în
sângele bolnavului i, la o oră de la administrare, la primul voluntar putem
obţine o valoare x1, pentru al doilea voluntar o valoare x2, etc. În acest fel
găsim valorile x1 , x 2 ,..., x n ale varibilelor aleatoare independente
X 1 , X 2 ,..., X n .

2.4.2. Media de selecţie este o variabilă aleatoare:


X + X 2 + ... + X n
X = 1
n
Dacă distribuţia lui X este normală - N (μ , σ ) , aceiaşi pentru fiecare
i, datorită linearităţii operatorului M care defineşte media, obţinem
( )
M X = μ X = μ adică valoarea pentru media mediei de selecţie este media
populaţiei.
Dacă la datele experimentale se adaugă o constantă, X i′ = X i + a ,
∑ (X + a)
n
i
media de selecţie creşte cu aceeaşi constantă: W = 1
= X +a
n
Similar, dacă fiecare valoare se înmulţeşte cu o constanta Z i = kX i ,
∑ kX
n
i
media de selecţie Z se înmulţeşte cu aceeaşi contantă: Z = 1
= kX
n

38
II. Statistica matematica si biostatistica Teorema limita centrala

2.4.3. Dispersia de selecţie


Ca o măsură a abaterii datelor faţă de media de selecţie, se introduce
noţiunea de dispersie de selecţie S X2 =
1
n −1 1
( ∑ i
n
)
x − X
2
.
În aplicaţiile practice, pentru reducerea numărului de calcule,
formula se aduce la o altă formă şi anume:
s X2 =
1
n −1

n
1
(x i − ) X
2
=
1 ⎛ n 2
n −1⎝
⎜ ∑ 1
x i − 2 X ∑
n
1
x i + n X
2
⎞=


=
1
n −1
∑ ( n 2
x − 2n X + n X =
1 i
2
) 2

1 ⎛ n 2
⎜ ∑1 i
2
⎞= 1

⎜ ( )

n
x
2



n 1 i
x − n X ⎟ ⎜ x 2
i − ⎟
n −1⎝ ⎠ n −1⎜ 1 n ⎟
⎝ ⎠
Dacă zi = kxi + a ⇒ sZ = k s X . 2 2 2

Într-adevăr
1
( ) 1
( )
2 2
∑ ∑
n n
sZ2 = z i − Z = kx i + a − k X − a = k 2 s X2
n −1 1
n −1 1

s X se numeşte abaterea standard de selecţie sau deviaţie standard, când nu


este pericol de confuzie privind variabila aleatoare la care se referă
folosindu-se şi notaţia sd .
Se mai utilizează în practică şi noţiunile:
• Dispersia”populaţiei” =
1
n −1 1
( ∑
n
x )i − X
2
şi respectiv
• Deviaţia standard a “populaţiei”, precum şi “abaterea standard a
mediei” (prescurtarea SEM – standard error of mean) definită prin
s
raportul SEM = X
n
s
• precum şi coeficientul de variatie v = x *100 .
X

2.4.4. Covarianta de selecţie


Covarianta de selecţie se defineşte prin formula
s XY =
1
(
∑ xi − X y i − Y
n −1 1
n
)( )
39
II. Statistica matematica si biostatistica Teorema limita centrala

Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă
în sensul simplificărilor de calcul în anumite aplicaţii.
s XY =
1
n −1
∑ (n
x y − X ∑1 yi − Y ∑1 xi + n X Y =
1 i i
n n
)
=
1

n −1 1
( n
xi yi − n X Y − n X Y + n X Y = )
( 1 ⎛⎜ n
) ∑ 1 i ∑1 i ⎟
y ⎞
n n
1 x
∑ ii ∑ ii
n
x y − n X Y = x y −
n −1 1 n −1⎜ 1 n ⎟
⎝ ⎠

2.4.5. Coeficientul de corelaţie de selecţie


Coeficientul de corelaţie de selecţie se defineşte prin formula

s XY n
1
− 1

n
1
xi − X yi − Y ( )( )
ρ ( x, y ) = = =
s X sY 1 1
( ) ( )
2 2
∑ xi − X n − 1 ∑1 yi − Y
n n

n −1 1
∑ ( x − X )( y − Y )
n
1 i i
=
∑ (x − X ) ∑ ( y −Y )
n 2 n 2

1 i 1 i

2.4.6. Proprietăţi ale caracteristicilor de selecţie


Considerăm în continuare o selecţie de volum n dintr-o populaţie cu
media μ si dispersia σ 2

2.4.6.1. Propoziţie
Media mediei de selecţie este egală cu media populaţiei. M X = μ ( )
Demonstraţie:
M ( ∑ xi ) ∑ M ( xi ) nμ
M X =( ) n
=
n
=
n

2.4.6.2. Propoziţie
Media dispersiei de selecţie este egală cu dispersia populaţiei
M ( sX ) = σ 2
2

Demonstraţie:

40
II. Statistica matematica si biostatistica Teorema limita centrala

M ( s X2 ) = M ⎜
⎛ 1
⎝ n −1

n
1
xi − X ( ) ⎞
2
⎟=
1
⎠ n −1
M (∑ x 2 − 2 X ∑1 xi + ∑1 x
1 i
n n n 2

)=
1
n −1 (
M ∑1 xi2 − 2n X + n X
n 2 2
) =−
1
n −1
M (∑ x − n X ) =
n
1
2
i
2


( ⎞
)
2

n
1 ⎜ n 2 x i ⎟
M ⎜ ∑1 xi −
1
= ⎟
n −1 ⎜ n ⎟
⎝ ⎠
Dar, mai departe
M ( ∑ x ) = n (σ + μ )
n
1
2
i
2 2

M ( ∑ x ) = M ⎜ ∑ x + 2∑
n ⎛ 2 n n ⎞
i
2
i 1 xi x j ⎟ =
1
⎝ 1
i≠ j ⎠
n ( n − 1)
= ∑1 M ( xi2 ) + 2 M ( xi ) M ( x j ) =
n

2
= n (σ 2 + μ 2 ) + n ( n − 1) μ 2 = nσ 2 + n 2 μ 2
şi înlocuind în expresia lui M ( s X2 ) obţinem
n (σ 2 + μ 2 ) − σ 2 − n μ 2
M (s 2
X )= =σ2
n −1

2.4.6.3. Propoziţie
x−μ
Variabila aleatoare Z = tinde , când n → ∞ către o variabilă
σ
n
N (0,1)
Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă
atât variabilelor continue cât şi celor discrete.
Într-adevăr aplicând teorema lui Leapunov pentru variabilele
aleatoare x, , x2 ,..., xn obţinem că:
x1 + x2 + ... + xn − (μ1 + μ 2 + ... + μ n ) nX − nμ X −μ
= =
σ 2 + σ 2 + ... + σ 2 nσ 2 σ
n
tinde către o variabilă aleatoare N (0,1) .

41
II. Statistica matematica si biostatistica Teorema limita centrala

2.4.6.4. Propoziţie
Dacă variabila aleatoare X este normal distribuită, atunci variabila
s2
aleatoare V = (n − 1 ) X2 este repartizată χ 2 (n − 1)
σ
Demonstraţie:

V = (n − 1)
s X2
=
∑ (x
n
1 i −X ) = ∑ [(xn
1 i (
− μ)− X − μ )] 2

=
σ2 σ2 σ2

=
∑ (x1
n
i − μ ) − 2∑1 (xi − μ ) X − μ + ∑1 X − μ
2 n
( ) n
( ) 2

=
σ2

=
∑ (x1
n
i
2
(
− μ ) − 2 n X − nμ X − μ + n X − μ )( ) ( )
2

=
σ2
2
⎛ ⎞
=
∑ ( x
n
i − μ ) − n X − μ ( n⎛ x i − μ ⎞
= ∑1 ⎜
2 ⎜
⎜ ) ⎟
X −μ⎟
1
⎟ −
σ2 ⎝ σ ⎠ ⎜ σ ⎟
⎜ ⎟
⎝ n ⎠
x −μ
Dar variabila aleatoare i este repartizată N (0,1) deoarece
σ
⎛ x − μ ⎞ M ( xi ) − μ ⎛ x − μ ⎞ D( xi ) (X − μ )
M⎜ i ⎟= şi D⎜ i ⎟= = 1 , iar
σ
este
⎝ σ ⎠ σ ⎝ σ ⎠ σ2
n
repatizată tot N (0,1) în conformitate cu teorema limită centrală.
Deci, V este o sumă de n-1 pătrate de variabile de tip N (0,1) .

2.4.6.5. Propoziţie
Dacă x1 , x2 ,..., xn este o selecţie dintr-o populaţie normal distribuită,
atunci variabila aleatoare
X −μ
T = este repartizată Student cu n grade de libertate.
s
n
Demonstraţie:

42
II. Statistica matematica si biostatistica Teorema limita centrala

X −μ X −μ
σ σ
X −μ n n Z
= = =
∑ (x )
s s n 2
V
i −X
n σ 1
n −1
(n − 1)σ 2
∑ (x − X )
n 2
X −μ
este repartizată N (0,1) , iar
i
unde Z = V = 1
este
σ σ2
n
repartizată χ (n − 1) .
2

Deci, T este repartizată Student cu n-1 grade de libertate.

2.4.6.6. Propoziţie
Date fiind două selecţii aleatoare independente x11 , x12 ,..., x1n1 si
x 21 , x 22 ,..., x n2 din populaţii normal distribuite N (μ1 , σ 1 ) şi N (μ 2 , σ 2 ) ,
S12
σ 12
variabila aleatoare F= este repartizată Fisher – Snedecor
S 22
σ 22
F (n1 − 1, n2 − 1)
Demonstraţie: Avem într-adevar
∑ (x )
n1 2
S12 1 1i − X1

F=
σ 12
=
(n1 − 1)σ 12
S 22
∑ (x )
n2 2
1 2i − X2
σ 22 (n2 − 1)σ 22
iar număratorul şi numitorul sunt repartizate, conform propozitiei 2.3.5.4.,
χ 2 (n1 − 1) χ 2 (n2 − 1)
respectiv şi .
n1 − 1 n2 − 1

43
II. Statistica matematica si biostatistica Teorema limita centrala

2.5. Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în
general cunoscute. Valorile numerice obţinute se numesc estimaţii sau
estimatori. Se obţin estimaţii punctuale în cazul în care se folosesc datele
selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de
încredere în cazul în care se determină un interval în care se află, cu o
anumită probabilitate valoarea estimată.
Un estimator al parametrului θ se va nota cu θˆ . O estimaţie este
()
nedeplasată dacă M θˆ = θ , adică media estimaţiei este egală chiar cu
valoarea teoretică a parametrului estimat.
( )
Conform proprietăţii 2.3.5.1, M X = μ adică media de selecţie
este un estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2.,
M ( s 2 ) = σ 2 adică dispersia de selecţie este un estimator nedeplasat al
dispersiei.
Problema estimării intervalelor se reduce la găsirea unui interval de
încredere (θ L ,θ U ) cu un coeficient de încredere 1 − α astfel încât
P(θ L 〈θ 〈θU ) = 1 − α .
Este de dorit ca 1 − α să fie cât mai mare (de obicei este cuprins
între 0,9 şi 0,99) iar intervalul (θ L ,θ U ) să fie cât mai mic. În stabilirea
intervalelor se utilizează caracteristicile numerice cuantile. Se numesc
cuantile de ordin β valoarea x β a variabilei aleatoare x pentru care
F (x β ) = P (x 〈 x β ) = β adică valoarea variabilei aleatoare care are la stânga
ei aria β sub curba densităţii de probabilitate. Evident:
⎛ ⎞ α α
P⎜⎜ x 〈 xα ⎟⎟ = P⎛⎜ x 〈 x1− α ⎞⎟ = 1 −
⎝ 2 ⎠
2 ⎝ 2 ⎠ 2
⎛ ⎞ α α
P⎜⎜ xα 〈 x 〈 x1− α ⎟⎟ = 1 − − = 1 − α
⎝ 2 2
⎠ 2 2
Pentru a estima un interval se alege 1 − α , se citesc din tabelele
cuantilele, de exemplu x α şi xα şi se precizează intervalul. În prealabil, în
1−
2 2
funcţie de mărimea pentru care se caută intervalul se precizează cu care din
repartiţiile cunoscute trebuie lucrat.

44
II. Statistica matematica si biostatistica Teorema limita centrala

2.5.1. Estimarea intervalelor de încredere pentru medii

2.5.1.1.Cazul când se cunoaste dispersia.


Se consideră o populaţie repartizată normal N μ , σ 2 . Dacă se cunoaşte ( )
X −μ
dispersia se poate folosi faptul că Z = este repartizată N (0,1) . Se
σ
n
notează cu zα cuantila de ordinul α pentru repartiţia N (0,1) . Evident
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ α α
P ⎜ zα 〈 Z 〈 z α ⎟ = F ⎜ z α ⎟ − F ⎜ zα ⎟ = 1 − − = 1 − α
⎝ 2 1−
2 ⎠
1−
⎝ 2⎠ ⎝ 2⎠ 2 2
⎛ ⎞
Aşadar intervalul ⎜⎜ z α , z α ⎟⎟ este un interval de estimare cu coeficientul
⎝ 2 1− 2 ⎠
de încredere 1 − α . Din anumite puncte de vedere este recomandabil să se
utilizeze acele intervale care lasă atât la dreapta cât şi la stânga lor aceeaşi
α
arie, egală cu .
2
Deoarece repartiţia N (0,1) este simetrică faţă de axa Oy avem relaţia
zα = − z α
1−
2 2

Din relaţiile
X −μ
−z 〈 Z 〈 z ⇒ −z 〈 〈 z ⇒
1−
α
2
1−
α
2
1−
α
2
σ 1−
α
2
n
σ σ
⇒ −z α * 〈 X −μ 〈 z α * ⇒
1−
2 n 1−
2 n
σ σ
−X − z α * 〈 −μ 〈 − X +z α *
1−
2 n 1−
2 n
rezultă
σ σ
X −z α 〈 μ 〈 X +z α
1−
2 n 1−
2 n
Aşadar intervalul căutat este
⎛ ⎞
(θ L ,θ U ) = ⎜⎜ X − z1−α σ , X + z1−α σ ⎟⎟
⎝ 2 n 2 n⎠

45
II. Statistica matematica si biostatistica Teorema limita centrala

σ
Mărimea E = z α poartă numele de eroare şi serveşte la calculul
1−
2 n
2
⎛z α ⎞
⎜ 1− ⎟
numărului de experienţe n = ⎜ 2 ⎟ atunci când este impusă eroarea şi se
⎜ E ⎟
⎝ ⎠
alege un coeficient 1 − α
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este
repartizată normal deoarece z este repartizată N (0,1) indiferent de repartiţia
variabilelor X 1 , X 2 ,..., X n (teorema limită centrală).

2.5.1.2.Cazul când dispersia este necunoscută


Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează
dispersia de selecţie care este un estimator nedeplasat al dispersiei deoarece
E ( s X2 ) = σ 2
Se consideră x1 , x 2 ,..., x n o selecţie dintr-o populaţie de tipul N ( μ , σ X2 ) .
X −μ
Conform celor arătate anterior mărimea T = este repartizată
sX
n
T (n − 1) şi, ca urmare
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ α α
P⎜⎜ t α 〈 T 〈 t ⎟ ⎜
α ⎟ = F⎜t
⎟ ⎜ α ⎟ =1− − =1−α
α ⎟ − F⎜t ⎟
⎝ n −1, 2 n −1,1−
2 ⎠ ⎝ n −1,1− 2 ⎠ ⎝ n −1, 2 ⎠ 2 2
Deoarece repartitia Student este simetrică faţă de origine
t α = −t α şi înlocuindu-l pe T în relaţia anterioară, se obţine
n −1,1− n −1,1−
2 2

⎛ ⎞
⎛ ⎞ ⎜ X −μ ⎟
P⎜t α 〈 T 〈 t ⎟
α = P ⎜ t α 〈 〈 t α ⎟ = 1−α
⎝ n −1, 2 n −1,1−

2 ⎜ n −1, 2 sX n −1,1−
2 ⎟
⎜ ⎟
⎝ n ⎠
sX s
şi X − t α 〈 μ 〈 X +t α
n −1,1−
2 n n −1,1−
2 n
Ca urmare intervalul căutat este

46
II. Statistica matematica si biostatistica Teorema limita centrala

⎛ sX sX ⎞
(θ L ,θU ) = ⎜ X − tn−1,1−α , X +t α ⎟
⎝ 2 n n −1,1−
2 n⎠
sX
În acest caz eroarea este E = t α
n −1,1−
2 n
Dacă numărul de experienţe este n 〉 30 , se poate folosi aproximaţia
t α = z α
n −1,1− 1−
2 2

2.5.2.Estimarea intervalului de încredere 1 − α pentru diferenţa a două


medii
Se consideră două selecţii din populaţii normal repartizate N μ1 , σ 12 şi ( )
(
N μ 2 , σ 22 . )

2.5.2.1. Cazul dispersiilor σ 12 , σ 22 cunoscute.


Considerăm o selecţie aleatoare x11 , x12 ,..., x1n1 din populaţia N (μ1 , σ 12 ) şi o
selecţie x 21 , x 22 ,..., x 2 n2 dintr-o populaţie N (μ 2 , σ 22 ) .


n1
x1i
Estimatorii nedeplasaţi ai mediilor μ1 şi μ 2 sunt: X 1 = 1
si
n1

n2
x2 i
X2 = 1
n2
Considerând variabila aleatoare X 1 − X 2 , ea este normal repartizată iar
estimaţia şi dispersia ei vor fi M ( X 1 − X 2 ) = M ( X 1 ) − M ( X 2 ) = μ1 − μ 2 şi

( ) ( ) ( )
D X1 − X 2 = D X1 + D X 2 =
σ 12
n1
+
σ 22
n2
unde am ţinut cont că x1i şi x 2i

sunt independente.
Mai departe, variabila aleatoare

Z=
( )
X 1 − X 2 − ( μ1 − μ2 )
=
(
X 1 − X 2 − ( μ1 − μ2 ) )
este repartizată N(0,1).
D X1 − X 2 ( ) σ 12 σ 22
+
n1 n2

47
II. Statistica matematica si biostatistica Teorema limita centrala

⎛ ⎞
Deoarece, P ⎜ zα 〈 Z 〈 z α
1−
⎟ = 1 − α şi z α = − z1−α rezulta
⎝ 2 2 ⎠ 2 2

σ 12 σ 22 σ 12 σ 22
(X 1 )
− X2 − z +
n1 n2
1−
α 〈 μ1 − μ2 〈 X 1 − X 2 + z α
1−
+
n1 n2
( )
2 2

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este


⎛ ⎞
( )
(Θ1 , Θ2 ) = ⎜⎜ X 1 − X 2 − z1− α σ 1 + σ 2 , X 1 − X 2 + z1− α σ 1 + σ 2 ( )
2 2 2 2

n1 n2 n1 n2 ⎟
⎝ 2 2 ⎠
σ 12 σ 22
În acest caz, eroarea este E = z α + .
1−
2
n1 n2

2.5.2.2. Dispersii necunoscute dar presupuse egale


În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale
σ 1 = σ 22 = σ 2 utilizăm dispersia ponderată de selecţie
2

s 2p =
n1 − 1
s12 +
n2 − 1 ( n − 1) s12 + ( n2 − 1) s22 =
s22 = 1
( n1 − 1) + ( n2 − 1) ( n1 − 1) + ( n2 − 1) n1 + n2 − 2

∑ (x ) + ∑ (x )
n1 2 n2 2

1 1i − X1 1 2i − X2
=
n1 + n2 − 2
ca un estimator nedeplasat pentru σ 2 .
Avem într-adevăr,
( n1 − 1) M ( s12 ) + ( n2 − 1) M ( s22 ) ( n1 − 1) σ 12 + ( n2 − 1) σ 22 2
M ( sp ) =
2
= =σ
n1 + n2 − 2 n1 + n2 − 2

În continuare vom arăta că mărimea T =


(X 1 )
− X 2 − (μ1 − μ 2 )
este
1 1
sp +
n1 n2
repartizată T (n1 + n2 − 2)

48
II. Statistica matematica si biostatistica Teorema limita centrala

(X 1 )
− X 2 − (μ1 − μ2 )
σX 1−X2
Se observă că T = este raportul între o variabila
sp 1 1
+
σX 1−X2
n1 n2
aleatoare repartizată N(0,1) şi deoarece
sp 1 1 sp 1 1 sp s 2p
+ = + = = =
σX n1 n2 1 1 n1 n2 σ σ2
1−X2 σ +
n1 n2
2 2
⎛ x1i − X 1 ⎞ ⎛ x − X2 ⎞
∑ ⎟ + ∑ n2 ⎜ 2i
n1
⎜ ⎟
∑ (x )
− X 1 + ∑1 2 x2i − X 2 ( ) ⎜ σ ⎟ ⎜ σ ⎟
n1 2 n 2
1 1
1 1i
= ⎝ ⎠ ⎝ ⎠
(n1 + n2 − 2)σ 2 n1 + n2 − 2

sp 1 1 χ 2 (n1 + n 2 − 2 )
variabila + este de tipul
σX 1−X2
n1 n2 n1 + n 2 − 2
2 2
⎛ x − X1 ⎞ ⎛ x − X2 ⎞
Dar ∑1 ⎜⎜ 1i
n1
⎟ este repartizat χ 2 (n1 − 1) iar ∑ n2 ⎜ 2i ⎟ este
⎟ 1 ⎜ ⎟
⎝ σ ⎠ ⎝ σ ⎠
repartizat χ (n2 − 1) , deci T este repartizat T (n1 + n2 − 2) şi
2

⎛ ⎞ α α
P⎜⎜ t α 〈T 〈 t

α ⎟ = 1− − = 1−α
⎝ n1 + n 2 − 2 ,
2
n1 + n 2 − 2 ,1−
2 ⎠
2 2
Deoarece repartiţia Student este simetrică t α = −t α rezultă că
n1 + n2 − 2 , n1 + n2 − 2 ,1−
2 2

1 1 1 1
X1 − X 2 − t α sp + 〈 μ1 − μ 2 〈 X 1 − X 2 − t α sp +
n1 + n 2 − 2,1−
2
n1 n2 n1 + n 2 − 2 ,1−
2
n1 n2

Deci,
⎛ 1 1 1 1 ⎞⎟
(Θ1 , Θ 2 ) = ⎜⎜ X 1 − X 2 − tn + n − 2,1− α s p + , X1 − X 2 + t s +
n1 n2 ⎟⎠
α p
⎝ 1 2
2
n1 n2 n + n 2 − 2 ,1−
21

1 1
cu eroarea E = t α sp + .
n1 + n2 − 2 ,1−
2
n1 n2

49
II. Statistica matematica si biostatistica Teorema limita centrala

2.5.3. Estimarea intervalelor de încredere pentru dispersie


Considerăm o selecţie de volum n dintr-o populaţie normală N μ , σ 2 . ( )
Conform celor arătate anterior variabila aleatoare V =
( n − 1) s 2
este
σ2
repartizată χ 2 (n − 1) şi ca urmare
⎛ ⎞ α α
P ⎜ χ 2 α 〈 V 〈χ 2 α ⎟ = 1− − = 1−α
⎝ n −1, 2 n −1,1−
2 ⎠ 2 2
s2
Deci, χ 2 α 〈 (n − 1) 2 〈 χ 2 α si 2
(n − 1)s 2 〈 σ 2 〈 (n − 1)s 2 .
n −1,
2
σ n −1,1−
2
χ α χ2 α
n −1,1− n −1,
2 2

2.5.4. Estimarea intervalului de încredere pentru raportul a două


dispersii
Se consideră selecţia aleatoare x11 , x12 ,..., x1n1 dintr-o populaţie N μ , , σ 12 şi ( )
o selecţie x 21 , x 22 ,..., x 2 n2 dintr-o populaţie N (μ 2 , σ 22 ) .
s12
σ 12
Conform cu cele arătate anterior, raportul F = este repartizat
s 22
σ 22
⎛ ⎞ α α
F (n1 − 1, n2 − 1) şi deci P⎜⎜ f α 〈 F〈 f

α ⎟ = 1− − = 1−α
⎝ n1 −1, n 2 −1,
2
n1 −1, n 2 −1,1−
2 ⎠
2 2
s2 σ 22 s22
Rezultă că 22 f α 〈 〈 f α , iar intervalul de
s1 n1 −1, n 2 −1, 2 σ 12 s12 n1 −1, n 2 −1,1− 2
estimaţie pentru raportul dispersiilor este:
⎛ 2 2

(Θ L , ΘU ) = ⎜⎜ s22 f n −1, n −1, α , s22 f n −1, n −1,1− α ⎟⎟
⎝ s1 1 2 2 s1 1 2 2 ⎠

50
II. Statistica matematica si biostatistica Teorema limita centrala

2.5.5. Aplicaţie: Utilizarea intervalelor de încredere în studiile de


comparare a biodisponibilităţii medicamentelor 3

La introducerea în terapie de către un producător a unui medicament


ce reprezintă o reproducere a altui medicament deja în uz, se pune problema
comparării biodisponibilităţii acestora. În practică se cere ca raportul ariilor
de sub curbele concentraţiilor plasmatice ale celor două medicamente să se
afle in intervalul 0,8 - 1,25.
μ TAUC
0,8 〈 〈 1, 25
μ AUC
R

unde indicele T se referă la medicamentul testat şi R desemnează


medicamentul referinţă.
Atunci însă când ariile de sub curbă prezintă variabilităţi intra şi
interindividuale considerabile (determinările de biodisponiblitate se fac pe
loturi de circa 10 – 20 de voluntari sănătoşi) este de preferat a se determina
un interval de încredere pentru media ariei realizată de medicamentul nou.

Pornind de la faptul ca T =
( )
X R − X T − ( μ R − μT )
este repartizată
1 1
sp +
nR nT
T ( nR + nT − 2 ) se deduce un interval de încredere cu probabilitatea 1 − α
pentru μT − μ R
XT − X R −t α 〈 μT − μ R 〈 X T − X R + t α
1− 1−
2 2

1 1
unde am notat s = s p + .
nR nT
După cum se va arăta mai departe, această estimare este puţin utilă
în caz că s p reprezintă practic intervariabilitatea, iar interschimbabilitatea
care necesită bioechivalenţă trebuie să se bazeze pe intravariabilitate.

3
W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials,
J. Pharm. Sci. , 61 (8), 1340 – 1, 1972
51
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

2.6. Verificarea ipotezelor statistice

Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile
aleatoare. Ele se referă fie la parametrii repartiţiei, fie la legea propriu zisa
de repartiţie.

Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care
constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a
unor funcţii de elementele selecţiilor.

Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se
notează H0. Testarea necesită şi formularea unei ipoteze complementare,
numită ipoteză alternativă şi notată HA. Dacă se acceptă H0, în mod normal
se respinge HA şi invers.
Din acest motiv, ipotezele H0 si HA se aleg să fie complementare.
Dacă testul priveşte valoarea unui parametru θ , de exemplu
H 0 : θ = θ 0 şi H A : θ = θ 1 se poate întâmpla ca toţi ceilalţi parametri ce
caracterizează distribuţiile să fie cunoscuţi şi, după acceptarea uneia din cele
două ipoteze, distribuţiile ρ ( x,θ 0 ) şi ρ (x,θ 1 ) devin complet definite. În
acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu
sunt cunoscuţi complet, ipotezele se numesc “ipoteze compuse”. De
exemplu, dacă distribuţia este normală şi parametrul cautat este μ , iar
dispersia este necunoscută, suntem în cazul unei ipoteze compuse.

Probabilitatea unei decizii gresite


La verificarea ipotezelor se pot comite două feluri de erori:
1. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când
aceasta este adevărată.
2. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când
aceasta este falsă.
Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv
β:
α = P (respinge H0 / H0 adevărată)
β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată)

53
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

Deci, α este riscul de a respinge în mod greşit H0 şi β este riscul de a


respinge în mod greşit HA.
Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă
π = 1 − β se numeşte puterea testului. Coeficientul α este numit şi nivel de
semnificaţie. Desigur că este de dorit ca valorile α şi β să fie cât mai mici.
Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor acceptării
sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este
considerat ca bun pentru majoritatea problemelor din practică. Dacă însă
este vorba de un medicament foarte activ cum ar fi digoxina, este de preferat
a alege α între 0,01 si 0,05.
Pentru a verifica o ipoteză se folosesc datele de selecţie pentru
calcularea unui test statistic. Domeniul de valori ale testului care corespunde
respingerii ipotezei H0 cu probabilitatea α se numeşte regiune critică.
Metodologia de verificare cuprinde în principiu următoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii
fenomenului studiat, o repartiţie pentru populaţia statistică din care
se face selectia;
2. se formulează ipoteza;
3. se calculează valoarea testului ales şi se compară cu limitele de
acceptare, respectiv respingere;
4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H0.

2.6.1. Ipoteze asupra mediei


2.6.1.1.Dispersia cunoscută
( )
Se consideră o selecţia dintr-o populaţie normală N μ , σ 2 . Considerăm
variabila aleatoare X . Datorită linearităţii operatorului de mediere avem:
⎛ ∑ n xi ⎞ ⎛ ∑ nM ( xi ) ⎞ nμ
( )
M X = M⎜ 1 ⎟ = ⎜ 1
⎜ n ⎟ ⎜ n
⎟=
⎟ n

⎝ ⎠ ⎝ ⎠
Pentru dispersia lui X ţinem cont că D 2 (ax + b ) = a 2 D 2 ( x ) şi că
rezultatele xi reprezintă variabile aleatoare independente
D (xi + x j ) = D ( xi ) + D (x j ) .
2 2 2

⎛ ∑n xi ⎞ ∑ D ( x ) = nσ
n 2 2
σ2
În aceste condiţii se obţine D ⎜ 1 ⎟= =
2 1 i
⎜ n ⎟ n2 n2 n
⎝ ⎠

54
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

Ca urmare a teoremei limită centrală, variabila aleatoare


( )
X −E X
=
X −μ
este repartizata N (0,1) .
DX( ) σ
n
Avem în acest caz, dacă vom alege un risc α , ipotezele şi criteriile de
acceptare sau respingere conform cu tabelul de mai jos:
Tabelul nr. 2:
H0 HA Regiunea critică
μ = μ0 μ ≠ μ0 Z〉z α
1−
2

Z 〈− z α
1−
2

μ = μ0 μ〉μ0 Z 〉 z1−α

μ = μ0 μ 〈μ 0 Z 〈− z1−α

2.6.1.2.Dispersia necunoscută
În acest caz se înlocuieşte în formula anterioară σ cu estimaţia sa
X −μ
s X şi se ţine cont că variabila aleatoare T = este repartizată Student
sX
n
cu n-1 grade de libertate.

55
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

2.6.2. Ipoteze asupra diferenţelor a două medii

2.6.2.1.Cazul când se cunosc dispersiile


(
Se consideră două populaţii normale N μ1 , σ 12 şi N μ 2 , σ 22 , o selecţie ) ( )
(
aleatoare din x11 , x12 ,..., x1n1 din populaţia N μ1 , σ 12 şi o selecţie aleatoare )
(
x 21 , x 22 ,..., x 2 n2 din populaţia N μ 2 , σ 22 . )
Variabila aleatoare

Z=
( )
X 1 − X − ( μ1 − μ 2 )
=
(
X 1 − X 2 − ( μ1 − μ 2 ) )
este, dupa cum s-a
(
D X1 − X 2 ) σ 12 σ 22
+
n1 n2
aratat anterior, repartizată N(0,1).

2.6.2.2.Cazul dispersiilor necunoscute, dar presupuse egale


În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale
σ 12 = σ 22 = σ 2 utilizăm dispersia ponderată de selecţie
∑ (x )
− X 1 + ∑1 2 ( x2i − X )
2
(n − 1)s12 + (n2 − 1)s22
n1 n 2
1i
s 2
= 1 = 1

n1 + n2 − 2 n1 + n2 − 2
p

ca un estimator nedeplasat pentru σ 2


.

După cum s-a arătat anterior, mărimea Tn1 + n2 − 2 =


(X 1 )
− X 2 − ( μ1 − μ2 )
1 1
sp +
n1 n2
este repartizată T (n1 + n2 − 2)

2.6.2.3.Cazul observaţiilor perechi


In cazul când observaţiile formează în mod natural perechi, cum ar fi de
exemplu când se măsoară concentraţiile în n probe, fiecare din ele cu două
metode diferite sau cazul când două medicamente se administrează unui
aceluiaşi lot de voluntari, în două perioade diferite.
Considerăm în acest caz variabila aleatoare d = X 1 − X 2 .
În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi
()
zero: E d = 0 .

56
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

Când se cunosc dispersiile avem D d = σ = () 2


d
σ 12
n
+
σ 22
n
şi variabila

este repartizată N (0,1) .


d
aleatoare
σd
Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine
d
cont că variabila aleatoare după cum se poate arăta uşor, este
sd
n
repartizată Student cu n-1 grade de libertate.

2.6.2.4. Compararea proporţiilor


Dacă vom considera un experiment în care răspunsul este de tip da sau
nu, de exemplu vindecare sau nevindecare, supravieţuire sau moarte, etc.,
numărul de rezultate k de un anumit tip în n repetări ale experimentului este
o variabilă aleatoare repartizată binomial.
Deoarece avem, după cum s-a calculat anterior E (k ) = np şi
D(k ) = npq , variabila aleatoare standardizată
k
−p
k − E (k ) k − np n
z= = = se aproximează ca fiind normal repartizată.
D(k ) npq pq
n
Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu
parametrii (probabilitatea bilei albe) p1 şi respectiv p 2 . În două selecţii din
cele două populaţii, de volum n1 şi respectiv n 2 presupunem că s-a obţinut
răspuns “pozitiv” de k1 şi respectiv k 2 ori.
k
Fie hi = i , i = 1,2 . În cazul ipotezei nule H 0 : p1 = p 2 = p , variabila
ni
aleatoare h1 − h2 va fi distribuită cu media 0 şi dispersia
p1 (1 − p1 ) p 2 (1 − p 2 ) ⎛1 1⎞
D(h1 − h2 ) = + = p(1 − p )⎜⎜ − ⎟⎟
n1 n2 ⎝ n1 n2 ⎠

57
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

În aceste condiţii se aproximează că variabila aleatoare


h1 − h2
va fi repartizată N (0,1) .
⎛1 1⎞
p (1 − p )⎜⎜ + ⎟⎟
⎝ n1 n 2 ⎠
k1 + k 2
O estimare naturală a lui p este p = .
n1 + n2
O îmbunătăţire a aproximării se poate obţine prin introducerea unor
⎛ 1 ⎞ ⎛ 1 ⎞
⎜ h1 − ⎟ − ⎜ h2 − ⎟
2n1 ⎠ ⎝ 2n2 ⎠
“corecţii de continuitate” pentru h1 şi h2 : Z = ⎝
⎛1 1⎞
p (1 − p ) ⎜ + ⎟
⎝ n1 n2 ⎠

2.6.3. Estimarea dispersiei


Considerăm o selecţie de volum n dintr-o populaţie normală N μ , σ 2 . ( )
Conform celor arătate anterior variabila aleatoare V =
( n − 1) s 2

este
σ2
repartizată χ 2 (n − 1) .

2.6.3.1.Estimarea raportului a două dispersii


Se consideră selecţia aleatoare x11 , x12 ,..., x1n1 dintr-o populaţie
N (μ1 , σ 2
1 ) şi o selecţie aleatoare x 21 , x 22 ,..., x 2 n2 dintr-o populaţie
N (μ 2 , σ 2
2 ).
s12
σ 12
Conform cu cele arătate anterior, raportul F = este repartizat
s 22
σ 22
F (n1 − 1, n2 − 1) .
s12
Se calculează F = 2
luându-se s12 〉 s22 .
s2

58
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

v=
(n − 1)s 2 =
∑ (x
n
1 i −X ) = ∑ [(x − μ ) − (X − μ )]
2 n
1 i
2

=
σ2 σ2 σ2

=
∑ (x
n
1 i
2
( )(
− μ ) − 2 X − μ n X − nμ + n X − μ) ( )
2

=
σ2
2
⎛ ⎞
=

n
(
1 i
x − μ )2
− n X (
− μ )
n⎛ xi − μ ⎞
= ∑1 ⎜
2

⎟ −

⎜ X −μ⎟

σ2 ⎝ σ ⎠ ⎜ σ ⎟
⎜ ⎟
⎝ n ⎠
x −μ ⎛ x − μ ⎞ E ( xi ) − μ
Dar i este repartizat N(0,1) căci E ⎜ i ⎟= = 0 şi
σ ⎝ σ ⎠ σ
⎛x −μ⎞
D2⎜ i ⎟ =1
⎝ σ ⎠
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).

2.6.3.2.Compararea mai multor dispersii.


a) Testul Bartlett pentru verificarea omogenităţii dispersiilor
Fie m estimări independente s1 , s 2 ,..., s m pentru dispersiile σ 1 , σ 2 ,..., σ m
pe baza unor selecţii de volume n1 , n2 ,..., nm .
Se pune problema verificării ipotezei privind egalitatea acestor dispersii
H 0 : σ 12 = σ 22 = ... = σ m2
În acest caz Bartlet a arătat că variabila aleatoare

(
2,303 k ln s 2 − ∑ k i ln s i2 = ln ) (s ) 2 k

∑ (s ) 2 ki
m
1 i

unde k i = ni − 1 , k = ∑ k i şi s dispersia ponderată a întregului set de date,


este repartizată χ 2 (m − 1) .

b) Testul rapid Cochran pentru selecţii de acelaşi volum


Daca selectiile considerate au acelasi volum n1 = n2 = ... = nk = n ,
2
s max
atunci se calculeaza valoarea G max = care se compară cu o valoare
∑s
k 2
1 i
maximă admisă pentru acceptarea ipotezei nule.
In formula de mai sus avem:
59
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

si2 =
1 n
∑ (
n − 1 j =1
)2
xij − xi si s max
2
= max 1≤i ≤ k s i2

Ipoteza H 0 se respinge daca Gmax 〉 c(α ) unde c(α ) se gaseste din


tabelele Cochran la perechea (k , n − 1) grade de libertate si la
probabilitatea P(Gmax 〈 c(α ))= 1 − α .
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru k ≤ 12 testul
max si2
H calc =
min si2
iar ipoteza H 0 se respinge daca H calc〉 H (α ) unde H (α ) se gaseste din
tabelele Hartley la probabilitatea P(H max 〈 H (α ))= 1 − α .

2.6.3.3. Aplicaţie: Utilizarea testului t în analiza comparativă a


medicamentelor
În compararea mediilor am utilizat testul t, numit şi testul Student.
Deoarece acesta este poate cel mai utilizat în analiza medicamentelor, vom
face câteva consideraţii asupra aplicării practice a acestuia.
La compararea efectului a două medicamente, la compararea
rezultatului determinărilor analitice cu valoare impusă de standardul de
control asupra medicamentului precum şi în multe alte situaţii, apar
rezultate diferite acolo unde ne aşteptăm ca acestea să fie egale. Ne punem
întotdeauna problema dacă, diferenţele constatate în practică sunt
“semnificative” sau nu. Deoarece rezultatele provin din testarea unor
eşantioane reduse, nu putem fi niciodată siguri în ceea ce priveşte parametrii
întregii populaţii. Totuşi, asumându-ne un risc mai mare sau mai mic,
trebuie să luăm decizii.
Dacă, de exemplu, dozăm cantitatea de substanţă activă din 10
comprimate care provin dintr-o şarjă de 1.000.000 de comprimate, alegerea
celor 10 comprimate se presupune că s-a făcut aleator şi ele reprezintă un
eşantion reprezentativ pentru întreaga şarjă. Problema este dacă, în funcţie
de valoarea medie a conţinutului pentru cele 10 comprimate şi variabilitatea
celor 10 valori, putem spune, asumându-ne un anumit risc, că valoarea
medie a concentraţiei în substanţa activă pentru tot lotul este cea declarată.
În acest caz aplicarea testului t în verificarea ipotezei asupra mediei, aşa
cum s-a arătat mai sus, este imediată.
La compararea mediilor a două selecţii independente, numite în
experimentele cu medicamente “grupuri paralele”, o atenţia deosebită

60
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice

trebuie acordată verificării independenţei efective a acestora. De exemplu la


testarea efectelor unui medicament asupra unui grup de pacienţi în
comparaţie cu un alt grup ce se numeşte placebo, trebuie avut în vedere că
pacienţii să nu se influenteze ca urmare a discuţiilor între ei. Dacă loturile
sunt de animale ce trăiesc în aceiaşi cuşcă, medicamentul poate favoriza sau
din contra, defavoriza un grup în lupta animalelor pentru hrană şi adaugă
efecte suplimentare asupra rezultatelor finale ale testului.
În sfârşit, un caz foarte frecvent în testările comparative ale efectelor
sau nivelelor plasmatice ale medicamentelor, este acela al observaţiilor
pereche, când lotul de subiecţi trataţi se constituie ca propriul martor.
Acestea oferă unele avantaje asupra experimentului pe grupuri paralele.
În primul rând, în experimentul pe grupe paralele, variabilitatea
rezultă din diferenţele de răspuns la medicament între cele două grupuri, aşa
numita “intervariabilitate”. În experimentul pereche apare
“intravariabilitatea”, variabilitatea în răspunsul aceluiaşi subiect la două
tratamente diferite şi avem motive să presupunem că aceasta este mai mică,
de regulă decât intervariabilitatea. Teoretic, intervariabilitatea include şi
intravariabilitatea şi deci nu poate fi mai mică decât aceasta. Din aceste
motive, testul pereche oferă avantajul unei variabilităţi mai mici.
Testul pereche oferă apoi avantajul că lotul poate fi mai mic. În
experimentul pe grupe paralele, de exemplu două loturi de 10 subiecţi
primesc două medicamente diferite. În experimentul pereche numai 10
subiecţi pot primi în prima administrare un medicament şi în a doua
perioadă al doilea medicament.
Desigur că acestă cuplare nu este întotdeauna posibilă. Când dozăm
cantitatea de substanţă activă din comprimate sau determinăm timpul de
dizolvare, acestea sunt consumate în timpul testării.
Trebuie menţionat că testul pereche prezintă dezavantajul că între
cele două tratamente trebuie să existe o perioada destul de lungă pentru ca
primul medicament administrat să se elimine din organism care, în cazul
medicamentelor cu timp de înjumătăţire mare cum ar fi de exemplu
piroxicamul, depăşeşte 30 de zile, in cazul clomifenului sau al penicilinei
retard fiind nevoie de perioada intre cele doua administrari, de mai multe
luni. În aceste situaţii se prelungeşte destul de mult timpul pentru
definitivarea studiului.
Deasemenea, efectul primului medicament, în cazul că
experimentele se fac pe pacienţi, poate duce la o îmbunătăţire a stării de
sănătate a acestora şi la o modificare considerabilă a răspunsului la al doilea
tratament.

61
II. Statistica matematica si biostatistica Teste neparametrice

2.7. Teste neparametrice

Testul t pentru compararea mediilor depinde, în special pentru


selecţiile de volum mic, de ipoteza că cele două populaţii sunt distribuite
aproximativ normal şi că dispersiile sunt practic egale.

De regulă, tehnicile statistice care se ocupă de variabilele continue


se bazează pe ipoteza că variabila aleatoare are o distribuţie normală de
bază. Ipoteza nu este atât de restrictivă, deoarece de multe ori este posibil să
o modificăm astfel încât să obţinem alta, aproximativ normal distribuită.
Suplimentar, dacă vom considera mediile, în concordanţă cu teorema limită
centrală, distribuţia mediei probelor se aproprie cu atât mai mult de
distribuţia normală, cu cât creşte volumul probelor.

Şi astfel, ca o concluzie practică, erorile se datorează mai curând


lipsei de constanţă a dispersiei sau lipsei de independenţă a variabilelor
decât deviaţiilor de la normalitate.

Pentru cazurile când nu stim distribuţia variabilei, o cale alternativă


este să aplicăm teste care nu necesită ipoteze despre tipul de distributie.

Testele independente de distributie, numite şi teste de rang,


înlocuiesc valorile variabilei cantitative observate cu rangurile lor. Testele
neparametrice sunt valabile şi pentru variabile normal distribuite, dar sunt
mai puţin eficiente, pentru acelaşi prag de semnificaţie fiind necesare
eşantioane mai mari decât pentru testele parametrice.

In acelasi timp este de retinut ca testele neparametrice nu sunt un


paraceu universal: aplicarea lor este posibila atunci cand sunt continue si
independente.

63
II. Statistica matematica si biostatistica Teste neparametrice

2.7.1. Media şi dispersia eşantioanelor dintr-o populaţie finită.

Să considerăm o populaţie finită de N elemente, la care asociem


numerele x1 , x 2 ,..., x N . Dacă presupunem că toate elementele au aceeaşi
1
probabilitate , putem calcula media şi dispersia populaţiei:
N
1
μ = E ( X ) = ∑1 xi pi = ∑1 xi
N N
(1)
N
şi
(2)
σ 2 = D( X ) = E (X 2 ) − (E ( X ))2 = ∑1 xi2 pi −
N
(∑
1
N
xi pi )
2
=

=
N
1 N 2
∑1
1
(
xi − 2 ∑1 xi =
N
N 2
)
⎛1 1 ⎞ N 2 N −1 N 2 2
= ⎜ − 2 ⎟∑1 xi2 − 2 ∑ xi x j = 2 ∑1
xi − 2 ∑x x i j
⎝N N ⎠ N i≠ j N N i≠ j

Multimea tuturor selecţiilor posibile de mărimea n din populaţie va include:


(x1 , x2 ,..., xn−1 , xn )
(x1 , x2 ,..., xn−1 , xn+1 )
.
.
.
(x N −n+1 , x N −n+ 2 ,..., x N )
Aceste probe sunt formate prin alegerea a n elemente din N. Există
C N căi de a alege o astfel de probă. Încă o dată, presupunem că fiecare
n

1
probă are aceeaşi probabilitate de a fi selectată, n .
CN
1 n
Să considerăm media selecţiei j: X j = ∑ x ji şi să considerăm
n i =1
( )
variabila aleatoare X = X j j =1, C Nn

Valoarea medie a variabilei X este

64
II. Statistica matematica si biostatistica Teste neparametrice

( )
C Nn C Nn
1
E X = ∑ X j pj = n ∑X j =
j =1 CN j =1

⎡1
( x + x + ... + x + x ) +
1
(x1 + x2 + ... + xn −1 + xn +1 ) + ⎤⎥
1 ⎢n 1 2 n −1 n
n
= n ⎢ ⎥
CN ⎢ 1 ⎥
(x
⎢⎣ n N − n +1
+ xN − n + 2 + ... + xN )
⎥⎦
Acum să considerăm de câte ori intră în sumă orice xi particular, să
spunem x1 . Probele care conţin x1 se obţin prin selectarea a (n-1) alte
elemente din populaţia disponibilă de (N-1) elemente şi, aceasta se poate
face în C Nn −−11 moduri. Vor fi deci C Nn −−11 probe conţinând x1 şi la fel se aplică
pentru fiecare xi .

C Nn =
N!
=
N (N − 1)! = N C n −1
n!( N − n )! n (n − 1)!( N − n )! n
N −1

În consecinţă
( ) 1 ⎛1 ⎞ 1 N
(3) E X = n ⎜ C Nn −−11 ∑1 xi ⎟ = ∑1 xi = μ
CN ⎝ n
N

⎠ N
ceea ce înseamnă că media mediei probei este egală cu media populaţiei.
Pentru calcularea dispersiei folosim identitatea

( ) − ( E ( X ))
( )
2 2
(4) D X = E X

Să considerăm E (X ) = ∑ X p
C Nn C Nn
1
∑X
2 2
2
j j = n j
j =1 CN j =1

Mai departe
C Nn 2 2
⎡1 ⎤ ⎡1 ⎤
∑ X = ⎢ ( x1 + x2 + ... + xn −1 + xn )⎥ + ... + ⎢ ( xN − n +1 + xN − n + 2 + ... + xN )⎥
2
j
j =1 ⎣n ⎦ ⎣n ⎦
Când ridicăm la pătrat fiecare termen, fiecare xi va deveni x i2 şi,
după cum vedem, fiecare xi apare de C Nn −−11 ori. Astfel

C N −1 (x1 + x 22 + ... + x N2 ) + ...


C Nn 2 1 n −1 2
(5) ∑ X j =
j =1 n2
Ridicarea la pătrat a sumei dă deasemenea termeni de forma x i x j şi
fiecare termen va apare de C Nn −−22 .
În consecinţă, putem scrie

65
II. Statistica matematica si biostatistica Teste neparametrice

(6)
C Nn
1
∑X
2
j =
1 ⎡ 1 n −1 2
n ⎢ 2
CN ⎣ n
( 2
) ⎤
C N −1 x1 + x22 + ... + xN2 + 2 CNn −−22 ( x1 x2 + ... + xN −1 xN )⎥
CNn j =1 n ⎦
Pentru a înlocui în (4) punem E X ( ( )) 2
în forma:
(7)
2

(E (X )) ⎡1 ⎤
= ⎢ ( x1 + x 2 + ... + x N −1 + x N )⎥ =
2

⎣N ⎦
x + x 2 + ... + x n 2( x1 x 2 + ... + x N −1 x N )
2 2 2
= 1 +
N2 N2
Substituind (6) şi (7) în (4) , obţinem:

( ) ⎛ 1 1 1 ⎞
(
D X = ⎜⎜ n 2 C Nn −−11 − 2 ⎟⎟ x12 + x 22 + ... + x N2 + )
⎝ CN n N ⎠
(8)
⎛ 1 2 2 ⎞
+ ⎜⎜ n 2 C Nn −−22 − 2 ⎟⎟( x1 x 2 + ... + x N −1 x N )
⎝ CN n N ⎠
Coeficientul lui (x12 + x 22 + ... + x N2 ) se poate scrie ca
1 1 n −1 1 1 1 n −1 1 1 1 N −n
n 2
C N −1 − 2 = 2
C N −1 − 2 = − 2 = 2
=
CN n N n −1 N n N nN N nN
C N −1
n
N − n N −1
=
n ( N − 1) N 2
şi coeficientul lui (x1 x 2 + ... + x N −1 x N ) este
1 2 n−2 2 2(n − 1) 2 2 N −n
C N −2 − 2 = − 2 =− 2
N (N − 1) n 2
N nN ( N − 1) N N n( N − 1)
C Nn −−22
n(n − 1)
Apoi substituind aceste rezultate în (8), obţinem:

(9) D X =( ) (N − n ) ⎧ N − 1 (x 2 + x 2 + ... + x 2 ) − 2 (x x + ... + x x )⎫


⎨ N −1 N ⎬
n( N − 1) ⎩ N 2
1 2 1 2
N2
N

Partea din { } este exact σ , astfel încât
2

σ2 N −n σ2 ⎛ n −1 ⎞
(10) D X = ( ) n N −1
= ⎜1 −
n ⎝ N −1 ⎠

66
II. Statistica matematica si biostatistica Teste neparametrice

Observam ca avem aparent o contradictie cu regula:


⎛ ∑ xi ⎞ 1 nσ 2 σ 2
( )
D X = D ⎜⎜ ⎟⎟ = 2 ∑ D ( xi ) = 2 =
⎝ n ⎠ n n n
In fapt, in aceasta regula X este media unui experiment repetat de n
ori, de exemplu, extragerea consecutive, una cate una a n bile, pe cand X
de mai sus semnifica extragerea a n bile dintr-odata.
De exemplu, selectia (1,1, ... ,1) nu este posibila in cazul nostru si
altfel nici o repetare, toate elementele selectate fiind distincte.
σ2
Este de notat că dacă N → ∞ , atunci dispersia lui X →, forma
n
ei obişnuită pentru o populaţie infinită, sau pentru experimentul de tip
extracţie din urnă cu întoarcerea bilelor extrase în urnă.

2.7.2. Testul de rang Wilcoxon

Testul de rang Wilcoxon 1 este un test cu ipoteza nulă că două


populaţii sunt identice, fată de ipoteza alternativă că ele diferă printr-o
translaţie lineară. Testul înlocuieşte observaţiile prin rangurile lor. Rangurile
sunt repartizate la valorile din selecţii în ordinea creşterii mărimii fără să
ţină cont de probele cărora le aparţin.
Să presupunem că o probă este de mărime n şi alta de mărime N-n.
Testul presupune că orice combinaţie de ranguri în aceste două grupuri este
egal probabilă. Numărul total de moduri de grupare a rangurilor este C Nn .
Consideram urmatorul exemplu
Nivelele plasmatice maxime ale ionului EDTA 4− după administrare
i.m.
Tabelul 3.
Voluntar CE IA BL PM MC DP SL
Prima zi 33,3 25,1 22,8 32,4 23,7 48,33 33,04
rangurile 9 3 1 7 2 11 8
a-3-a zi 25,4 31,2 28,4 39,2
rangurile 4 6 5 10

Privind rezultatele în a treia zi de tratament la proba de mărime n,


suma rangurilor este 4+6+5+10=25. Combinaţiile de ranguri pentru care
1
F.Wilcoxon: Individual comparisons by ranking methods, Biometrics Bul.,180-83,1947

67
II. Statistica matematica si biostatistica Teste neparametrice

putem obţine o sumă a rangurilor mai mică decât aceasta, pentru un n = 4


dat sunt
1+2+3+4=10, 1+2+3+5=11, 1+2+3+6=13, 1+2+3+7=14,
1+2+3+8=15 etc.
După cum se poate vedea nu este uşor să calculăm toate
posibilităţile, astfel încât vom folosi faptul că media rangurilor unei probe
este distribuită aproximativ normal cu parametri care sunt calculati în
continuare.
Sunt disponibile tabelele care dau limitele de acceptare a ipotezei
H 0 pentru suma obţinută, ca o funcţie de n, N şi riscul asumat. Pentru
exemplul nostru găsim în tabele, pentru α = 0,05 , n1 = 4 şi n2 = 7
intervalul 11 – 25.
Fie R suma rangurilor şi R media rangurilor probei de mărime n.
1
()
Conform (1), valoarea medie a lui R este E R = ∑1 xi .In cazul nostru
N
N

xi sunt rangurile de N valori însemnând numerele 1,2,….,N. În consecinţă


1 N ( N + 1)
() 1
N
N 1
E R = ∑1 xi = (1 + 2 + ... + N ) =
N N 2
⇒ER =
N +1
2
()
Calculul lui σ dă:
2

σ 2 = D( X ) = E (X 2 ) − (E ( X ))2 = ∑1 xi2 − 2 ∑1 xi =
1 N
N N
1 N 2
( )
(∑ i ) 1 N ( N + 1)(2 N + 1) 1 ⎛ N ( N + 1) ⎞
2
1 1 2 N 2 −1

N 2 N
= i − = − 2⎜ ⎟ =
N 1
N2 1
N 6 N ⎝ 2 ⎠ 12

Dispersia lui R se obţine prin înlocuirea lui σ în (10)


n − 1 ⎞ N 2 − 1 N − n ( N + 1)(N − n )
()
(11) D R =
σ2 ⎛
⎜1 −
n ⎝ N −1⎠
⎟=
12n N − 1
=
12n
N +1
În concluzie, variabila aleatoare
R−E R ( )= R−
2 va fi
D (R ) (N + 1)(N − n )
12n
repartizată aproximativ N (0,1) .
Intr – o notatie alternativa N poate fi notat cu n1 + n2 , n cu n1 si N–n
cu n2 obtinandu-se:

68
II. Statistica matematica si biostatistica Teste neparametrice

n1 + n2 + 1
R−
Z= 2
( 1 2 + 1) n2
n + n
12n1
Se mai utilizeaza si alta forma a formulei. Se amplifica cu n1 , se
obtine Rn1 = R si
n1 ( n1 + n2 + 1)
R−
Z= 2
( n1 + n2 + 1) n1n2
12
Kruskal si Wallis 2 au observat ca aproximaţia este îmbunătăţită când
valoarea α este mai mare de 0,02 prin aducerea lui R mai aproape de media
1
lui cu .
2n
În literatura medicală şi biologică testul se mai numeşte Mann –
Whitney şi se utilizează notaţiile n = n1 şi N − n = n2 ( n1 ≤ n2 ).
Când cel puţin unul din numerele n1 şi n 2 sunt mai mici decât 10,
distribuţia de probabilitate a sumei rangurilor pozitive R se poate calcula
direct. Intervalele de încredere cu diverse probabilităţi (0,95; 0,99; etc.)
pentru R se găsesc în tabele.
25
In exemplul nostru n = 4, N = 11, R = 25, R = = 6,25 şi
4
N +1 11 + 1
R− 6, 25 −
2 2 0, 25
Z= = = = 0,19
( N + 1)( N − n ) (11 + 1)(11 − 4 ) 7
12n 12* 4 4
Valoarea obţinută ne asigură că nu apare o acumulare a EDTA la
orice nivel de risc α din cele uzual utilizate.
Dacă facem corecţia pentru continuitate

2
W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am.
Stat. Assoc.,47,583-621,1952

69
II. Statistica matematica si biostatistica Teste neparametrice

N +1 1 11 + 1 1
R−
+ 6, 25 − +
Z= 2 2 n = 2 8 = 0,375 = 0, 285
( N + 1)( N − n ) (11 + 1)(11 − 4 ) 7
12n 12* 4 4
concluzia nu se schimba.

2.7.3. Ajustarea pentru valori egale în testul Wilcoxon


Dacă apar egalităţi, o alternativă pentru neglijarea lor este de a
repartiza la aceste observaţii media rangurilor pe care le-ar fi primit dacă nu
erau egale.
Să considerăm un grup de k egalităţi. Numerele întregi m+1, m+2,
…, m+k sunt înlocuite cu media lor.
k (k + 1)
km +
(m + 1) + (m + 2) + ... + (m + k ) = 2 = m+
k +1
k k 2
Suma pătratelor (x1 + x 2 + ... + x N ) este astfel redusă prin
2 2 2

( k + 1) ⎤ =
2

( m + 1) + ( m + 2 ) + ... + ( m + k )
2 2 2
− k ⎢m + ⎥
⎣ 2 ⎦
k ( k + 1)
2

km + 2 (1 + 2 + ... + k ) m + (1 + 2 + ... + k ) − km − km ( k + 1) −
2 2 2 2 2
=
4
k ( k + 1) k ( k + 1)( 2k + 1) k ( k + 1)
2

=2 m+ − k ( k + 1) m − =
2 6 4
k ( k + 1) ( k − 1) k ( k + 1) = T
= ( 4k + 2 − 3k − 3) =
12 12 12
Suma rangurilor rămâne neschimbată. Astfel:

( ) 1 ⎛ N (N + 1)(2 N + 1) T ⎞ 1 ⎡ N ( N + 1) ⎤
2
1 N 1 2
σ 2 = ∑1 xi2 − 2 ∑1 xi = ⎜
N
− ⎟− 2 ⎢ ⎥ =
N N N⎝ 6 12 ⎠ N ⎣ 2 ⎦
2 N ( N + 1)(2 N + 1) − T − 3 N ( N + 1)
2
= =
12 N

=
N ( N + 1)(4 N + 2 − 3 N − 3) − T N N 2 − 1 − T
=
( )
12 N 12 N
N ( N − 1) − T N − n
2

şi D R = ( ) 12nN N −1

70
II. Statistica matematica si biostatistica Teste neparametrice

2.7.4. Teste referitoare la perechi de observaţii

2.7.4.1.Testul semnelor

Să considerăm nivelele plasmatice maxime xi ale unui medicament


după o primă administrare la un număr de n voluntari sănătoşi şi yi nivelele
plasmatice maxime după trei zile de tratament. Fie ρ (x, y ) probabilitatea de
apariţie a valorilor x şi y. Dacă medicamentul nu se acumulează în
organism, cele două seturi de concentraţii sunt selecţii ale aceleiaşi populaţii
şi ρ ( xi , y i ) = ρ ( y i , xi ) pentru toate perechile.

Aceasta implică simetria lui ρ (x, y ) faţă de linia y − x = 0 .


Să definim variabila aleatoare z = y − x .
1 1
Avem că P ( y 〈 x ) = P( y 〉 x ) = sau P( y − x 〈 0 ) = P( y − x 〉 0 ) = care
2 2
1
este mai departe echivalent cu P (z 〈 0 ) = P( z 〉 0) = . Astfel z va avea o
2
mediană zero.
Mai departe definim variabilele z i după cum urmează
z i = 1 pentru z i 〉0
şi z i = 0 pentru zi 〈 0 .
Presupunem continuitatea distribuţiei de grup originală ρ (x, y ) , z va fi
deasemenea continuă, şi “intersecţiile” (cazurile xi = y i ) vor avea
probabilitatea zero.
z i sunt independente, astfel încât suntem în situaţia binomială de a face
1
n încercări independente, probabilitatea de succes z i = 1 fiind la fiecare
2
1
încercare. Astfel, ∑1 z i are o distribuţie binomială cu parametrii p = şi
n

2
n.
Distribuţia de grup ρ (x, y ) poate fi diferită în fiecare încercare, însă de
1
fiecare dată P ( z i = 1) = şi astfel distribuţia lui ∑1 z i va fi neschimbată.
n

71
II. Statistica matematica si biostatistica Teste neparametrice


Alternativa ipotezei nule este ca în locul lui xi să avem xi = xi − d i ,
ceea ce înseamnă că fiecare xi descreşte cu o cantitate d i , unde d i 〉 0 . În
acest caz ρ ( x′, y ) nu va mai fi simetric, ci deplasat spre stânga şi
′ ′ 1
P( z i 〉 0 ) = P⎛⎜ y i − xi 〉 0 ⎞⎟ = P⎛⎜ y i 〉 xi ⎞⎟〉 .
⎝ ⎠ ⎝ ⎠ 2
Astfel, P( z i 〉 0) nu va mai fi în mod necesar constantă şi distribuţia lui
∑z
n
1 i
nu va mai fi o distribuţie binomială.
Testul semnelor, dă pentru probabilitatea a k diferenţe pozitive
i n −i
⎛ n k 1⎞ n i⎛1⎞ ⎛ 1⎞ 1 n
P⎜ ∑1 zi ≥ , p = ⎟ = ∑ ziCn ⎜ ⎟ ⎜1 − ⎟ = n ∑ Cni =
⎝ n 2 ⎠ i =k ⎝2⎠ ⎝ 2⎠ 2 i=k
1 n n −i 1 n−k j
= ∑ n 2n ∑
2n i = k
C =
j =0
Cn

În cazurile simple, pentru k şi n mici, această probabilitate se poate


calcula direct.
Pentru valori mai mari, se poate folosi aproximaţia normală.
Sa luăm în considerare valorile nivelelor plasmatice ale ionului EDTA 4−
(Tabelul3) după administrarea i.m. la patru voluntari sănătoşi.
Tabelul nr. 4:
Voluntar CE IA BL PM
Prima zi 33,3 25,1 22,8 32,4
a-3-a zi 25,4 31,2 28,4 39,2
zi -7,9 +6,1 +5,6 +6,8

zi 0 1 1 1

Avem
⎛ 4 3 1 ⎞ 1 4− 4 1 1
P⎜ ∑ z i 〉 , p = ⎟ = 4 ∑ C 4j = 4 C 40 = 4 = 0,06
⎝ 1 4 2 ⎠ 2 j =0 2 2
ceea ce înseamnă că putem accepta ipoteza nulă privind egalitatea
constantei de eliminare în prima zi cu cea din ziua a treia.
Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a
distributiei binomiale:
1 1
P− −
Z= 2 2n
1 1
n* *
2 2

72
II. Statistica matematica si biostatistica Teste neparametrice

unde p este proportia diferentelor pozitive.


2.7.4.2.Testul Wilcoxon pentru observaţii perechi
Wilcoxon a propus deasemenea un test pentru determinări pare în care
rangurile sunt atribuite mărimii absolute a diferenţelor şi apoi se dă
rangurilor semnul diferenţelor.
Ipoteza nulă este că distribuţia diferenţelor este simetrică faţă de zero,
astfel orice rang este pozitiv sau negativ cu aceiaşi probabilitate. Valorile
egale primesc ca rang media rangurilor grupului.
Numărul total de moduri de sume de ranguri ce se pot obţine este 2 N .
Să ataşăm rangurilor i variabilele aleatoare di ce iau valorile di=1 când i
este pozitiv şi di=0 când i este negativ, se foloseste insa cea mai mica
valoare dintre suma rangurilor pozitive si a celor negative.
Să considerăm suma rangurilor pozitive s = ∑ d i i .
( )
Media ei va fi E (s ) = E ∑1 d i i = ∑1 iE (d i )
N N

1 1 1 N 1 N ( N + 1)
Dar E (d i ) = 1 ∗ + 0 ∗ = şi E (s ) = ∑1 i =
2 2 2 2 4

( )
⎛ N ⎞
E ( s 2 ) = E ∑1 idi = E ⎜ ∑1 i 2 di2 + 2∑ ijdi d j ⎟ =
N 2

⎝ i≠ j ⎠
= ∑1 i 2 E ( di2 ) + 2∑ ijE ( di d j )
N

i≠ j

Însă E (d i2 ) = 12 ∗
1 1 1
+ 0 2 ∗ = si
2 2 2
E (d i d j ) = 0 ∗ 0 ∗ + 0 ∗ 1 * + 1 * 0 * + 1 * 1 * =
1 1 1 1 1
4 4 4 4 4
În consecinţă
E (s 2 ) = ∑1 i 2 + ∑ 2ij = ∑1 i 2 + ⎡ ∑1 i − ∑1 i 2 ⎤
1 N
2
1
4 i≠ j
1 N
2
1
4⎣⎢
N 2
( ) N
⎥⎦
Acum putem calcula dispersia lui s
1 N 2 1 ⎡⎛ N ⎞ ⎤ 1 ⎛ N ⎞2
2

( )
N
D(s ) = E s − (E (s )) = ∑1 i + ⎢⎜ ∑ i ⎟ − ∑ i ⎥ − ⎜ ∑ i ⎟ =
2 2 2

2 4 ⎢⎣⎝ 1 ⎠ 1 ⎥⎦ 4 ⎝ 1 ⎠
1 N N ( N + 1)(2 N + 1)
= ∑ i2 =
4 1 24

73
II. Statistica matematica si biostatistica Teste neparametrice

În cazul în care apar egalităţi,


(k − 1)k (k + 1)
trebuie să fie scăzut pentru
48
fiecare grup de egalitati. O alternativă este de a scoate toate valorile egale
din probă.
Să considerăm acum observaţiile pare din experimentul ce a dus la datele
din tabelul 5.

Tabelul 5. Nivelele plasmatice maxime ale EDTA 4− după


administrarea i.m.

Voluntar CE IA BL PM
Prima zi 33,3 25,1 22,8 32,4
a-3-a zi 25,4 31,2 28,4 39,2
Diferenţa -7,9 +6,1 +5,6 +6,8
di 0 1 1 1
Rangul -4 2 1 3 S=3+2+1=6

În acest caz avem N=4 si


N ( N + 1)
s−
s − E (s ) 4 6−5
z= = = = 0,27 care este foarte
D (s ) N ( N + 1)(2 N + 1) 4*5*9
24 24
apropiat de valorile obţinute anterior.

2.7.4.3. Testul H, Krusskal – Wallis, de analiza a variatiei “pe o


cale” aplicata rangurilor
Testul H, sau testul Kruskal – Wallis 3 este o generalizare a testului
Wilcoxon în cazul a k probe, k 〉 2 . La fel ca şi în testul Wilcoxon,
observaţiile primesc ranguri, şi media rangurilor Ri se calculează pentru
fiecare grup.
(N + 1)(N − ni )
( )
E Ri =( )N +1
2
şi D 2 Ri =
12ni
R
unde R i = i si R =
ni
R
N

3
W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion analysis of variance,
J.Am.Stat.Assoc.,47,583-621,1952

74
II. Statistica matematica si biostatistica Teste neparametrice

Raportul
Ri − E Ri ( ) va fi repartizat N (0,1) , conform teoremei limita
D2 (R )i

centrala.

Kruskal şi Wallis au arătat că suma pătratelor lor, cu un factor de


⎛ n ⎞
ponderare ⎜⎜1 − i ⎟⎟ are aproximativ distribuţia χ 2 (k − 1)
⎝ N⎠
2
⎡ ⎤
⎢ N +1 ⎥
Ri −
⎛ ni ⎞
H = ∑ ⎢⎢ ⎥
K
2
⎜1 − N ⎟ ≅ χ ( k − 1) ⇒
2

i =1
⎢ ( N + 1)( N − ni ) ⎥ ⎝ ⎠
⎢⎣ 12ni ⎥⎦

( R − R) ( ) ( )
2 2 2
K
N − ni K 12n R − R 12∑ ni Ri − R
H =∑ =∑
i i i
⋅ =
i =1 ( N + 1)( N − ni ) N i =1 N ( N + 1) N ( N + 1)
12ni
deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor
si media totala, testul este in esenta un fel de ANOVA pe o cale si se aplica
si atunci cand datele nu sunt normal repartizate, cu dispersii egale.
Am folosit,
JG 2 Ri2
( )
2
∑i i ∑ i i ∑ ii ∑ n − NR =
2 2
n R − R = n R − 2 R R n + N R =
i

( N + 1)
2
R2
=∑ i −N
ni 4
In final H se mai poate scrie :
12 Ri2
H=
N ( N + 1)
∑ n − 3 ( N + 1)
i

Dacă apar valori egale, H trebuie să fie împărţit la factorul 1 −


∑T
N3 − N
unde T = ( k − 1) k ( k + 1) = k 3 − k este calculat pentru fiecare grup de
legături.
Pentru probe mici aproximaţia nu este prea bună şi Kruskal şi Wallis au
dat tabele pentru k=3 şi ni ≤ 5.

75
II. Statistica matematica si biostatistica Teste neparametrice

Să aplicăm testul pentru acelaşi experiment, considerând două grupuri


de observaţii după prima administrare şi un grup de observaţii după a – 5- a
administrare:
Nivelele plasmatice maxime ale ionului EDTA 4− după administrarea i.m.
sunt în tabelul3.
9 + 3 +1+ 7 2 + 11 + 8 4 + 6 + 5 + 10
R1 = = 5 , R2 = = 7 si R3 = = 6,25
4 3 4
2
⎡ ⎤ ⎡ ⎤
2

⎢ N +1 ⎥ 11 + 1
Ri − ⎢ 5− ⎥
H = ∑⎢ 2 ⎥ ⎛⎜1 − ni ⎞⎟ = ⎢ 2 ⎥ ⎛⎜1 − ⎞⎟ +
4


(N + 1)(N − ni ) ⎥⎥ ⎝ N ⎠ ⎢ (11 + 1)(11 − 4) ⎥ ⎝ 11 ⎠
⎢ ⎥
⎢⎣ 12ni ⎥⎦ ⎣ 12 * 4 ⎦
2 2
⎡ 11 + 1 ⎤ ⎡ 11 + 1 ⎤
⎢ 7− ⎥ ⎢ 6,25 − ⎥
+⎢ 2 ⎥ ⎛⎜1 − 3 ⎞⎟ + ⎢ 2 ⎥ ⎛⎜1 − ⎞⎟ =
4
⎢ (11 + 1)(11 − 3) ⎥ ⎝ 11 ⎠ ⎢ (11 + 1)(11 − 4) ⎥ ⎝ 11 ⎠
⎢ ⎥ ⎢ ⎥
⎣ 12 * 3 ⎦ ⎣ 12 * 4 ⎦
4 7 3 8 6,25 * 4 7 9,5
= + + = = 0,86
7 11 8 11 7 11 11
Dat fiindcă χ 22;0, 05 = 0,103 valoarea obţinută pentru test aparţine
zonei de acceptare, ipoteza ca grupurile sunt selectate din aceiaşi populaţie
este acceptată.

2.7.5. Alegerea între testele laplaciene şi testele neparametrice


Testele nonparametrice au o putere mai mică decât cele clasice,
deoarece înlocuirea valorilor cu rangurile lor semnifică pierderea a o parte
din informaţie. De exemplu am spune ca doi boxeri sunt de aceiasi valoare
deoarece fiecare a câţtigat câte 5 meciuri din 10 întâlniri dintre ei. În
condiţia în care în ultima întâlnire A l-a omorât pe B, concluzia trebuie
schimbată, deoarece diferenţa de valoare între ei la ultimul meci a fost cu
mult mai mare decât celelate diferenţe.
Această pierdere de informaţie este reală în cazul testelor
neparametrice atunci când efectiv variabilele aleatoare sunt repartizate
normal şi au dispersiile egale. În caz contrar se poate întâmpla ca un test
neparametric să fie chiar mai eficient decât cele parametrice.
In altă ordine de idei, aplicarea testelor neparametrice în cazul
selecţiilor de volume mari, este foarte laborioasă. Ca urmare, conduita de
urmat în alegerea unui tip sau altul de test ar fi după cum urmează:
76
II. Statistica matematica si biostatistica Teste neparametrice

1. În cazul eşantioanelor mici sunt de preferat testele neparametrice


deoarece calculele sunt mai rapide şi eficienţa este comparabilă cu cea a
testelor clasice.
2. Când se ştie că selecţiile aparţin la populaţii repartizate normal şi cu
dispersii egale, testele clasice sunt mai eficiente.
3. Când nu se cunosc repartiţiile variabilelor, alegerea şi concluziile se
vor face în funcţie de alte informatii privitoare la experiment.
4. Când se ştie că variabilele aleatoare testate nu sunt repartizate
normal sau este vorba de variabile care se bazează pe o scală arbitrară
(“scoruri”) sau clasificări pe criterii preponderant calitative (de exemplu
“ameliorarea” stării subiecţilor trataţi) se apelează la testele neparametrice.

2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul Friedman 4


Consideram compararea a k esantioane de aceeasi marime, ni = k .
In acest caz datele se inscriu intr- o matrice. Daca rangurile le
stabilim pe fiecare linie, de exemplu,

Tabelul nr. 6
subiect Valoarea masurata a dozei
A B C
1 1 2 3
2 2 1 3
3 1 2 3
4 1 3 2
5 1 3 2
Ri 6 11 13

Putem testa daca se produce o crestere semnificativa a valorilor


masurate (de exemplu cmax ) o data cu cresterea dozei, aplicam testul
Friedman
12
χ c2−1 =
lc ( c + 1)
∑ Ri2 − 3l ( c + 1)

unde l este numarul de linii si c este numarul de coloane.

4
Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973

77
II. Statistica matematica si biostatistica Teste neparametrice

78
II. Statistica matematica si biostatistica Regresia liniara

2.8. Regresia liniară


Dreptele sunt construite din mulţimi de perechi de date, X şi Y.
Două asemenea perechi (de exemplu două puncte) definesc în mod unic o
dreaptă.
Y = A + BX
unde :
• A reprezintă interceptul lui Y (valoarea lui Y când X=0) şi
• B este panta
ΔY Y −Y
B= = 2 1
ΔX X 2 − X 1
pentru oricare două puncte de pe dreaptă.

fig. 1.
Panta şi interceptul definesc dreapta: pentru oricare A şi B date,
dreapta este definită. În exemplul elementar a două puncte date, o
aproximare statistică pentru a defini dreapta nu este necesară.
Dacă reprezentarea grafică a două mărimi ce sunt observate simultan
sugerează o dependenţă liniară, ajungem la problema determinării dreptei ce
descrie “cel mai bine” această dependenţă. Cazurile din farmacie cele mai
frecvente in acest sens privesc chimia analitica, unde semnalul este
proportional, intre anumite limite, cu concentratia, legea Lambert-Beer
fiind cel mai cunoscut exemplu. In acelasi timp, se incearca sa se simplifice
lucrurile prin « liniarizare » in studiile de stabilitate ale medicamentelor. In
terapie, o intrebare obligatorie la care trebuie sa raspunda prezentarea
oricarui medicamente se refera la “liniaritatea farmacocineticii”.
După cum s-a discutat la capitolul privind extremele funcţiilor de
mai multe variabile, o soluţie a acestei probleme o constituie “dreapta prin
cele mai mici pătrate”, dreapta pentru care suma pătratelor distantelor de la
ea la punctele experimentale este minimă. Această soluţie consideră
punctele ca fiind “exacte”. Problema capătă cu totul altă înfăţişare atunci

79
II. Statistica matematica si biostatistica Regresia liniara

când punctele experimentale sunt considerate valori ale unor variabile


aleatoare, devenind o problemă de statistică matematică şi analiză numerică
în acelaşi timp.
dependenta semnalului masurat de fitare liniara, dar dependenta non-
concentratie liniara

25 120
100
20
80
15
60
10 40

5 20
0
0
0 5 10 15 -20 0 5 10 15

Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile.
a. dependenta este efectiv liniara dar datele sunt afectate de erori,
b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara

In general, chiar daca nu constientizam acest fapt, de fiecare data cand


incercam sa gasim o dependenta liniara intre doua variabile, facem implicit
urmatoarele ipoteze:
1. Variabila X este masurata fara eroare. Desi nu este totdeauna
adevarat, cel mai adesea X este masurat cu erori relativ mici, si in aceste
conditii presupunerea poate fi considerata adevarata. In cazul unor teste
privind un medicament administrat in mai multe doze, X este doza
“nominala” care se considera ca a fost administrata. Eroarea in “dozare”
este foarte mica.Un alt exemplu de variabila X care este adesea folosit
este timpul care poate fi masurat cu suficienta precizie si acuratete.
2. Pentru fiecare X, y este independent si normal distribuit. Adesea
vom folosi notatia Y.x pentru ă arata ca valoarea lui Y este o functie de X.
3. Variatia lui y se presupune a fi aceeasi pentru fiecare X. Daca
variatia lui y nu este constanta, dar este fie cunoscuta, fie asemanatoare cu
cea a lui X intr-un anume fel, sunt alte metode pentru a estima panta si
ordonata dreaptei .
4. Intre X si Y exista o relatie de liniaritate. Y = A + BX , unde A si B
sunt parametri adevarati. Bazandu-ne pe teorie sau experiente, avem motive
sa credem ca X si Y sunt corelate liniar. In fig. 2b se vede ca dreapta care
aproximeaza “cel mai bine” dependenta intre cele doua variabile nu

80
II. Statistica matematica si biostatistica Regresia liniara

corespunde legii reale care guverneaza fenomenul, “cel mai bine” nefiind
de fapt bine.
Aceste premise sunt descrise în:

Fig. 3. Media si dispersia in regresia liniara

Exceptând poziţionarea (media, valoarea medie) distribuţia lui y este


aceeaşi la fiecare valoare a lui X. În exemplul acesta, media distribuţiei lui y
descreşte pe măsură ce creşte X (panta e negativă).

In cazul studiilor de stabilitate, dependenta concentratiei substantei


active de timp este, in cel mai bun caz o exponentiala
c (t ) = c0e − kt
Dar , pentru valori mici ale lui t exponentiala este aproximata de o
dreapta
c (t ) = c0e − kt ≈ c0 (1 − kt )
Ca parametri esentiali ai cineticii de degradare se folosesc, in locul
constantei de viteza k , timpul de injumatatire si timpul de “siguranta” sau
timpul la care concentratia scade la 90 % din valoare sa initiala.
Examinăm în continuare aspectele matematice pentru cazul cel mai
simplu când valorile variabilei x (care în cele mai multe cazuri corespunde
timpului) nu sunt afectate de erori şi, pentru fiecare valoare a lui x
corespund un număr de valori y, determinate într-un singur experiment
printr-o metodă afectată de erori întâmplătoare:
y11 , y12 ,..., y1n1 , pentru x1
..
y i1 , y i 2 ,..., y ini , pentru xi , i=1,2,…,k
Cazul când pentru orice i avem ni = 1 este relativ mai simplu, dar
este de subliniat că şi în cazul când aceştia sunt diferiţi de 1 poate fi tratat în
81
II. Statistica matematica si biostatistica Regresia liniara

aceiaşi manieră admitând că între perechile (xi , y i ) să fie şi perechi cu


acelaşi xi .
Să admitem că pentru un x fixat, valoarea măsurată y este o variabilă
aleatoare cu urmatoarea structură:
(1) y = η + ε = α + β x + ε
distribuită normal cu dispersia σ 2 şi media η = α + βx
Problema care ne-o punem este aceea ca, din datele
experimentale yi , să obţinem nişte estimări a, b şi s2 pentru α, β si σ2, şi să
determinăm distribuţiile acestor estimaţii.
Estimarea ecuaţiei de regresie o notam :
(2) Y = a + bx
Metoda celor mai mici pătrate dă valorile a şi b care minimizează
suma pătratelor deviaţiilor (erorilor) între valorile observate yi şi cele
prezise de ecuaţia de regresie (2):
(3) SS E = ∑ ( y i − Yi ) = ∑ ( yi − a − bxi )
2 2

Metoda este în principal datorată lui Gauss. Pentru aflarea


parametrilor a şi b, nu este necesară ipoteza privind distribuţia normală a
erorilor, dar aceasta este necesară pentru construirea unor intervale de
încredere şi pentru testarea unor ipoteze privind aceiaţi estimatori. Metoda
celor mai mici pătrate oferă avantajul că estimatorii pe care îi dă sunt
deplasaţi şi au o dispersie minimă în clasa estimatorilor nedeplasaţi.
Valorile lui a şi b care minimizează suma pătratelor erorilor sunt
soluţiile sistemului
⎧ ∂SS
⎪⎪ ∂a = 0 ⎪⎧ −2∑ ( yi − a − bxi ) = 0 ⎧⎪ na + b∑ xi = ∑ yi
⎨ ⇔⎨ ⇔⎨ (4)
⎪ ∂SS
=0 ⎪
⎩ − 2 ∑ ( yi − a − bx i )xi = 0 ⎪
⎩ a ∑ x i + b ∑ xi
2
= ∑ xi yi
⎪⎩ ∂b
Rezolvând sistemul prin regula lui Cramer se obţin ca estimatori
pentru α şi β:
∑ Yi ∑ xi − ∑ xi ∑ xi y i
2
n ∑ xi y i − ∑ xi ∑ y i
a= şi b =
n ∑ xi − (∑ xi ) n ∑ xi2 − (∑ xi )
2 2 2

Numărătorul expresiei lui b poate fi scris şi în forma


⎛ x
(

)
n ∑ x i y i − ∑ x i ∑ y i = n⎜ ∑ x i y i − ∑ i ∑ y i ⎟ = n ∑ x i − x y i
n
⎝ ⎠
( ) ( )
Deoarece ∑ xi − x = 0 şi y ∑ xi − x = 0 , mai putem scrie

82
II. Statistica matematica si biostatistica Regresia liniara

( ) ( )
∑ xi − x y i = ∑ xi − x y i − y ∑ xi − x = ∑ xi − x y i − y ( ) ( )( )
Similar, după cum se poate uşor verifica, avem:
n ∑ xi2 − (∑ xi ) = n ∑ xi − x
2
( )
2

În consecinţă, o formă alternativă pentru b este b =


(
∑ xi − x y i − y )( ).
∑ xi − y ( )
2

Putem verifica uşor că b este un estimator nedeplasat pentru β.


Presupunem valoarea aşteptată yi dată de ecuaţia α + βxi , pentru un x = xi .
Atunci:

E (b ) =
( ) (
∑ xi − x E yi − y = ∑ xi − x (α + β xi ) = ) ( )
( ) ( )
2 2
∑ xi − x ∑ xi − x
1
∑ ( x − x) + β ∑( x − x) x ∑x ( ∑ xi )
2
2
i −

i i i
= 0+β n =β
∑ ( x − x) ∑ ( x − x) ∑( )
2 2 2
i i xi − x
Dispersiile lui a şi b pot fi obţinute direct, deoarece sunt funcţii
liniare de yi , care valori sunt presupuse independente şi distribuite normal,
cu dispersia σ 2 :

D(b ) = D ⎢ ⎥ =
(
⎡ ∑ x − x y ⎤ ∑ x − x 2 D( y ) )=
σ2 ( )
))
i i

(
i i
2
⎢⎣ ∑ xi − x ⎥⎦ (
∑ xi − x
2 2
) ∑ xi − x ( ( )2

Din prima ecuaţie a sistemului (4) avem: a = Y − b X .


⎛ ∑ yi ⎞ 1 σ2
D(a ) = D⎜ ⎟ + x D(b ) = 2 ∑ D( y i ) + x
2 2
=
⎝ n ⎠ n ∑ xi − x ( ) 2

(∑ xi )2 (∑ xi )2
∑x − + 2
⎛1 x
2
⎞ 2 i
=σ ⎜
2
+ ⎟ = σ 2 n n2 =
⎜n
⎝ (
2 ⎟
∑ xi − x ⎠ )
n ∑ xi − x
2
( )
2
∑ xi σ2 ∑ xi
2
= = D(b )
(
n ∑ x −x 2
i
n )
Deci, S a =
∑x 2
i
Sb2
n

83
II. Statistica matematica si biostatistica Regresia liniara

2.8.1. Estimaţii şi ipoteze asupra coeficientului b


Coeficientul b are o importanţă deosebită şi prin aceea că el
reprezintă o măsură a corelării între x şi y.
1. Coeficientul b este, după cum s-a arătat, repartizat normal cu media
σ2
β şi dispersia
(
∑ xi − x )
2

2. Dacă yi sunt punctele experimentale, iar Yi estimările lor teoretice,


Yi = a + bxi , suma pătratelor erorilor va fi SS E = ∑ ( yi − Yi ) . Vom
2

arăta că:
⎛ SS ⎞
E⎜ E ⎟ = σ 2
⎝n−2⎠
Pentru a demonstra aceasta relaţie plecăm de la definiţia sumei erorilor
SS E = ∑ [ y i − (a + bxi )] =
2

[( ) (
= ∑ y i − y + y − a − bxi )] = ∑ [(y − y ) + (a + b x − a − bx )] =
2
i i
2

= ∑ [(y − y ) − b(x − x )] = ∑ (y − y ) − 2b∑ (x − x )(y − y ) + b ∑ (x − x )


2 2 2 2
i i i i i i

∑ (x − x )(y − y )
şi putem înlocui ∑ (x − x )(y − y ) = b ∑ (x − x ) .
2
Dar b = i i

∑ (x − x )
2 i i i
i

Deci avem SS = ∑ (y − y ) − b ∑ (x − x ) = A − B
2 2 2
E i i

Calculăm separat E ( A) şi E (B ) .
[
E ( A) = E ∑ y i − y ( ) ] = E (∑ y
2 2
i − ny
2
) = E (∑ y ) − nE (y )2
i
2

În continuare, folosind identitatea D (Y ) = E (Y 2 ) + (E (Y )) şi faptul că


2

()
E y = α + β x şi D y = () σ2
n
obţinem

⎡ σ2⎤
( )
2
E ( A ) = ∑ ⎡(α + β xi ) + σ 2 ⎤ − n ⎢ α + β X
2
+ =
⎣ ⎦ ⎣ n ⎥⎦

= ∑ ⎡(α + β xi ) − α + β X ( ) ⎤⎥⎦ =
2 2

⎢⎣

84
II. Statistica matematica si biostatistica Regresia liniara

⎡ σ2⎤
( )
2
= ∑ ⎡(α + β xi ) + σ 2 ⎤ − n ⎢ α + β X
2
+ ⎥=
⎣ ⎦ ⎣ n ⎦

= ∑ ⎡(α + β xi ) − α + β X ( ) ⎤⎥⎦ =
2 2

⎢⎣
( )(
= ∑ α + β xi + α + β X α + β xi − α − β X = )
= β ∑ ( x − X ) ( 2α + β ( x + X ) ) = β ⎡ 2α ∑ ( x − X ) + β ( x + X ) ⎤ =
i ⎣ i ⎦ i i

= β ∑( x − X ) = β (∑ x − n X ) = β ∑( x − X ) =
2 2 2
2 2 2 2 2
i i i

nσ 2
( ) ( )
2 2
= nσ 2 − + β 2 ∑ xi − x = ( n − 1) σ 2 + β 2 ∑ xi − x
n

Mai departe,
( ) ( )
E (B ) = ∑ x i − x E b 2 = ∑ x i − x
2
( ) [D(b) + (E (b)) ] =
2 2

2⎛ ⎞
(
= ∑ xi − x ⎜
σ2
)
⎜ ∑ (x − X )2
+ β 2⎟

⎝ i ⎠
şi deci,

E (SS E ) = (n − 1)σ 2 + β 2 ∑ (xi − X ) − β 2 ∑ (xi − X ) − σ 2 = (n − 2 )σ 2


2 2

SS E
3. Variabila aleatoare este repatizată χ 2 (n − 2) .
σ 2

Pe baza acestor trei proprietăţi putem estima intervalele de încredere


pentru β şi verifica ipoteze asupra valorilor sale.

a) Cazul dispersiilor cunoscute


În cazul în care se cunoaşte dispersia erorilor de măsurare
D (ε i ) = D ( y i ) = σ 2 se foloseşte faptul că variabila
b−β b−β
aleatoare z = = este repartizată N (0,1) .
D(b )
1
⎡ σ2 ⎤ 2

⎢ ⎥
2
⎢⎣ ∑ xi − x ⎥⎦ ( )
85
II. Statistica matematica si biostatistica Regresia liniara

b) Cazul dispersiilor necunoscute


σ2
În acest caz se înlocuieşte dispersia lui b: σ b = cu
(
∑ xi − x )
2

∑ ( y i − Yi )
2
SS E
estimatorul numit “ dispersia de selecţie”: S b = n−2 = n−2 2 .
∑ xi − x
2
∑ xi − x ( ) ( )
Variabila aleatoare
b−β
b−β σb Z
T= 1
= 1
=
⎡ ⎤ 2 ⎡ SS ⎤ 2 χ 2 n−2
SS E E
⎢ ⎥ ⎢
(
⎢⎣ (n − 2 )∑ xi − x ⎥⎦
2
) ⎣ (n − 2 )σ 2 ⎥⎦ n−2

este repartizată Student cu n-2 grade de libertate.


Ca urmare putem determina intervalele în care se află β cu diverse
probabilităţi sau verifica ipoteze privind valoarea lui, exact cum este utilizat
testul t pentru testarea ipotezei privind media necunoscută.
Intervalul de încredere pentru β este:
b−t α Sb 〈 β 〈 b + t α Sb
n − 2 ,1− n − 2 ,1−
2 2

2.8.2. Estimarea dispersiei punctelor dreptei de regresie


Considerăm un punct x 0 fixat şi punctul corespunzător lui: y 0 , pe
dreapta de regresie y
y = α + βx + ε = a + bx
Y = a + bx
y 0 = a + bx0 = Y − b x + bx0
( )
y 0 = Y + b x0 − x estimatia lui y 0 este o variabilă aleatoare distribuită
normal.
Avem E (Y0 ) = Y0 = α + βx0 şi
σ2 σ2
( ) (x )
2 2
D ( y0 ) = σ y20 = σ y2 + σ b2 x0 − x = + −x
∑ ( x − x)
2 0
n
i

86
II. Statistica matematica si biostatistica Regresia liniara

⎡ x0 − x ⎤ ( )
2
SS E 2 ⎢1 ⎥.
Estimând valoarea lui σ prin s = 2
avem s y0 = s
2 2
+
n−2 ⎢n
∑ xi − x ⎥⎥⎦ ( )
2

⎢⎣
y − (α + βx0 )
Variabila aleatoare T = 0 este repartizată Student cu
s y0
n − 2 grade de libertate şi permite calculul intervalelor de încredere pentru
α + βx0 .
⎛ ⎛ − 2
⎞ ⎛ − 2
⎞ ⎞
⎜ ⎜x− x⎟ ⎜x− x⎟ ⎟
1 1
⎜ 0 α ,n − 2 ( Y . x ) n α ,n − 2 ( S Y . x )
⎜ y −t S + ⎝ ⎠ ,y +t + ⎝ ⎠ ⎟
⎛ − 2

0
n − 2 ⎟

⎜ ∑ ⎜⎝ x − x ⎟⎠ ∑ ⎜⎝ x − x ⎞⎟⎠
⎛ ⎟

⎝ ⎠
Dispersia sY0 depinde de distanţa între x 0 şi x , iar limitele de
incredere ale lui Y pentru valori specifice ale lui x depind de dispersie,
numarul gradelor de libertate, numarul de puncte utilizate pentru
determinarea dreptei si valoarea sa este minimă atunci când x0 = x . În acest
caz, y0 = Y şi s y 0 = s y .
Facem observaţia că dispersia determinată în punctul y 0 este
dispersia datorată regresiei. Valorile experimentale nu sunt însă valori ale
( )
regresiei y 0 = Y + b x0 − x , estimate de drepta de regresie. În acest caz,
valoarea individuală determinată diferă faţă de valoarea Y0 printr-o eroare ε,
a cărei dispersie este egală cu σ 2 , variabilitatea datelor individuale faţă de
valorile corespunzătoare regresie Y.
Ca urmare, valorile individuale vor avea dispersia:

σ 2
=σ +2 σ2
+σ 2 (x − x )
0
2

∑ (x − x )
y0 2
n
i

⎡ ⎤
( )
2

2 ⎢ 1 x − x
ceea ce , pentru valorile de selecţie devine s y0 = s 1 + +
2 0
⎥.
⎢ n
∑ xi − x ⎥⎥⎦ ( )
2

⎢⎣

87
II. Statistica matematica si biostatistica Regresia liniara

2.8.3. Calculul intervalelor de încredere pentru dreapta de regresie în


cazul stabilităţii formelor farmaceutice.
In cazul studiilor de stabilitate avem doua tipuri de probleme.
Pentru o concentratie data, de exemplu 90 % din cea initiala, in afara de
timpul de pe dreapta de regresie cand se atinge acest prag, ne intereseaza si
marginea inferioara a intervalului de timp, deci timpul pentru care suntem
siguri ca nu a scazut concentratia sub 90 %. Din punct de vedere al
sigurantei pacientilor , este mai bine sa contam pe acest timp.
FDA sugereaza ca ar fi mult mai potrivita abordarea folosind un
interval de incredere unilateral decat unul bilateral pentru a estima data de
expirare. Pentru cele mai multe produse, continutul in substanta activa poate
doar sa descreasca in timp, si numai marginea inferioara a intervalului de
incredere vs. curba timpului pot fi considerata relevanta. (o exceptie poate
fi in cazul produselor lichide unde evaporarea solventului duce la cresterea
concentratiei substantei active).
Pentru a obtine acest domeniu de valori pentru X (timpul pentru
continutul de minim 90%) folosind metoda estimatiei grafice asa cum
este descrisa mai sus, presupune calcularea bandei de incredere pentru un
domeniu suficient de intins pentru X.

Fig. 5. Banda de incredere 95% pentru linia de « stabilitate »

“Banda” de încredere are formă de hiperbolă şi ilustrează variaţia


lărgimii intervalului de încredere pentru diferite valori ale lui X, respectiv
Y.

88
II. Statistica matematica si biostatistica Regresia liniara

Calcularea intervalului de incredere pentru un X la o valoare


specifica lui Y este

− ⎡ ⎛ − 2
⎞ ⎛ − 2
⎞ ⎤

( X − g X ) ± [t ( S y ) / b] (1 − g ) / N + ⎜ X − X ⎟ / ∑ ⎜ X − X ⎟ ⎥
⎢⎣ ⎝ ⎠ ⎝ ⎠ ⎥⎦
1− g

unde g =
( )
t 2 S y2
2
⎛ −

b ∑⎜ X − X ⎟
2

⎝ ⎠
Aceasta procedura de estimare a lui X pentru o valoare data a lui Y
se numeste adesea “predictie inversa”.

2.8.4. Studiul stabilităţii medicamentelor


Exemplul 1: Studiul stabilităţii în cazul comprimatelor de vitamina B1
(tiamimă).
Măsurătorile privind rata de descompunere a unui medicament au
mare importanţă în studiile despre medicamente, datele de stabilitate fiind
de regulă analizate prin metode statistice. Stabilirea unei date de expirare a
medicamentului defineşte pragul de viaţă a acestuia. În mod tipic,
medicamentul este stocat/depozitat în condiţii variate de temperatură,
umiditate, lumină (intensitate a luminii) ş.a.m.d. şi este analizat gradul de de
stabilitate/descompunere a medicamentului la intervale de timp specificate.
Experţii stabilesc datele de expirare a medicamentului bazându-se pe
datele ştiinţifice referitoare la stabilitatea medicamentelor. Condiţiile fizice
ale testului stabilităţii (de exemplu: temperatură, umiditate), durata testării,
programul analizei, ca de altfel şi numărul loturilor, sticlelor şi tabletelor
trebuie analizate luând probe pentru studiile de stabilitate. O definiţie şi o
implementare atente a acestor condiţii sunt importante deoarece validitatea
şi precizia recomandării termenului fina de expirare depinde de cum este
realizat experimentul.
Reglementările GMP (Good Manufacturing Practice) stabilesc
criteriile statistice, incluzând mărimea probelor test in functie de cele de
referinţă (observarea şi măsurarea), intervalele pentru fiecare
atribut/caracteristică măsurată fiind folosite pentru asigurarea validităţii
estimărilor statistice de stablitate. Termenul de expirare trebuie să fie
“statistic valid”.

89
II. Statistica matematica si biostatistica Regresia liniara

Mecanismul determinării duratei de viaţă a medicamentului poate fi


complex, mai ales atunci când sunt utilizate condiţii extreme, cum ar fi cele
pentru “accelerarea” studiilor de stabilitate (de exemplu temperatură ridicată
şi condiţii de umiditate ridicate).
De obicei condiţiile extreme sunt utilizate în testarea stabilităţii
pentru a economisi timpul şi pentru a obţine o dată de expirare mai aproape
de realitate. Toate produsele trebuie testate pentru stabilitate şi în condiţiile
recomandate de producător (deci nu accelerate). FDA a sugerat ca cel puţin
trei loturi de produse să fie testate pentru a li se determina termenul de
expirare. Este necesar a se înţelege că pentru loturi diferite se pot obţine
rezultate de stabilitate diferite, mai ales în situaţiile în care excipienţii pot
afecta stabilitatea. În aceste cazuri variaţia între calitate şi cantitate a
aditivilor (excipienţilor) între loturi poate afecta stabilitatea. O altă cauză
pentru care se folosesc mai multe loturi pentru testarea/determinare
stabilităţii este acela de a asigura că toate caracteristicile de stabilitate sunt
similare de la un lot la altul.
Intervalurile de timp alese pentru analiza păstrării probelor-martor
depind de caracteristicile majore ale produsului şi de stabilitatea anticipată.
Un model “statistic” optim pentru studiul stabilităţii ţine seama de timpul de
depozitare prevăzut până când medicamentul va fi supus analizei. Această
problemă este dezbătută pe larg de literatura farmaceutică. Totuşi, modelele
rezultate din asemenea premise sunt de obicei greoaie şi nepractice. De
exemplu, din punct de vedere statistic, panta eficacităţii/concentraţiei
funcţie de timpul (graficul ratei descompunerii) se obţine cu mai multă
precizie dacă jumătate din totalul punctelor observate sunt obţinute la
timpul 0, iar cealaltă jumătate la finalul timpului de testare. Numitorul
creşte în aceste condiţii, invers proporţional cu variabilitatea pantei.
În situaţiile practice se va urmări informaţia privind punctele de la
începutul şi finalul analizei pentru a evaluarea ratei descompunerii pe durata
studierii procesului de stabilitate precum şi verificarea linearităţii ratei de
descompunere în funcţie de timp. Cu cât se studiază mai multe puncte
experimentale se îndeplinesc mai bine cerinţele regulatorii ale FDA-ului.
Cei mai folosiţi timpi pentru efectuarea analizelor sunt la timpii t: 0, 3, 6, 9,
12, 18 şi 24 luni şi apoi la intervale anuale de timp.
Să luăm în considerare o anumită formulare (ex.: comprimate) care
fac obiectulul studiului stabilităţii. Se aleg trei tablete la întâmplare, se
analizează la: 0,3, 6, 9, 12 şi 18 luni, după producţie, în condiţiile
temperaturii camerii (20 de grade Celsius). Datele sunt prezentate în tabelul
de mai jos.

90
II. Statistica matematica si biostatistica Regresia liniara

Timp X (luni) Concentratia Y * Media


0 51, 51, 53 51,7
3 51, 50, 52 51,0
6 50, 52, 48 50,0
9 49, 51, 51 50,3
12 49, 48, 47 48,0
18 47, 45, 49 47,0
Luând în considerare aceste date, se propune stabilirea termenului de
valabilitate care se defineşte ca durata de timp de la data fabricaţiei până
când un comprimat conţine 90% din substanţa activă declarată. Produsul
luat în considerare are o concentraţie declarată de 50 mg şi cu o specificaţie
tehnică care prevede o supradozare de 4%; în acest caz producătorul va
fabrica tablete cu o concentraţie de 52 mg de substanţă activă.
Figura arată că datele sunt variabile. O examinare atentă a acestui
grafic sugerează că dreapta este reprezentarea adecvată a acestor date.
54
53
52
Concentratie (mg)

51
50
49
48
47
46
45
44
0 2 4 6 8 10 12 14 16 18 20
timp (luni)

Aplicarea metodei dreptei celor mai mici pătrate este cel justificată
în situaţiile în care există un model teoretic care să arate că scăderea în
concetraţie este lineară în raport cu timpul (în acest exemplu, un proces de
ordin zero).
Cinetica scăderii concetraţiei substanţei active în timpul depozitării
în cazul formelor dozate solide este complexă şi un modelul este greu de
conceput. În cazul de faţă, se presupune că concetraţia şi timpul sunt în
relaţie lineară:
C ( t ) = C0 − kt
unde
• C(t) = concentraţia la timpul t
• C0 = concentraţia la timpul 0 (interceptul Y, A)
91
II. Statistica matematica si biostatistica Regresia liniara

• k = constanta
• t = timpul de depozitare
Având ca obiectiv estimarea perioadei de valabilitate a
medicamentului, cea mai uşoară metodă de analiză a acestor date este
estimarea pantei şi interceptului dreptei celor mai mici pătrate.(La o primă
vedere putem estima panta şi interceptul “din ochi” (metodă grafică).
Când facem calculele celor mai mici pătrate, reţinem că fiecare
valoare a timpului (X) este asociată cu trei valori ale concentraţiei
medicamentului (y). Dacă calculăm C0 şi K, fiecare valoare de timp este
numărată de trei ori şi N este egal cu 18.
Avem:
∑ X = ( 0 + 0 + 0) + (1 + 1 + 1) + .... + (18 + 18 + 18) = 144
∑X 2
= ( 02 + 0 2 + 0 2 ) + (12 + 12 + 12 ) + .... + (182 + 182 + 182 ) = 1782

X=
( 0 + 0 + 0 ) + (1 + 1 + 1) + .... + (18 + 18 + 18) = 8
18
∑ y = ( 51 + 51 + 53) +.... + ( 47 + 45 + 49 ) = 894
∑ y = ( 51
2 2
+ 512 + 532 ) +.... + ( 47 2 + 452 + 492 ) = 44476
51 + 51 + 53 + ... + 47 + 45 + 49
y= = 50
18
∑ Xy = ( 0*51 + 0*51 + 0*53) +.... + (18*47 + 18* 45 + 18*49 ) = 6984
∑( X − X )
2
= 3* ⎡( 0 − 8 ) + ... + (18 − 8 ) ⎤ = 630
2 2
⎣ ⎦
∑( y − y)
2
= ( 51 − 50 ) + ( 51 − 50 ) + ( 53 − 50 ) + ... + ( 49 − 50 ) = 74
2 2 2 2

Avem:
n∑ Xy − ∑ X ∑ y 18*6984 − 144*894
b= = = −0, 267 mg / luna
n∑ X 2 − ( ∑ X ) 18*1782 − 1442
2

894
a = y −b* X = − ( −0, 267 ) *8 = 51,80
18
Ecuaţia dreptei de regresie este:
C ( t ) = 51,80 − 0, 267 * t

Ca estimare a dispersiei folosim:

92
II. Statistica matematica si biostatistica Regresia liniara

SSE ∑ ( y − yith ) ∑( y − y) ( )
2 2
− b2 ∑ X − X
exp 2
i i
= = =
n−2 n−2 n−2
(∑ y)
2

( )
2
∑y 2

n
− b2 ∑ X − X
= =
n−2
44476 − 8942 /18 − ( −0, 267 ) *630
2

= = 1,1825
18 − 2

Calcularea timpului în care concetraţia comprimatului este de 90%


din cantiatea de substanţă activă declarată, adică 45 mg, se foloseşte ecuaţia
C ( t ) = 51,80 − 0, 267 * t pentru calcularea lui t (timpul) pentru o concetraţie
de 45 mg (C = concetraţia la care comprimatul conţine 90% din substanţa
activă declarată).
C = 51,80 − 0, 267 * t ⇒ t = 25, 5 luni
Estimarea timpului la care concetraţia comprimatului va fi de 90%
din cantitatea declarată iniţial (se regăsesc 45 mg de substanţă activă după
25,5 luni de la data fabricaţiei). Aceasta este un rezultat mediu bazat pe
datele a 18 tablete.
Pentru o singură tabletă, timpul de descompunere la 90% din
cantitatea declarată de substanţă activă variază în funcţie de cantitatea de
substanţă activă iniţială (la t = 0, t este timpul).
Cu toate acestea, perioada de valabilitate a medicamentului se
estimează pe baza rezultatelor mediilor.

Exemplul 2:Studiul stabilitǎţii tiaminei (forma farmaceuticǎ – comprimate)


In tabelul următor se va lua un studiu al stabilitaţii tiaminei
(vitamina B1).
timpul (luni) t concetratia in tiamina C (mg/tableta)
0 100
3 98.9
6 98.1
9 96.8
12 96.2
0 + 3 + 6 + 9 + 12
Timpul mediu este: t = = 6 luni
5
În tabelul urmator sunt calculate:

93
II. Statistica matematica si biostatistica Regresia liniara

(t − t ) (C )
2 2

t −t Cd Cd − C d −C
t C
0 6 36 100 100 0 0
3 3 9 98.9 99 0.1 0.01
6 0 0 98.1 98 -0.1 0.01
9 3 9 96.8 97 -0.2 0.04
12 6 36 96.2 96 0.2 0.04
total=90 Total=0.1
unde:
C = concentratia in tiamina (mg/tableta)
Cd = concentratia calculata din dreapta de regresie
t = timpul
Dispersia se obţine astfel:
0 + 0, 01 + 0, 01 + 0, 04 + 0, 04 SSE
s2 = = 0, 03 , adică s = = 0,18
5−3 n−2
tα ,n − 2 = t0,1;5− 2 = t0,1;3 = 2,35 (avem 3 grade de libertate)
Ts = s * tα ,n − 2 = 0,18* 2,35 = 0, 423

Dar, pentru un t fixat, considerand si eroarea de determinare experimentala:

(t − t )
2
1
C ( t ) = C0 − k0t − Ts 1 + +
∑ (t − t )
2
n

Se obţine un interval de încredere de 95% egal cu:


(t − 6)
2

100 − 0,3* t ± 0, 423 1, 2 +


∑ (t − 6)
2

Pentru t=0 se obtine


100 ± 0, 423 1, 6 = 100 ± 0, 423*1, 264 = 100 ± 0,535 ⇒ [99, 465 ;100,535]

Daca vom considera numai eroarea fata de dreapta de regresie


⎡1
s y0 = s ⎢ +
2 (
x0 − x ⎤
2
)
⎥ . Vom putea construi un interval de incredere
( 2
⎢⎣ n ∑ xi − x ⎥⎦ )
pentru punctul y fixat (deci o concentratie data).

94
II. Statistica matematica si biostatistica Regresia liniara

y0 − (α + βx0 )
Variabila aleatoare T = este repartizată Student cu n-
s y0
2 grade de libertate şi permite calculul intervalelor de încredere pentru
α + βx0 .
⎛ ⎛ −

2
⎛ −

2 ⎞
⎜ ⎜ x − x⎟ ⎜ x − x⎟ ⎟
⎜ ⎟
⎜ y 0 − t α , n − 2 (S Y . x ) α , n − 2 (S Y . x )
1 1
+ ⎝ ⎠ , y +t
2 0 + ⎝ ⎠
2 ⎟
⎜ N ⎛ −
⎞ N ⎛ −
⎞ ⎟
⎜ ⎜x − x⎟ ⎜x − x⎟ ⎟
⎝ ⎝ ⎠ ⎝ ⎠ ⎠
unde SY . x = s = 0, 03 ; 1/n=1/5=0.2
Se obţine un interval de încredere de forma:

(t − t )
2

100 − 0,3* t ± 0, 423 0, 2 +


∑ (t − t )
2

Pentru t=0, concentratia activa initiala este estimata :


36
100 ± 0, 423 0, 2 + = 100 ± 0,327 ⇒ [99, 673 ;100,327 ]
90

2.8.5. Regresia ponderata

Una din presupunerile implicite in aplicarea inferentei statistice este


acela ca variatia lui y este aceeasi la fiecare valoare a lui X. Apar multe
situatii in practica atunci cand aceasta presupunere nu este respectata. Un
caz frecvent este acela cand variatia lui y este proportionala cu X. Aceasta
apare cand y are un coeficient constant al variatiei (CV) si y este
proportional cu X (y = BX), observat de obicei in metodele de analiza
instrumentala in chimia analitica.

Doua din abordarile posibile in rezolvarea acestei probleme sunt:


a) O transformare a lui y pentru a face variatia omogena, cum ar fi
transformarea logaritmica .
b) O analiza de regresie ponderata.

95
II. Statistica matematica si biostatistica Regresia liniara

O pondere uzuala in chimia analitica pentru valoarea la concentratia Xi


1
este inversul patratutului acesteia 2 . Deci, in formulele pentru calculul
Xi
yi
coeficientilor A si B valorile yi se vor inlocui cu valorile wi y i =
X i2

2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia

Se numesc reziduuri diferentele intre valorile calculate prin regresie si


cele experimentale ( ceea ce , in alt context, numeam ca „erori”)
Examinarea reziduurilor poate dezvalui variatia heterogenitatii sau
nonlinieritatea.

Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate
sunt valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-
ar trebui sa apara nici o tendinta.

Figura 6 arata un grafic al reziduurilor ca functie de X. Faptul ca


reziduurile prezinta o forma de palnie, marindu-se pe masura ce X creste,
sugereaza folosirea unei transformari logaritmice sau utilizarea unor
ponderi pentru a reduce heterogeneitatea variatiei.

96
II. Statistica matematica si biostatistica Regresia liniara

Valori reziduale
Valori reziduale logaritmate

10 10
9 9
8 8
7
7
Valoare reziduala

Valori reziduale
6
6
5
5
4
4
3
3
2
2
1
1
0
0 50 100 0
Concentratia 1 2 Concentratia
3 (ln)
4 5

Fig. 6a Valorile reziduale in raport cu Fig.6b Valorile reziduale in raport cu


distributia normala distributia log normala. Mare parte din
heterogenitatea variatiei a fost inlaturata.

Consideram o variabila aleatoare y care depinde liniar de variabila


aleatoare x :
y = α + βx
Atunci cand facem determinarile experimentale noi nu stim nici daca
cele doua variabile se coreleaza liniar si nici care este dreapta care descrie
dependenta lor. Putem insa, prin analiza datelor experimentale sa
determinam, prin metoda celor mai mici patrate, o estimare a dreptei
yˆ = a + bx
daca vom considera un set de determinari ( y ij ) j =1, N corespunzatoare pentru
j

un xi dat :

97
II. Statistica matematica si biostatistica Regresia liniara

Distanta de la un punct dat y ij la y se poate descompune in trei


componente: distanta pana la y i - media punctelor y ij , distanta de la media
grupului la valoarea estimata prin dreapta ŷi si distanta de la punctele de pe
dreapta la media totala y :
( ) (
y ij − y = y ij − y i + y i − yˆ i + yˆ i − y ) ( )
Ridicand la patrat, sumand si tinand cont ca sumele de produse mixte sunt
zero, se obtine :
∑ (y ) = ∑ (y ) + ∑ N (y ) + ∑ N (yˆ )
2 2 2 2
ij −y ij − yi i i − yˆ i i i −y
sau
SS T = SS eroare + SS deviatie de la linearitat e + SS linearitat e
Observam ca, daca toate punctele ar fi pe o dreapta SS deviatie de la linearitat e va fi
zero, deci aceasta suma este o masura a corelarii liniare.
Intr-adevar :
yˆ − y = a + bx − a − bx = b x − x = r
Sy
Sx
(x−x ) ( )
Facem observatia ca datele pot fi aproximate foarte bine dupa o alta lege (de
exemplu y = k x cum este in cazul in care se aplica la dizolvare legea lui
Higuchi).
Se definesc coeficientul de corelatie si a raportului de corelare ca :

98
II. Statistica matematica si biostatistica Regresia liniara

SS sY2 − sY2 SS linear + SS deviatie de la linearitate


r 2 = linear si η 2 = 2
X
=
SS total sY SS total
• Raportul de corelare η 2 este proportia de variabilitate a lui
Y atribuabila covariantei cu X ;
• Coeficientul de determinare (corelatie) este proportia de variabilitate
a lui Y atribuabila covariantei liniare cu X .

Legatura intre panta dreptei de regresie si coeficientul de corelatie

Avem dupa definitie


1 ⎛ xi − x ⎞⎛ y i − y ⎞
r=
N
∑ ⎜⎜ S
⎟⎜
⎟⎜ S ⎟

⎝ x ⎠⎝ y ⎠
In cazul in care punctele yi sunt toate pe o dreapta y i = a + bxi

1 ⎛ x − x ⎞⎛ a + bxi − a − b x ⎞ 1 b∑ xi − x ( )
2

r=
N
∑ ⎜⎜ iS ⎟⎟⎜⎜ S
⎟=
⎟ N SxSy
⎝ x ⎠⎝ y ⎠
∑ (a + bx ) (
b 2 ∑ xi − x )
2 2
i − a − bx
dar, S 2
y = = = b 2 S x2
N N
Deci, inlocuind mai sus
1 ⎛ x − x ⎞⎛ a + bxi − a − b x ⎞ 1 b∑ xi − x ( )
2

r=
N
∑ ⎜⎜ iS ⎟⎟⎜⎜ S
⎟=
⎟ N SxSy
⎝ x ⎠⎝ y ⎠

r=
1 b∑ xi − x ( S2
= x2 = 1
)2

N S x bS x Sx
Cand punctele nu sunt pe dreapta, panta dreptei prin cele mai mici
patrate b este:

b=
( )( ) ( )(
∑ xi − x y i − y = ∑ xi − x y i − y = ∑ xi − x y i − y S y = r S y ) ( )( )
∑ x −x ( 2
i
S x2) SxSy Sx Sx
Sy
Deci, b = r
Sx

99
II. Statistica matematica si biostatistica Regresia liniara

2.8.7. Stabilitatea dreptei de regresie in bioanalitica


In bioanalitica si in chimia analitica in general, pentru fiecare
concentratie, la stabilirea dreptei “de etalonare” se fac mai multe
determinari.
Curbele de etalonare (dreptele) trebuie sa treaca prin origine; adica
in cazul acesta rezultatul trebuie să fie 0 dacă concentraţia de medicament
este 0. Calcularea pantei este simplificată dacă dreapta este forţată să treacă
prin punctul de (0, 0). În cazul acesta nostru, dacă interceptul este zero,
panta este:

b=
∑ Xy
∑X2

Fig. 7. Curba care trece prin origine si are interceptul 0

Dacă această dreaptă urmează să fie folosită pentru a prevedea


concetraţiile actuale bazându-se pe rezultatele analizei experimentale, vom
obţine răspunsuri care sunt diferite faţă de cele previzionate de dreapta
trasată anterior. Cu toate acestea, ambele drepte au fost construite din
acelaşi date experimentale. “Este vre-o dreapta care este corecta?” sau “Este
una din cele 2 drepte mai “buna” decat cealalta?”. Desi nu putem spune cu
încredere care dreapta este mai potrivita, este necesara o cunoastere a
metodei analitice este foarte importanta in luarea deciziilor pentru una dintre
cele 2 drepte.
De exemplu, un intercept diferit de zero, sugerează fie non-
linearitatea pentru un sir de analize fie prezenţa unei substanţe care
interferează în proba de analizat.
Dreapta pe care o vom folosi se va face pe baze statistice. Un test
statistic al interceptului poate fi pornind de la ipoteza nula ca interceptul
este 0, (H0: A = 0). Respingerea ipotezei este o dovadă puternică că dreapta
cu intereceptul pozitiv este cea mai adecvata pentru aceste date.

100
II. Statistica matematica si biostatistica Regresia liniara

Se calculeaza apoi “acuratetea” sau “exactitatea “ acestor


determinari, cuantificata prin distanta valorii calculate prin regresie

Piroxicam

3.5 Linear Regression


Y = B*X + A
3.0 Parameter Value Error
A -0.0029 0.0079
2.5 B 0.3294 0.0019
Area Analit/Area SI

R 0.9999
2.0

1.5

1.0

0.5

0.0
0 2 4 6 8 10 12
Conc (µg/mL)

Fata de concentratia “nominala’, concentratia care s-a preparat


efectiv ( pe care o consideram ca nu este afectata de erori). In momentul in
care media determinarilor efective la una din aceste concentratii se
modifica, si dreapta de regresie se va modifica si deasemena si distantele
tuturor punctelor experimentale la aceasta dreapta.

Este de dorit o dependenta stabila a acuratetei punctelor de


acuratetea datelor de intrare, in sensul ca o eroare mica in preparare sau in
masurare, sa afecteze putin acuratetea “dreptei”.
In mod concret , consideram datele experimentale de la determinarea
dreptei de etalonare a piroxicamului in probe de plasma (fig. 5). Orice
eroare in preparare sau masurare schimba dreapta.
Sa evaluam ce efect are asupra acuratetei punctelor o eroare de 10 %
la limita de cuantificare (LLOQ) si o eroare de 10 % la limita superioara de
cuantificare.
Acuratetea punctelor dupa o schimbare de 10% a conc.
experimentale la diferite limite de cuantificare

101
II. Statistica matematica si biostatistica Regresia liniara

Tabelul nr. 7
Limita inferioara de cuantificare Limita superioara de cuantificare
Conc Acc Conc Acc
Conc A/SI exp Acc initial Conc A/SI exp Acc initial
0.1 0.0240 0.083 83.3 90.014 0.1 0.0267 0.164 164.1 90.01
0.25 0.0818 0.259 103.4 102.841 0.25 0.0818 0.318 127.1 102.84
0.5 0.1570 0.487 97.4 97.070 0.5 0.1570 0.527 105.5 97.07
1 0.3396 1.041 104.1 103.991 1 0.3396 1.037 103.7 103.99
2.5 0.7903 2.409 96.4 96.321 2.5 0.7903 2.294 91.8 96.32
5 1.6711 5.083 101.7 101.643 5 1.6711 4.752 95.0 101.643
10 3.2840 9.978 99.8 99.786 10 3.6124 10.168 101.7 99.786

Se observa ca efectul erorilor la concentratii mici asupra celorlalte


concentratii este neglijabil, in timp ce efectul erorilor la valori mari asupra
acuratetei concentratiilor mici este “critic” , transformandu-le pe acestea in
“valori discordante”.

Concluzii

În studiul stabilitaţii medicamentului, pe lângǎ determinariile


practice de stabilitate, aplicarea metodei regresiei lineare are un rol
important. Astfel determinarea intervalului de încredere pentru a stabili
termenul de valabilitate al unui medicament se obţine folosind aceasta
metoda.
Cu ajutorul dreptei de regresie (dreapta celor mai mici pǎtrate) se pot
face estimari pentru a stabili valabilitatea unui produs.
Aşa cum s-a aratat in exemplul tabletelor cu tiaminǎ, se ia in
considerare limita inferioarǎ in calculul stabilitǎţii unui medicament,
deoarece practic durata de viaţǎ a unui medicament se situeazǎ intre limitele
acestui interval. În acest fel putem fi siguri ca data de expirare care este
înscrisa pe cutie, este practice sub data efectivǎ de expirare şi se înlaturǎ
eventualele erori care apar în calculul statistic. De regulǎ durata de
valabilitate se calculeazǎ astfel încât la termenul de expirare, forma
farmaceuticǎ luatǎ în considerare (în cazul nostru tabletele de tiaminǎ) sǎ
conţinǎ cel puţin 90% din substanţa activǎ declaratǎ, respective dozatǎ.
Luând în considerare aceste lucruri, estimarea dreptei de regresie,
respective a parametrilor ei joacǎ un rol foarte important in studiul
stabilitǎţii unui medicament, indiferent de forma farmaceuticǎ luatǎ în
calcul.
102
II. Statistica matematica si biostatistica Regresia liniara

Calculul intervalelor de încredere sunt necesare de asemenea pentru


a stabili durata de viaţa a unui medicament. Practic ele conduc la stabilirea
valabilitǎţii acestor. Tocmai de aceea se ia în considerare limita inferioarǎ a
acestor intervale. În acest mod se eliminǎ o parte din erori. În momentul
datei limitǎ a valabilitǎţii unui medicament, acesta trebuie sa nu fi pierdut
mai mult de 10% din cantitatea aflatǎ iniţial în produsul luat în calcul.
În estimarea întervalelor de încredere pentru stabilirea valabilitǎţii
unui medicament, analizele se fac de regulǎ la 0, 3, 6, 9, 12 luni, iar mai
apoi anual. De asemenea se pot efectua şi studii de stabilitate accelerate, la
timpi mai scurţi dar în condiţii de temperaturǎ şi umiditate crescute.

103
II. Statistica matematica si biostatistica Regresia liniara

104
II. Statistica matematica si biostatistica ANOVA

2.9. Metode statistice de analiza factorilor de variabilitate în


experimentul biologic (ANOVA)

Să cercetăm, în continuare, problema comparării mai multor selecţii


provenite din populaţii pe care le ştim ca fiind normal repartizate, de
exemplu concentraţiile plasmatice realizate de tablete care conţin diferiţi
excipienţi, dar care au aceeaşi substanţă activă, în aceeaşi doză.
Vrem să verificăm ipoteza compusă că acestea provin de fapt din
aceiaşi populaţie, având media μ şi dispersia σ, deci că excipienţii folosiţi
nu influenţează semnificativ cedarea şi absorbţia substanţei active:

H 0 : μ1 = μ 2 = μ 3 = μ 4

faţă de ipoteza alternativă că cel puţin două medii nu sunt egale.


O variantă de rezolvare a problemei ar fi compararea mediilor de
selecţie două câte două prin metodele prezentate anterior.

Fie, de exemplu, relaţia între mediile de selecţie x1 〈 x2 〈 x3 〈 x4 .


Este evident greşit a aplica o relaţie de tranzitivitate şi a spune că
μ1 = μ 2 şi μ 2 = μ 3 şi μ 3 = μ 4 ⇒ μ1 = μ 2 = μ 3 = μ 4 .
Motivul acestei erori este legat în primul rând de violarea unui
principiu de bază al teoriei selecţiei: alegerea la întâmplare a selecţiilor. Ori
compararea loturilor după criteriul “a posteriori”, al mărimii mediilor de
selecţie este într-adevăr o abatere de la acest principiu.
Mai mult, nici măcar μ1 = μ 4 nu implică în acest caz μ 2 = μ 3 din
cauza dependenţei rezultatului testelor de relaţiile între dispersiile
populaţiilor din care provin selecţiile.
Ca urmare, problema comparării mai multor selecţii (loturi) trebuie
abordată prin alte metode care să facă compararea tuturor selecţiilor în
acelasi timp. O astfel de abordare se bazează pe compararea dispersiilor de
selecţie şi se numeşte analiză dispersională.
Analiza dispersională este o altă metodă fundamentală a statisticii
care, în plus faţă de mijloacele de calcul a “tendinţei centrale” a rezultatelor
experimentelor repetate, caracterizează mai ales variabilitatea acestora şi
factorii ce o determină.
Variabilitatea se poate datora existenţei unor factori cu influenţe
sistematice, a unor factori aleatori de fluctuaţie mai pronunţată şi, în final,
factori locali, inevitabili, determinând o fluctuaţie mai mică, definita “ca

105
II. Statistica matematica si biostatistica ANOVA

fluctuaţie experimentală”. Analiza dispersională îşi propune separarea


“variabilităţii totale” în: variabilitatea datorată factorilor sistematici,
variabilitatea factorilor cu efecte aleatoare, plus o variabilitate “reziduală”
(diferenţa până la variabilitatea totală), care reprezintă de fapt variabilitatea
experimentală. Din aceste variabilităţi se evaluează dispersiile parţiale
corespunzătoare diferiţilor factori, calculându-se semnificaţia rapoartelor lor
prin aplicarea testului F.
Principial datele experimentale se grupează în funcţie de diferite
criterii şi se urmăresc efectele asupra variabilitatii în funcţie de aceste
criterii, efecte care se cuantifică în raport cu variablitatea reziduală.
Analiza dispersională este cunoscută în aplicaţiile de biofarmacie şi
farmacocinetică sub denumirea de ANOVA (de la Analysis of Variance).

2.9.1. Analiza funcţională unifactorială


Cea mai simplă analiză dispersională, numită analiză dispersională
unidimensională sau unifactorială (numită în literatura engleză şi “one-way
ANOVA”) sau “experiment complet aleator”, “experiment cu grupuri
paralele”, corespunde testului t de analiză a două eşantioane independente şi
compară două sau mai multe grupuri.
De exemplu, n pacienţi sunt grupaţi în k scheme de tratament. Putem
să comparăm efectele a două medicamente administrate la mai multe
grupuri de voluntari, la care se poate adauga şi un grup “placebo”.
Voluntarii se distribuie aleator în toate grupurile. După măsurarea unui
parametru dat, se testează ipoteza nulă că toate valorile parametrului testat
sunt egale în populaţia corespunzătoare diferitelor tratamente testate, deci
tratamentele sunt echivalente între ele.
In ipoteza că toate grupurile aparţin aceleiaşi populaţii, ideea
testului este aceea că variabilitatea în interiorul grupurilor trebuie să fie de
acelaşi ordin cu variabilitatea între mediile grupurilor.
În consecinţă, dispersia totală, evaluată ca suma a pătratelor
diferenţelor între valorile individuale şi media întregii populaţii selectate
SST, este separată într-o parte datorită variaţiei între grupuri (within), sau
variabilităţii “interioare” şi o parte datorită variabilităţii “dintre” (between)
grupuri: SS T = SSW + SS B .
Dacă numărul de grupuri este k şi numărul de subiecţi în grupul i
este ni această egalitate poate fi explicitată după cum urmează:

106
II. Statistica matematica si biostatistica ANOVA

( )
n ni
SS T = ∑∑ xij − X (1)
i j =1

∑∑ x ij
∑nX
k
∑x
unde X = media mare = = 1 i
=
i
i j
şi X i este media
∑n i ∑n
k
1 i
N
grupului i.
Fixând grupul i putem scrie

∑ (x ) = ∑ [(x ) ( )]
ni ni
2 2
ij −X ij − Xi + Xi − X =
j j =1

( ) + ∑ (X ) ( )( )
ni ni ni
= ∑ xij − X i + 2∑ xij − X i X i − X
2 2
i −X
j j j

Ultimul termen este egal cu

( ⎛ ni
) ⎞
2 X i − X ⎜⎜ ∑ xij − X i ⎟⎟ = 2 X i − X ni X i − ni X i = 0 ( )( )
⎝ j ⎠
şi (1) devine
( ) + ∑∑ (x )
k k ni
SST = ∑ ni X i − X
2 2
ij − Xi = SS B + SSW (2)
i i j

relaţie cunoscută ca identitatea analizei dispersionale.


Considerăm variabilele aleatoare:
SS T SS T SS SSW SSW
sT2 = = , sB2 = B şi sW2 = = .
∑ ni − 1 N − 1 k −1 ∑ ni − k N − k
Ţinând cont de regula generală demonstrată mai înainte că,
(n − 1)δ x2 ≈ σ 2 χ 2 (n − 1) avem,
∑( x )
2
ij − x.i
( ) = ∑ ( n − 1)
2
SSW = ∑ xij − x.i = ∑ ( ni − 1) si2
j

ni − 1
i
i, j i i

≈ σ 2 χ 2 (∑ (ni − 1)) = σ 2 χ 2 ( N − k )
SSW
Deci, sW2 =
∑ (ni − 1)

107
II. Statistica matematica si biostatistica ANOVA

SS B
− S B2
Analog, s B ≈ σ χ (k − 1) şi deci raportul F =
2 2 2 k 1 = 2 este
SSW SW
N −k
distribuit F ( k − 1, N − k ) .

∑ n (X )
k 2
i i −X
SS B
Se observă că de fapt = i = sx2 reprezintă
k −1 k −1
dispersia de selecţie ponderată a mediilor de grup faţă de marea medie.
Abaterile mediilor grupurilor faţă de media generală depind atât de
hazardul măsuratorilor cât şi de factori ce ţin de însăsi natura grupurilor.
Abaterile în interiorul grupurilor sunt independente de aceşti factori,
deoarece fiecare valoare măsurată este raportată la însăşi media grupului
respectiv. Ele reprezintă fluctuaţii aleatoare.
Variabilitatea în interiorul grupurilor reprezintă diferenţa între
variabilitatea totală şi variabilitatea între grupuri.
Pentru simplificarea calculelor în aplicaţiile practice s-au introdus
k ni k ni
notaţiile ∑∑ x
i j
ij = ∑ x şi ∑∑ x
i j
2
ij = ∑ x 2 şi formulele precedente se

aduc la forme echivalente ce presupun un volum mai mic de calcule, după


cum urmează:

SST = ∑ (x − X ) = ∑ x − 2 X ∑ x + N X = ∑ x − 2
2 2
(∑ x ) + N (∑ x ) 2 2 ij
2
ij
2

=
ij ij ij ij 2
N N

= ∑x −
(∑ x ) = x − (∑ x ) 2 2

N
∑ N
2
ij
ij 2

2 2 2
⎛ ni ⎞ ⎛ ⎞ ⎛ ni ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟ ⎜ ∑ xij ⎟
k
(
SS B = ∑ ni X i − X )2 k ⎜
=∑ ⎝ j =1

⎠ −

⎝ i j

⎠ = ∑1

k ⎝ j =1

⎠ (∑
− k
x)
2

∑1 i
k

∑ ni
1 1 ni n ni

108
II. Statistica matematica si biostatistica ANOVA

2.9.1.1. Aplicarea ANOVA in testarea ipotezei privind depdendenta


liniara a datelor
Evaluarile statistice de pana acum permit determinarea unei drepte
sau a unui fascicul de drepte care aproximeaza evolutia fenomenului descris
de datele experimentale.
Un astfel de rezultat se poate obtine oricand, chiar si atunci cand
evident evolutiile nu urmeaza un model liniar. Deci, « cea mai buna
dreapta” poate fi in fond foarte proasta.
Din acest motiv este nevoie si de teste statistice care sa verifice
ipoteza ca efectiv un model liniar este aplicabil.

a) Testarea linearitatii :
Pornind de la cele prezentate in capitolul privind regresia liniara,
SS
observam ca SS eroare are N − I grade de libertate si deci MS eroare = eroare
N −I
avem ca E (MS eroare ) = σ e
2

In cele ce urmeaza vom calcula media sumei MS linear ;


(
E (MS linear ) = E ∑ yˆ i − y ( ) ) = E (∑ (a + bx − a − b x) ) = ∑ (x − x) E (b )
2
i
2
i
2 2

σ y2
Dar, E (b 2 ) = D (b ) + [E (b )] = + [E (b )]
2 2

∑ (x )
2
i −x
Sy σx
Folosind relatia b = r ⇒ E (b ) = ρ si
Sx σy
⎛ σ y2 σ y2 ⎞⎟
E (MS linear ) = ∑ xi − x ⎜( ) + ρ2 =

⎝ ∑ xi − x ( )2
σ x2 ⎟

∑ (x ) 2
− x ρ 2σ y2
= σ y2 + = σ y2 + Nρ 2σ y2
i

σ 2
x

In fapt aici am presupus ca pentru fiecare punct xi valorile


corespunzatoare y ij au o dispersie σ y2 x care este aceeasi pentru toate
punctele xi si deci putem sa o notam cu σ y2 sau σ e2 .
Lucrurile nu se intampla intotdeauna in acest fel. De exemplu in
cazul dreptei de etalonare in bioanalitica dispersiile sunt practic semnificativ

109
II. Statistica matematica si biostatistica ANOVA

mai mari la limita de cuantificare (pana la 20%) – fata de restul


concetratiilor la care limita admisa pentru « precizie » este de 15%.
Ipotezele de verificat sunt :
H0 : ρ = 0 echivalenta cu H0 : β = 0 folosind variabila
MS linear
aleatoare F1, N − I = .
MS eroare

b) Testarea ipotezei de nonlinearitate : H 0 : η 2 − ρ 2 = 0


Pentru aceasta se compara valorile testului
MS deviatie de la linearitate
FI −2, N − I = cu valorile din distributia Fischer.
MS eroare
• Raportul de corelare η 2 este proportia de variabilitate a lui
Y atribuabila covariantei cu X ;
• Coeficientul de determinare (corelatie) este proportia de variabilitate
a lui Y atribuabila covariantei liniare cu X .

2.9.1.2. Compararea parametrilor farmacocinetici ai unui medicament


după administrarea pe mai multe căi
Să considerăm constanta de eliminare (Tabelul 8) pentru un
medicament administrat într-o singură doză oral şi i.v., iar i.m. timp de trei
zile la diferite grupuri. Este de aşteptat ca eliminarea să fie independentă de
calea de administrare.
Vom compara constantele de eliminare după administrarea orală şi
i.m.
−1
Tabelul nr. 8: Constanta de eliminare k e ∗ 10 min
4

Oral prima doza i.m. o doza i.m. a-5-doza


106 55 84
109 40 105
160 109 174
∑x ij
375 204 363
∑ x = 942
∑x 2
ij
48717 16506 48357
∑ x = 113580
2

ni 3 3 3 N=9

ni − 1 2 2 2
∑ (n i − 1) = 6
125 68 121
xi

110
II. Statistica matematica si biostatistica ANOVA

SST = ∑ (x − X ) = ∑ x −
(∑ x ) 2 2
2

= 113580 −
9422
= 14984
ij
N 9

2 2
⎛ ni ⎞ ⎛ ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟
k ⎜ ⎟ ⎜ ⎟
( ) = ∑⎝ ⎠ −⎝ i j ⎠ =
k
SS B = ∑ ni X i − X
2 j =1
k

∑ ni
i =1 1 ni
1
2 2 2 2
375 204 363 942
= + + − = 46875 + 13872 + 43923 − 98596 = 6074
3 3 3 9

SSW = SS T − SS B = 14984 − 6074 = 8910

SSW 8910 SS B 6074


sW2 = = = 1485 , s B2 = = = 3037
N −k 6 k −1 2
s 2 3037
F (k − 1, ∑ ni − k ) = F (2,6 ) = 2B = = 2,07 valoare aflată în zona de
sW 1485
acceptare ( f 2, 6;97 ,5 = 7,26 si f 2, 6;99 = 10,92 )

Aplicăm în continuare acelaşi procedeu, introducând şi administrarea i.v.


−1
Tabelul nr. 9: Constanta de eliminare k e ∗ 10 min
4

i.m. o doza i.m. a-5-doza i.v.


106 55 84 63
109 40 105 70
160 109 174
∑x ij
375 204 363 133
∑ x = 1075
∑x 2
ij
48717 16506 48357 8869
∑ x = 122449
2

ni 3 3 3 2 N=11

ni − 1 2 2 2 1
∑ (n i − 1) = 7
125 68 121 66
xi

SST = ∑ (x − X ) = ∑ x −
(∑ x ) 2 2
2

= 122449 −
10752
= 17392
ij
N 11

111
II. Statistica matematica si biostatistica ANOVA

2 2
⎛ ni ⎞ ⎛ ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟
k ⎜ ⎟ ⎜ ⎟
( ) = ∑⎝ ⎠ −⎝ i j ⎠ =
k
SS B = ∑ ni X i − X
2 j =1
k

∑ ni
i =1 1 ni
1
2 2 2 2 2
375 204 363 133 1075
= + + + − =
3 3 3 2 11
= 46875 + 13872 + 43923 + 8844 − 105056 = 8428

SSW = SS T − SS B = 17392 − 8428 = 8964

SSW 8964 SS B 8428


sW2 = = = 1280 , s B2 = = = 2809
N −k 7 k −1 3
s 2 2809
F (k − 1, ∑ ni − k ) = F (2,6) = 2B = = 2,19 valoare aflată în zona de
sW 1280
acceptare ( f 2, 6;97 ,5 = 7,26 şi f 2, 6;99 = 10,92 )

2.9.1.3. Condiţii necesare pentru aplicarea analizei dispersionale.

a) Modelul variabilei aleatoare supusă măsuratorilor


Subliniem ceea ce am spus sau am presupus ca şi condiţii prealabile
pentru a putea aplica testul prezentat:
1) Pentru ca sumele calculate să fie repartizate χ 2 este obligatoriu ca
selecţiile să provină din populaţii repartizate normal. Dacă acest lucru nu se
întâmplă, rămâne să fie aplicate teste neparametrice, după cum s-a prezentat
anterior.
2) Analiza dispersională compară dispersia între grupuri cu dispersia
totală din interiorul grupurilor pentru punerea în evidenţă a efectelor
sistemice. Dispersiile în populaţiile din care provin grupurile s-au presupus
egale. Pentru verificarea acestei ipoteze se poate aplica testul F dispersiilor
de selecţie luate două câte două, sau se poate aplica testul Bartlett.
3) Aditivitatea efectelor de intra şi intervariabilitate, fenomen care
depinde de natura intimă a fenomenului măsurat.
Ca urmare rezultatul masuratorilor este o variabila aleatoare care se
poate scrie: xij = μ + α i + ε ij cu E (ε ij ) = 0 şi D(ε ij ) = σ e2 unde μ este
112
II. Statistica matematica si biostatistica ANOVA

media generală a populaţiei, D (α ) = σ α2 , α i este un factor fix ce variază de


la un grup la altul şi este egal cu diferenţa între μ şi media grupului
μi = μ + α i , iar ε ij este eroarea de măsurare.
Media a n determinări în interiorul unui grup este

X i = μ + αi +
∑ ε ij = μ + α i + ε i deoarece α i şi μ sunt constante.
n

Media generală va fi: M = μ +


∑α ∑∑ ε
= μ + α + ε deoarece
i
+
ij

k kn
α i variază de la un grup la altul iar μ este acelaşi pentru întreaga populaţie.
( )
Mai departe xij − X i = ( μ + α i + ε ij ) − μ + α i + ε i = ε ij − ε i şi dispersia în

∑ (x − X ) = ∑ (ε )
2 2
− εi
2
=
ij i ij
interiorul grupului va fi: s iar media ei este
ni − 1 ni − 1
i

E (s ) = E
2

⎜ ∑ (
xij − X i ⎞⎟
2

=E
) ⎛
⎜ ∑ (
ε ij − ε i ⎞⎟
2
)
= σ e2 (din faptul că aşa cum s-a
i ⎜ ni − 1 ⎟ ⎜ ni − 1 ⎟
⎝ ⎠ ⎝ ⎠
arătat mai înainte E (s x ) = σ , s x fiind un estimator nedeplasat al
2 2 2

dispersiei).
Sumând pentru toate grupurile se obţine
⎛ ∑ ( ni − 1) Si2 ⎞ ∑ ( ni − 1) E ( Si ) N − k 2
2

E ( sw ) = E ⎜
2
⎟⎟ = = σ = σ e2
⎜ N −k N −k N −i
⎝ ⎠
Deci s w2 este un estimator nedeplasat al lui σ 2 indiferent dacă ipoteza
H 0 este adevărată sau nu.
Dacă n1 = n2 = ... = nk = n
⎛⎜ X − X ⎞⎟ = n ⎡ α − α 2 + ⎛⎜ ε − ε ⎞⎟ ⎤ ( )
2 2
SS B 1
sB2 = =
k −1 k −1
∑ i ⎝ i ⎠ k − 1 ⎢∑ i
n ∑⎝ i ⎠ ⎥
⎣ ⎦

∑ (ε − ε )
2
σ e2
= nsε2 şi E ( nsε2 ) = n
= σ e2
i
n
k −1 i
n
În ceea ce priveşte α avem două cazuri în funcţie de cum a fost ales:
a) α este o variabila aleatoare N (0, σ α2 ) , atunci s B2 = nsα2 + s e2 si
( )
E s B2 = nσ α2 + σ e2

113
II. Statistica matematica si biostatistica ANOVA

b) α i factori ficşi , α i = μ − μ i ⇒ ∑α i = 0 şi α = 0 , atunci


∑ (α − 0) ∑α
2 2
2
=n +s 2
şi E (s ) = n
2
+ σ e2
i i
s
k −1 k −1
B e B

Daca ne referim la grupe oarecare, alese întâmplator din toate selecţiile


posibile din întreaga populaţie, α este o variabilă aleatoare care aparţine
N (0, σ α2 ) , dar nu mai avem ∑α i = 0 pentru o grupă de selecţie oarecare.
Este cazul când concluziile ce ne interesează se referă, în principal, la
întreaga populatie şi nu la şarjele cercetate, de exemplu cand dorim sa
verificam omogenitatea populatiei.
Calcule similare arată că, atunci când n1 = n2 = ... = nk = n ,
s B2 = nsα2 + s e2 şi E (s B2 ) = σ e2 + nσ α2 .
SS B
Ca urmare, s B2 = este o estimatie nedeplasată a lui σ e2 numai
k −1
atunci când ipoteza H 0 este adevărată.

b) Clasificarea ierarhică în trepte. Scindarea dispersiei totale în


dispersii parţiale ale treptelor.
Dacă vom considera eroarea unei metode de analiză, este de aşteptat
ca aceasta să fie egală cu suma erorilor parţiale ale fazelor analizei.
Scindarea erorii totale în erorile parţiale ale fazelor oferă
posibilitatea punerii în evidenţă a fazelor ce determină diminuarea
reproductibilităţii şi a locului unde trebuie intervenit pentru îmbunătăţirea
metodei.

2.9.2. Analiza dispersională multifactorială


În analiza anterioară criteriul de împărţire în grupuri a fost unul
singur – calea de administrare sau perioada de administrare. În continuare
ne vom ocupa de cazul când vrem să determinăm ponderea a doi factori în
acelaşi timp, folosind datele obţinute într-un singur experiment.
Pentru simplificarea scrierii prezentăm pentru început cazul când
testăm k medicamente continând aceeaşi substanţă activă, administrate în n
perioade diferite.
Se consideră că efectele determinate de cei doi factori analizaţi sunt
variabile aleatoare independente. Având doi factori, se testează două ipoteze
de nul. Dacă vom aşeza datele într-o matrice, liniile şi coloanele
114
II. Statistica matematica si biostatistica ANOVA

corespunzând respectiv pentru valori date ale primului şi ale celui de al


doilea factor, o primă ipoteză se referă la egalitatea mediilor liniilor, iar a
doua la egalitatea mediilor coloanelor. Ipoteza alternativă presupune
existenţa unor diferenţe între linii sau respectiv între coloane.

Tabelul nr. 10 :
Medicament
1 2 … k
1 X11 X12 X1k
x1.
Perioada Tratament

2 X21 X22 X2k


x 2.
.
.
.
n Xn1 Xn2 xnk x n.
x.1 x.2 x. k

unde x. j reprezintă media valorilor din coloana i, iar xi. reprezintă media
valorilor din linia j.
In experimentele clinice analiza dispersionala pe 2 cai este asociata
unui tip special de experiment numit “experiment cu blocuri complet
randomizate”. Modelul acestui tip de experiment a fost dezvoltat in 1925 de
catre R.A.Fischer 1 care a cercetat productivitatea mai multor soiuri de grau,
numite de el tratamente, semanate in mai multe blocuri omogene formate
din mai multe loturi, loturi ce difereau intre ele prin compozitia solului.
Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul
blocurilor. In acest fel fiecare bloc include toate tratamentele. Distributia
aleatoare se face in fiecarui bloc.
Obiectivul studiului este de a separa efectele reziduale aleatoare de
efectele de bloc. Eficacitatea studiilor depinde de omogenitatea blocurilor.
Aceste conditii, suplimentare conditiilor de distributie normala si de
egalitate a dispersiilor, sunt greu de asigurat intotdeauna drept pentru care
trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului.

1
R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York,
1958
115
II. Statistica matematica si biostatistica ANOVA

2.9.2.1. Modelul variabilei aleatoare.


Valorile experimentale le considerăm ca rezultanta unor efecte
aditive corespunzător liniilor, coloanelor şi erorilor întâmplătoare:
xij = μ + α i + β j + ε ij
unde α i este partea lui x ij datorată liniei (schemei de administrare), β j
reprezintă contribuţia coloanei (forma medicamentoasă), iar ε ij este eroarea
experimentală.
Modelul este in esenta un model « aditiv » prin aceea ca nu
presupune interactiuni intre factori. Intr-o prezentare grafica, atunci cand
consideram raspunsurile pentru un factor tinut constant si un factor ce ia
doua valori diferite (numite de regula « nivele ») sa obtinem linii paralele.
De exemplu, consideram liniile de sub curba (AUC) ale
propafenonei si hidroxi-propafenonei pentru doua medicamente, testat T si
referinta R, administrate la aceiasi subiecti 2 .

Propafenona

2
C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites,
Biointernational 2005, Octomber 24th-26th, London
116
II. Statistica matematica si biostatistica ANOVA

Hidroxi-propafenona

2.9.2.2. Scindarea sumei pătratelor abaterilor.


Suma pătratelor abaterilor valorilor individuale faţă de media
generala M este:
SS T = ∑ ∑ (xij − x ) , expresie ce se poate scrie şi în forma:
2

2
[( ) ( ) (
SS T = ∑ ∑ (xij − x ) = ∑ ∑ x L − x + xC − x + x − x L − xC + x )]2
=

∑ ∑ (x − x ) + ∑ ∑ (x − x ) + ∑ ∑ (x − x − x + x )
2 2 2
L C ij L C = SS L + SS C + SS R
Produsele mixte nu s-au mai trecut deoarece sunt nule.
Am scindat aşadar variabilitatea totală într-o componentă dată de
linii, o componentă dată de coloane şi o componentă reziduală.
Corespunzător rezultatelor prezentate la analiza unifactorială, aici se
poate arăta că:
E (SS T ) = (nC n L − 1)σ 2 + n L ∑ α i2 + nC ∑ β j2
E (SS L ) = (nC − 1)σ 2 + n L ∑ α i2
E (SS C ) = (n L − 1)σ 2 + nC ∑ β j2
E (SS R ) = (nC − 1)(nL − 1)σ 2

117
II. Statistica matematica si biostatistica ANOVA

In cazul analizei bifactoriale apar două ipoteze de nul pe care vrem


să le testăm:
H 0(1) : toate formele de tratament (liniile) sunt echivalente, adica α i = 0 ;
H 0(2 ) : toate medicamentele (coloanele) sunt echivalente, adica β j = 0 .
Indiferent dacă ipotezele sunt adevărate sau nu, E (s R2 ) = σ 2 .
Dacă cele două ipoteze sunt adevărate: s e2 = s R2 , sC2 si s L2 sunt
estimaţiile nedeplasate ale lui σ 2 .
(1) s L2
Pentru a testa ipoteza H este natural să considerăm raportul 2 ,
se
(2 ) sC2
iar pentru ipoteza H raportul 2 .
se
În cazul în care pentru fiecare combinaţie de cauze se fac mai multe
determinări folosind mai mulţi voluntari, variabilitatea se poate scinda în
patru componente:
SS T = SS L + SS C + SSW + SS R

2.9.2.3. Variaţia unui parametru farmacocinetic atât în funcţie de calea


de administrare cât şi în funcţie de numărul de administrare
Constanta de eliminare k e ∗ 10 4 min −1
Tabelul nr. 11:
Oral prima i.m. o i.m. a-5- i.v.
doza doza doza
106 55 84 63
109 40 105 70
160 109 174
∑x i
375 204 363 133
∑ x = 1075
∑x 2
i
48717 16506 48357 8869
∑ x = 122449
2

ni 3 3 3 2 N=11

ni − 1 2 2 2 1
∑ (n i − 1) = 7
xi 125 68 121 66

(∑ x )2

SS T = ∑ x 2
− = 17392
N
Mai departe considerăm două grupuri: voluntarii cărora medicamentul li s-a
administrat o dată şi voluntarii care au primit 5 doze.
118
II. Statistica matematica si biostatistica ANOVA

363 2 (375 + 204 + 133)


2
SS B (nr.doze ) = + − 105056 = 2235
3 8
SSW = SS T − SS (nr.doze ) = 17392 − 2235 = 15157
SSW 15157 SS B 15157
= = 1684 , = = 15157
N −k 9 k −1 1
F (k − 1, ∑ ni − k ) = F (1,9) =
15157
= 9 care aparţine zonei de acceptare
1684
pentru riscul α 〈 0,01 ( f1,9;99 = 10,56) dar nu aparţine zonei de acceptare
pentru α 〈0,05 (f 1, 9;95 = 5,12) .
(∑ x ) 2

= ∑ (x − x ) = ∑ x −
2 1075 2
SS T i
2
= 17392 = 122449 −
N 11
Un alt factor care poate influenţa concentraţia în sânge este calea de
administrare.
2 2
⎛ ni ⎞ ⎛ ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟
⎜ ⎟ ⎜ ⎟
( ) ⎝ ⎠ ⎝ ⎠ =
k k
SS B (cale ) = ∑ ni xi − X =∑
2 j =1 i j
− k

∑ ni
i =1 1 ni
1
2 2 2 2
375 204 133 1075
= + + − =
3 3 2 11
46875 + 13872 + 43923 + 8844 − 105056 = 8428
363 2 (375 + 204 + 133)
2
SS B (nr.doze ) = + − 105056 = 2235
3 8
SSW = SS T − SS B (cale ) − SS B (nr.doze ) = 17392 − 8428 − 2235 = 6792
În acest fel am obţinut următoarele rezultate:
Tabelul nr. 12
Sursa de variaţie GL SS Rapotul F
Între căile de administrare 3 8428 f(3,6)=1,24
Între numarul de doze 1 2235 f(1,6)=0,32
Variaţia intragrupuri 6 6792
Variaţia totală 10 17392
şi comparând cu valorile din tabelele de repartiţie Fisher se constată că
poate fi acceptată ipoteza că toate grupurile cercetate aparţin aceleiaşi
populaţii statistice. Deci, nici calea de administrare şi nici numărul de doze
nu influenţează rata eliminării.

119
II. Statistica matematica si biostatistica ANOVA

2.9.2.4. Compararea biodisponibilităţii unei substanţe active


administrate în preparate diferite şi în perioade diferite de tratament.
Trei medicamente au fost administrate la nouă subiecţi într-un studiu
de biodisponibilitate obţinându-se ariile de sub curbă prezentate mai jos :
Perioada 1 2 3 Suma
Pacient 1 B=107 C=102 A=99 308
Pacient 2 A=100 C=106 B=89 295
Pacient 3 B=98 A=90 C=128 316
Pacient 4 C=71 B=54 A=63 188
Pacient 5 A=92 B=111 C=107 310
Pacient 6 C=113 A=115 B=91 319
Pacient 7 B=169 A=107 C=195 551
Pacient 8 C=88 B=95 A=77 260
Pacient 9 A=122 C=168 B=155 445
Suma pe perioadă I: 160 II: 1028 III: 1004
∑ x = 2992
Suma pe medicament A: 945 B: 969 C: 1078
∑ x = 364720
2

Media pe medicament 105 107,7 119,8


Separăm acum varianta în patru componente: pacienţi, perioadă,
medicament şi eroarea în interiorul tuturor grupurilor.
(∑ x ) 2

SS T = ∑ x 2
− = 33162,1
N
9 (∑ linie ) (∑ x ) 2 2

SS B ( pacienti ) = ∑ − = 29834,1
i =1 3 N
3 (∑ medicament ) (∑ x )2 2

SS B (medicament ) = ∑ − = 1116,5
i =1 9 N
(∑ x )
( perioada ) = ∑
+ ∑ II 2 + ∑ III 2
2 2
I
SS B = 264,3 −
9 N
SSW = SS T − SS B ( pacienti ) − SS B (medicament ) − SS B ( perioada ) = 1947,2
Pe aceasta cale obţinem:
Sursa de variaţie DF Suma pătratelor Media Raportul F
Între pacienţi 8 29834,1 3729,3
Între medicamente 2 116,1 558,3 3,15
Între perioade 2 264,3 132,1 0,75
Variaţia intragrupuri 14 1947,2 177
Total 26 33162,1
Deoarece f 2,14;0,99 = 3,74 nu există diferenţe semnificative între cele
două medicamente după administrare unică sau administrări multiple.

120
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

2.10. Estimarea efectelor intr-un experiment standard cross-over – prin


teste t
2.10.1. Modelul statistic
Considerăm două medicamente, unul de testat (T) şi altul de
referinţă (R), administrate în două perioade (I şi II). Raţiunea principală a
experimentului cross – over, eveniment în care o parte din subiecţi primesc
cele două medicamente în secvenţa RT, iar cealaltă parte în secvenţa TR,
este aceea că, analiza datelor obţinute poate pune în evidenţă efectele
reziduale, sau “carry – over”, cum mai sunt numite, ale administrării în
prima perioadă, asupra rezultatelor obţinute în perioada a doua. În cazul
existenţei unor astfel de efecte este necesar să se poată face distincţia între
efectele “directe”şi efectele reziduale. Efectul direct este efectul ce îl are
medicamentul în perioada în care este administrat, pe când efectul carry –
over este efectul pe care acesta îl are în perioada următoare administrării
sale. Spunem că un medicament are un efect carry – over de ordin k, dacă
efectul primei administrări se manifesta şi după k perioade de administrare.
Rezultatele experimentului sunt variabile aleatoare Yijk pe care le
considerăm având următoarea structură:
Yijk = μ + Sik + Pj + F( j ,k ) + C( j −1,k ) + eijk
unde μ este media totala, i este indicele pentru subiect, i = 1, nk , j este
indicele pentru perioadă şi k este indicele pentru secvenţa. F( j ,k ) este efectul
direct, fix, al medicamentului (formulării) administrat în perioada j, în
secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament
măsurată).
⎛ RT ⎞ ⎛F F ⎞
Schema de administrare fiind ⎜⎜ ⎟⎟ avem că (F( j ,k ) ) = ⎜⎜ R T ⎟⎟ şi,
⎝ TR ⎠ ⎝ FT FR ⎠
din faptul că μ este media lui Yijk avem ∑ F( j ,k ) = 0 si ∑ C( j −1, k ) = 0.
C ( j −1, k ) este efectul carry – over (fix) al medicamentului administrat în
perioada j-1 (considerăm că, datorită existenţei unui interval de timp “de
spălare”, efectul carry – over nu depăşeşte o perioadă).
eijk reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru
fiecare subiect.
Considerăm ca variabilele S ik sunt repartizate identic, cu media 0 şi
dispersia σ s2 , iar variabilele eijk sunt repartizate N (0, σ e2 ) . În fapt,
dispersiile erorilor pot diferi de la un medicament la altul.
121
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

2.10.2. Testarea efectului secvenţei de administrare

Pentru efectul secvenţei de administrare sau a efectelor carry – over,


considerând următoarele totaluri pe subiecţi în cadrul unei secvenţe date:
U ik = Yi1k + Yi 2 k , i = 1, nk , k = 1,2 (R+T si respective T+R)
Valoarea medie şi dispersia variabilelor U ik vor fi:
⎧ 2μ + CR , pentru subiectii in sec venta 1⎫
E (U ik ) = ⎨ ⎬
⎩2μ + CT , pentru subiectii in sec venta 2⎭
D (U ik ) = D (2 S ik + ε i1k + ε i 2 k ) = 4σ s2 + 2σ e2
σ u2 = D (U ik ) = 2(2σ s2 + σ e2 ) pentru toţi subiecţii.
Fie C = CT − C R . C poate fi folosit pentru determinarea efectelor
carry – over. Datorită restricţiei CT − C R = 0 efectele carry – over sunt
egale pentru cele două formulări, adică C = 0 , dacă şi numai dacă
CT = C R = 0 . Ca urmare, testarea absenţei efectelor carry – over este
echivalentă cu testarea egalităţii acestora. Când efectele carry – over sunt
absente, efectul direct al medicamentului (F = FT − FR ) poate fi estimat pe
baza datelor din amândouă perioadele. Dacă efectele carry – over nu sunt
egale, nu există un estimator nedeplasat pentru efectul direct al
medicamentului, din acest motiv fiind necesară testarea prealabilă a
existenţei efectelor carry – over.
Consideram de exemplu ca efectul medicamentului R este 9 si cel al
medicamentului T este tot 9, efectul de perioada este 0 si efectul rezidual
este 1 pentru R si 2 pentru T.
Vom avea rezultatele:

PI PII
Secv. RT 9 9+1
Secv. TR 9 9+2

Diferenta aparenta R-T va fi:


1
[(PI − PII )sec v1 + (PII − PI )sec v 2 ] = 1 [(− 1) + 2] = 1
2 2 2

122
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

Daca insa efectele de secventa sunt 10 pentru R si 9,5 pentru T,


atunci efectul de perioada este tot 0, iar efectele carry – over egale
amandoua cu 1, vom gasi:

PI PII
Secv. RT 10 9,5+1
Secv. TR 9,5 10+1

Ceea ce inseamna ca diferenta aparenta R-T va fi:


1
[(PI − PII )sec v1 + (PII − PI )sec v 2 ] = 1 [(− 0,5) + 1,5] = 1
2 2 2
Deci, daca apar efecte reziduale inegale ele vor fi luate drept efecte
de formulare.
Din acest motiv, pentru a ne asigura ca estimarea diferentei de
formulare este corecta, trebuie sa testam in prealabil faptul ca nu avem
efecte reziduale inegale.
Existenţa efectelor carry – over inegale poate fi determinată prin
testarea următoarelor ipoteze:
H 0 : C = 0 ⇔ CT = C R
H 1 : C ≠ 0 ⇔ CT ≠ C R
Respingerea ipotezei nule duce la concluzia prezenţei efectelor carry
– over inegale. Pentru testarea ipotezelor asupra lui C se folosesc
următoarele medii de selecţie corespunzând fiecărei secvenţe:
1 nk
U .k = ∑U ik , k = 1,2
n k i =1
U .1 şi U .2 sunt mediile de selecţie pentru eşantioane aleatoare
independente din populaţii normale cu dispersii egale. Ca urmare testarea se
poate face utilizând testul t.
C poate fi estimat prin diferenţa între mediile subiecţilor pentru cele
două secvenţe:
( ) (
Cˆ = U .2 − U .1 = Y.11 + Y.21 − Y.12 + Y.22 )
Ţinând cont de presupunerile asupra variabilelor S ik prezentate
anterior, Ĉ este normal distribuit cu media C şi dispersia

() ( ⎛1
) 1⎞ ⎛1 1⎞
D Cˆ = 2 2σ s2 + σ e2 ⎜⎜ + ⎟⎟ = σ u2 ⎜⎜ + ⎟⎟ .
⎝ n1 n2 ⎠ ⎝ n1 n2 ⎠

123
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

()
Dispersia D Cˆ poate fi estimată prin înlocuirea lui σ u2 cu σˆ u2 = Su2
dispersia de selecţie totală pentru subiecţii din cele două secvenţe:

() 2⎛ 1 1⎞
( )
2 nk
1
∑∑
2
ˆ ⎜ ⎟
D C = σˆ u ⎜ + ⎟ unde σˆ u = 2
U ik − U .k
⎝ n1 n2 ⎠ n1 + n2 − 2 k =1 i =1
Mai departe, (n1 + n2 − 2 )σˆ u2 este distribuit σ u2 χ 2 (n1 + n 2 − 2 ) unde
χ 2 (n1 + n2 − 2) este o variabilă distribuită χ 2 cu n1 + n2 − 2 grade de
libertate, independentă de Ĉ . Astfel, în ipoteza H0 ,
Cˆ X − XT +R
Tc = = R +T are o repartiţie Student cu n1 + n2 − 2
1 1 1 1
σˆ u + σˆ u +
n1 n2 n1 n2
grade de libertate. Ca urmare, vom respinge ipoteza nulă
H 0 : CT = C R în favoarea ipotezei alternative H a : CT ≠ C R la un nivel α
de semnificaţie, dacă Tc 〉 t⎛ α ⎞
.
⎜ , n1 + n 2 − 2 ⎟
⎝2 ⎠

Deoarece variabila testată Tc conţine estimarea σ u2 = 2(2σ s2 + σ e2 )


care se referă atât la variabilităţile între – şi intra – subiecţi, puterea testului
va fi mai mică în cazul în care variabilitatea între – subiecţi este mai mare
decât intravariabilitatea. În studiile de biodisponibilitate / bioechivalenţă, ca
regulă, mărimea lotului de testat se alege pe baza calculelor privind puterea
pornind de la efectul direct al medicamentului, efect ce implică
intravariabilitatea. Pentru a creşte puterea testului, Grizzle 1 a sugerat
testarea ipotezei nule la un nivel de semnificaţie α = 10% în loc de 5%.
Pe baza statisticii t, se poate calcula un interval de încredere
1 1
(1 − α ) *100% pentru C: Cˆ ± t⎛ α σˆ
⎞ u
+ .
⎜ , n1 + n 2 − 2 ⎟ n n
⎝2 ⎠ 1 2

Dacă intervalul conţine pe 0, atunci suntem în favoarea (sau de fapt


nu putem respinge) ipotezei nule că nu există efecte carry – over sau că
acestea sunt egale. Dacă intervalul nu conţine pe 0, tragem concluzia că
există efecte carry – over diferite pentru cele două formulări.

1
J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21,
467-480, 1965
124
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

2.10.3. Efectul direct al medicamentului


În vederea testării efectului direct al medicamentului se pot folosi
diferenţele între perioade în interiorul fiecărei secvenţe, după cum urmează:
1
d ik = (Yi 2 k − Yi1k ) , i = 1, nk , k = 1,2 .
2
Valoarea medie şi dispersia pentru diferenţele din cadrul perioadelor
sunt:
⎧1 ⎫
⎪ 2 [(P2 − P1 ) + (FT − FR ) + C R ], pentru subiectii in sec venta 1⎪
E (d ik ) = ⎨ ⎬
1
⎪ [(P2 − P1 ) + (FR − FT ) + CT ], pentru subiectii in sec venta 2⎪
⎩2 ⎭
σ 2
MSE
D ( dik ) = σ d2 = e = = Sd2
2 2
Se vede că dispersia diferenţelor între perioade include numai
intravariabilitatea, ceea ce reprezintă de fapt avantajul experimentului de tip
cross – over. În ceea ce priveşte media diferenţelor, aceasta include atât
efectul direct al medicamentului cât şi efectul rezidual (carry – over).
Sa notăm efectul perioadei şi efectul direct (efectul formulării) prin
P = P2 − P1 şi F = FT − FR .
Pentru a verifica ipotezele statistice asupra lui F, să considerăm
mediile diferenţelor între perioade în interiorul fiecărei secvenţe:
1 nk
d .k = ∑ d ik , k = 1,2 .
nk i =1
Diferenţa între secvenţe ( d .1 − d .2 ) este un estimator nedeplasat al
lui F atunci când nu avem efecte carry – over inegale ( C R = CT )

( ) (C − CT ) = F − C
E d .1 − d .2 = (FT − FR ) + R unde C = CT − C R .
2 2
Ca urmare, dacă CT ≠ C R nu avem un estimator nedeplasat pentru F
din datele pentru amândouă perioadele. Dacă însă CT = C R , atunci
1
[( ) ( )]
Fˆ = d .1 − d .2 = Y.21 − Y.11 − Y.22 − Y.12 = YT − YR
2

125
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

este un estimator nedeplasat cu dispersia minimă pentru F (unde


1
( 1
)
YT = Y.21 + Y.12 şi YR = Y.11 + Y.22 ).
2 2
( )
⎛ RT ⎞ 1
Schema de administrare fiind ⎜⎜ ⎟⎟ rezultă că YR = R 1 + R 2 .
2
( )
⎝ TR ⎠
YR si YT sunt aşa numitele “least squares means” (LS) – mediile
cele mai mici pătrate – pentru produsul de referinţă şi cel testat.
În practică, F este estimată prin diferenţa directă între mediile celor
două formulări
Fˆ * = Y * − Y * ,
T R

1 ⎛ n1 n2
⎞ 1 ⎛ n1 n2

unde Y = *
⎜⎜ ∑ Yi11 + ∑ Yi 22 ⎟⎟ şi YT* = ⎜⎜ ∑ Yi 21 + ∑ Yi12 ⎟⎟
n1 + n2 n1 + n2 ⎝ i =1
R
⎝ i =1 i =1 ⎠ i =1 ⎠
Când C R = CT , se obţine
( )
E YR* =
1
n1 + n 2
[(n1 + n2 )μ + (n1 + n2 )FR + n1 P1 + n2 P2 ] şi

E (Y )
1
*
= [(n1 + n2 )μ + (n1 + n2 )FT + n1 P2 + n2 P1 ] .
n1 + n 2
T

( )
Deci, E YT* − YR* = (FT − FR ) +
1
n1 + n 2
[(n2 − n1 )P1 + (n1 − n2 )P2 ]
Ca urmare, diferenţa între mediile celor două formulări F̂ * , nu este
un estimator nedeplasat pentru F decât atunci când n1 = n2 .
Remarcam faptul ca in practica, din auza ca o parte din subiecti
parasesc experimentul clinic inainte ca acesta sa se termina, cazul
n1 = n2 este foarte rar. In ciuda acestui fapt unele softuri uzuale ignora
aceste fapte ceea ce, dupa cum se va arata mai departe, poate duce la alterari
semnificative ale rezultatelor.
Diferenţa între mediile “least – square” pentru cele două
formulari, F̂ , este normal distribuită, cu media F şi dispersia

() ⎛1 1⎞
D Fˆ = σ d2 ⎜⎜ + ⎟⎟ .
⎝ n1 n2 ⎠
Deoarece {d i1 } , i = 1, n1 si {d i 2 } , i = 1, n 2 sunt două selecţii
independente din populaţii normale cu dispersii egale (atunci când nu avem

126
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

efecte carry – over inegale) un test pentru efectul direct poate fi obţinut pe
baza statisticii t – pereche.

Td =
1 1
σˆ d +
n1 n2
unde σˆ d2 este dispersia de selecţie pentru diferenţa între perioade, şi este un
estimator nedeplasat al lui σ d2

( )
2 nk
1
∑∑
2
σˆ d2 = d ik − d .k
n1 + n2 − 2 k =1 i =1
Deoarece (n1 + n 2 − 2 )σˆ d2 este distribuit σ d2 χ 2 (n1 + n 2 − 2 ) , Td este
distribuit t cu n1 + n2 − 2 grade de libertate. Un interval de încredere
(1 − α ) *100% pentru F este următorul:
⎛α ⎞ 1 1
Fˆ ± t ⎜ , n1 + n2 − 2 ⎟σˆ d +
⎝2 ⎠ n1 n2
Prezenţa efectului direct al medicamentului poate fi examinată prin
testarea ipotezelor: H 0 : FT = FR si H 1 : FT ≠ FR . Respingem H 0 dacă
Td 〉 t ⎛ α ⎞
.
⎜ , n1 + n2 − 2 ⎟
⎝2 ⎠

Trebuie să observăm că această metodă de testare se referă la


egalitatea efectelor celor două medicamente şi nu la “bioechivalenţa” lor,
care va fi discutată mai departe.
După cum s-a menţionat mai sus, F̂ nu este un estimator nedeplasat
al lui F în prezenţa efectelor carry – over inegale ( CT ≠ C R ). Un estimator
nedeplasat al lui F poate fi obţinut totuşi folosind numai datele din prima
perioadă, dar cu o pierdere de informaţie şi, în consecinţă, de precizie. Dacă
Y.11 şi Y.12 sunt mediile celor două formulări în prima perioadă, atunci:
( )
E Y.12 − Y.11 = (μ + P1 + FT ) − (μ + P1 + FR ) = FT − FR = F

Să notăm Y.12 − Y.11 = . Avem că F̂
este un estimator
C C
nedeplasat al lui F, chiar şi în prezenţa efectelor carry – over inegale.

127
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

Dispersia lui F̂
C
este D
C
( ) = (σ⎛1 1⎞
+ σ e2 )⎜⎜ + ⎟⎟ . Observăm

⎝ n1 n2 ⎠
2
s

( ) () ⎛ σ ⎞⎛ 1 1 ⎞
2
deasemenea că D F − D Fˆ = ⎜⎜ σ s2 + e ⎟⎟⎜⎜ + ⎟⎟ . Deci, pierderea de
ˆ

C
⎝ 2 ⎠⎝ n1 n2 ⎠
precizie ca urmare a folosirii numai a datelor din prima perioadă este de
minim 50% atunci când σ s2 = 0 .
Din acest motiv, în practică, este foarte importantă perioada de
spălare pentru a dispărea efectele reziduale până la a două administrare.
În prezenţa efectelor carry – over inegale, se poate verifica ipoteza
privind inegalitatea efectelor şi se poate construi şi un interval de încredere
(1 − α ) *100% pentru F folosind datele din prima perioadă.
Un estimator nedeplasat pentru D ( ) este D( ) = S ⎛⎜⎜⎝ n1 + n1 ⎞⎟⎟⎠

C

C
2
f
1 2

( ).
2
1 nk

∑∑ Yi1k − Y.1k
2
unde S 2f =
n1 + n2 − 2 k =1 i =1
Observăm ca S 2f este un estimator nedeplasat pentru σ s2 + σ e2 , dar
nu avem estimări individuale pentru σ s2 si σ e2 pornind numai de la datele
din prima perioadă.
Intervalul de încredere (1 − α ) *100% pentru F în prezenţa efectelor
Fˆ 1 1
carry – over inegale va fi ± t⎛ α ⎞
Sf + .
C ⎜ , n1 + n2 − 2 ⎟ n1 n2
⎝2 ⎠

Ipoteza nulă privind absenţa efectului direct este respinsă dacă


C
〉t ⎛ α ⎞
.
1 1 ⎜ ,n1 + n2 − 2 ⎟
Sf + ⎝2 ⎠
n1 n 2
În practică, în prezenţa efectelor carry – over inegale, datele din
prima perioadă sunt folosite efectiv pentru a testa bioechivalenţa, dar nu
trebuie să uităm următoarele consecinţe ale acestei proceduri:
1) Puterea de detecţie a diferenţelor semnificative clinic este micşorată
datorită creşterii dispersiei şi,

128
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

2) Pierderea de informaţie anulează însăşi avantajul experimentului


crossover şi anume eliminarea variabilităţii între subiecţi în compararea
formulărilor.

2.10.4.Efectul perioadei

Să definim următoarele diferente:


⎧ d , pentru.subiectii in sec venta 1 (T − R ) ⎫
Oik = ⎨ ik ⎬
⎩− d ik , pentru.subiectii in sec venta 2 (R − T )⎭
Valoarea medie şi dispersia acestor diferenţe cross – over sunt:
⎧1 ⎫
⎪ 2 [(P2 − P1 ) + (FT − FR ) + C R ], pentru subiectii in sec venta 1⎪
E (Oik ) = ⎨ ⎬
1
⎪ [(P1 − P2 ) + (FT − FR ) − CT ], pentru subiectii in sec venta 2⎪
⎩2 ⎭

şi
σ e2
D(Oik ) = σ d2 =
2
Fie O.1 şi O.2 mediile de selecţie ale diferenţelor în secvenţele 1 şi 2. Avem
⎧ d pentru k = 1 ⎫
O.k = ⎨ .1 ⎬
⎩d .2 pentru k = 2⎭
Un estimator nedeplasat pentru efectul perioadei P poate fi obţinut ca
1
[( ) (
Pˆ = O.1 − O.2 = Y.21 − Y.11 − Y.12 − Y.22
2
)]
Deoarece CT + C R = 0 , P̂ este un estimator de dispersie minimă
pentru P, indiferent de prezenţa efectelor carry – over inegale.
Un interval de încredere (1 − α ) *100% pentru P este
1 1
Pˆ ± t ⎛ α ⎞
σˆ d + .
⎜ , n1 + n2 − 2 ⎟ n1 n2
⎝2 ⎠

129
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

Respingem ipoteza nulă privind absenţa efectului de perioadă:


H 0 : P1 = P2 , H a : P1 ≠ P2 atunci când T0 〉 t ⎛ α ⎞
, unde
⎜ , n1 + n2 − 2 ⎟
⎝2 ⎠

Pl
T0 = .
1 1
σˆ d +
n1 n2
Interferenţa statistică pentru efectele carry – over, directe şi de
perioada sunt prezentate, în rezumat, în tabelul urmator

Tabel nr. 15: Teste statistice pentru efectele fixe într-un experiment 2*2
cross – over.

Efect Efecte MVUE* (1 − α ) / 100%C.I . Test statistic


carry –
over
inegale
- l = U −U = 1 1 l
-

C l ±t C
.2 .1
C σ + Tc =
(Y ) (
⎛α ⎞ u
+ Y.21 − Y.12 + Y.22 ⎜ , n1 + n2 − 2 ⎟ n1 n2 1 1
σu +
Carry

⎝2 ⎠
.11
over

n1 n2
Nu l = d −d =
F 1 1 l
F
l ±t σ + Td =
Efect direct

.1 .2
F ⎛α ⎞ d
1 1
1⎡
( ) (
⎜ , n1 + n2 − 2 ⎟ n1 n2
Y.21 − Y.11 − Y.22 − ⎝2 ⎠ σd +
2⎣ n1 n2

Da l
F l
F 1 1 l
F
Efect indirect

= Y.12 − Y.11 ±t Sf +
C C ⎛⎜⎝ α2 ,n1 + n2 − 2 ⎞⎟⎠ n1 n2 Tf = C
1 1
Sf +
n1 n2
- l = O −O =
P 1 1 l
P
.1 .2 l ±t
P σd + To =
⎛α ⎞
1 1
1⎡
( ) (
Perioada

⎜ , n1 + n2 − 2 ⎟ n1 n2
Y.21 − Y.11 + Y.12 − ⎝2 ⎠ σd +
2⎣ n1 n2

130
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t

MVUE* – minimum variance unbiased estimate – estimare nedeplasata de


dispersie minima.

131
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

2.11. Estimarea efectelor prin ANOVA

2.11.1. Modelul Statistic General

Analiza dispersională a datelor de bioechivalenta urmeaza un model


statistic de ANOVA pe doua cai cu interactiuni de tipul:
Yijk = μ + α k + β j + γ jk + ε ijk
Să notăm că prezenţa unui efect de interacţiune este echivalentă cu
ne-aditivitatea efectelor principale.
Suplimentar fata de conditiile puse la ANOVA pe doua cai, vom
avea

j
∑ γ jk =∑ γ jk =0
k

Statisticienii vorbesc despre “nivelele” pe care le iau factorii.


Termenul se referă in fapt la valorile (numerice sau calitative) pe care le
poate lua factorul. De exemplu dacă factorul este perioada într-un
experiment de bioechivalenţă nivelele sale sunt I, II, III dacă experimentul
are trei perioade. În ceea ce priveşte factorul formulare nivelele acestea sunt
medicamentele experimentate (de exemplu referinţă, testat 1 şi testat 2).
Într-un experiment standard de bioechivalenţă secvenţa are două nivele RT
şi TR. Trebuie avut totuşi în vedere că aceaşti factori nu sunt toţi
independenţi unii din ei putându-se obţine prin combinaţii liniare de ceilalţi.
Problema, la modul general, sufera o complicare majora atunci cand
numarul nivelelor luate de un factor, nu este acelasi in fiecare celula, caz in
care se spune ca experimentul nu mai este echilibrat (balansat). Ne vom
limita, pentru moment, la studiul cazului echilibrat asa cum se face, se pare,
in toate cartile si articolele publicate. Din pacate cazul mult mai frecvent in
experimentele clinice este acela neechilibrat. De exemplu, in experimentele
de bioechivalenta, datorita iesirii din experiment a unora dintre subiecti,
secventele raman inegale.
In chiar cazurile ca modelul se aplica experimentelor clinice, exista
posibilitatea unei confuzii de termeni. Astfel , in lucrarile de statistica
observăm că „repetiţie” semnifică faptul că acelasi experiment se repetă pe
mai multi voluntari sau pacienţi, în timp ce, in experimentul de biostatistica,
repetiţia înseamna administrarea aceluiaşi medicament de mai multe ori la
acelaşi subiect deci in mai multe perioade, ceea ce este cu totul alt model de
studiu.
Ipoteza de verificat este aceea a lipsei efectelor factorilor si, ca
urmare si a interactiunii intre acestia.
131
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

⎧ H A : α k = 0 unde 1 ≤ k ≤ K

H0 : ⎨ H B : β j = 0 unde 1 ≤ j ≤ J
⎪ H : γ = 0 unde 1 ≤ j ≤ J si 1 ≤ k ≤ K
⎩ AB jk

H alternativa : cel putin un factor este diferit de 0


Se notează cu:
1
Y••• = ∑∑∑ Yijk si cu Y••• =
i j k
∑∑∑ Yijk
IJK i j k
Y• jk = ∑ Yijk şi cu Y • jk = 1
I ∑Y ijk
i i

Y• j • = ∑∑ Yijk şi cu Y • j • = 1
IK ∑∑ Y ijk
i k i k

Y••k = ∑∑ Yijk şi cu Y ••k =


i j
1
IJ ∑∑ Y
i j
ijk

Atragem atentia ca, intr-un experiment neechilibrat, formulele


pentru calculul mediilor prezentate mai sus nu mai raman valabile. Mediile
de selectie de tipul celor de mai sus sunt estimatori nedeplasati ai efectului
celor doua formulari numai atunci cand secventele sunt egale.
In fapt experimentele sunt proiectate sa fie echilibrate dar pana la
sfarsit ele devin neechilibrate.
Se observă că:
( ) (
∑ Yijk − Y••• = ∑ Y••k − Y••• + ∑ Y• j• − Y••• + ) ( )
∑ (Y • jk − Y• j • − Y•• k + Y••• + ) ∑ (Y ijk − Y• jk )
Si, deoarece produsele mixte ale sumelor de mai sus sunt nule,
eroarea totala se poate descompune dupa cum urmeaza:
∑ (Y − Y ) =
2
SS T = ijk •••

(
= ∑ Y•• k − Y••• ) + ∑ (Y − Y ) + ∑ (Y
2
• j• •••
2
• jk − Y• j • − Y•• k + Y••• )
2
+

∑ (Y ) 2
− Y• jk = S A2 + S B2 + S AB
ijk
2
+ S R2
Termenii acestei diferenţe corespund respectiv efectelor principale,
interacţiunilor şi unei fluctuaţii aleatoare.
Deoarece indicele i se refera la subiectii experimentului Yijk − Y• jk ( )
,diferenta intre valoarea subiectului i si media subiectilor din perioada j si
secventa k, reprezinta o „intervariabilitate”. In biologie aceasta este foarte

132
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

mare si ipoteza unor subiecti „identici” este departe de realitate sau se poate
lua in calcul in cazul unor studii pe populatii foarte mari.
Pentru modelul echilibrat, dat fiind modelul statistic, sumele
obtinute sunt estimari respectiv pentru parametrii cercetati de noi:
(
α̂ k = Y•• k − Y••• ; ) βˆ j = Y• j • − Y••• ( )
γˆ jk = (Y• jk − Y• j • − Y•• k + Y••• ; ) μˆ = Y...
Statistica F pentru verificarea ipotezelor H A , H B , H AB are la
numărător respectiv mediile sumelor de pătrate S A2 , S B2 , S AB
2
, iar la numitor
întotdeauna media sumei pătratelor rezidualelor S R2 . Gradele de libertate
sunt respectiv (ν A ,ν R ) , (ν B ,ν R ) , (ν AB ,ν R ) unde:
ν A = K − 1 , ν B = J − 1 , ν AB = (J − 1)(K − 1) si ν R = JK (I − 1)
Sinteza formulelor de calcul este dată în tabelul urmator.
Testarea ipotezelor privind actiunea factorilor asupra rezultatelor
studiului incrucisat.
Grade de Media sumei
Varia Suma pătratelor
libertate pătratelor Statistica F
ţia (SS)
(df) (MS=SS/df)
S A2
( )
2
S = IJ ∑ Y ••k − Y •••
2
MS A = MS A
A νA = K −1 A
νA
FA =
k MS R
S B2
( )
2
S = IK ∑ Y • j • − Y •••
2
MS B = MS B
B νB = J −1 B
νB
FB =
j MS R
2
SAB = 2
S AB
MS AB =
Interacţiuni

ν AB = MS AB
(J −1)(K −1) (
I ∑∑ Y • jk − Y • j• −Y ••k + Y ••• ) 2 ν AB FAB =
MS R
j k
AB

S R2
MS R =
νR =
( )
2
SR2 = ∑∑∑ Yijk − Y • jk
Rezidual

νR
JK (I − 1) i j k
R

( )
2
ν S = IJK − 1 SST = ∑∑∑ Yijk − Y •••
Total

i j k

133
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua


medicamente, incrucisat, cu doua perioade si doua secvente

Modelul Biostatistic
Se consideră două medicamente, unul de testat (T) şi unul de
referinţă (R), administrate unui lot de voluntari sănătoşi în două secvenţe
(RT) şi (TR) şi două perioade (I şi II). Fiecare subiect este asignat aleator fie
secvenţei 1 (RT), fie secvenţei 2 (TR). Subiecţii în cadrul secvenţei RT (TR)
primesc medicamentul R (T) în prima perioadă şi medicamentul T (R) în
cea de a doua perioadă. Perioadele de administrare sunt, de obicei, separate
printr-o perioadă de „spalare ” de cel puţin de trei ori timpul de înjumătăţire
al substanţei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalenţa dintre cele
două medicamente („formulations” în literatura engleză).
Pentru aceasta se aplica modelul de analiză statistica prezentat
anterior:
Yijk = μ +αk + β j +γ jk +εijk
Rezultatele experimentului sunt variabile aleatoare Yijk pe care le
considerăm având următoarea structură:
Yijk = μ + Cj−1,k + Pj + Fjk +εijk + Sik
unde μ este media totala, i este indicele pentru subiect, i = 1, nk , j este
indicele pentru perioadă şi k este indicele pentru secvenţa. F jk este efectul
direct, fix, al medicamentului (formulării) administrat în perioada j, în
secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament
măsurată sau un parametrul farmacocinetic calculat pornind de la aceasta).
C j −1,k este efectul carry – over (fix) al medicamentului administrat în
perioada j-1, de exemplu concentratia medicamentului ramas in organism
in perioada II din administrarea in perioada I.
Considerăm că, datorită existenţei unui interval de timp “de spălare”
suficient intre administrari, efectul carry – over nu depăşeşte perioada
consecutiva celei in care a fost administrat medicamentul.
eijk reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru
fiecare subiect.

134
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Considerăm ca variabilele S ik (“efectul de subiect”) sunt repartizate


identic pentru toate formularile administrate, cu media 0 şi dispersia σ s2 , iar
variabilele eijk sunt repartizate N (0, σ e2 ) .
În fapt, dupa cum a prezentat FDA ca argument pentru introducerea
bioechivalentei individuale, dispersiile erorilor pot diferi de la un
medicament la altul.

Modelul se mai poate scrie si sub forma :


Yijk = μjk +Sik +εijk
unde efectul fix μ jk este de forma prezentata in tabelul nr. 17

Tabelul nr. 17: Componenta nealeatoare a parametrilor farmacocinetici


Secvenţa Perioada (j=1,2)
(k=1,2) I II
1 (RT) μ11 = μ + P1 + FR μ12 = μ + P2 + FT + C R
2 (TR) μ 21 = μ + P1 + FT μ 22 = μ + P2 + FR + CT

unde
FR (FT) reprezintă efectul direct al administrării medicamentului R (T);
P1 (P2) reprezintă efectul administrării în perioada I (II);
CR (CT) reprezintă efectul rezidual („carry-over”) al administrării
medicamentului R (T).

şi P1+P2 = FR+FT = CR+CT = 0,

Procedand ca in cazul general prezentat mai sus, se descompune


suma totala a erorilor in sume cu ajutorul carora se pot estima efectele de
secventa ( SS carry ), de perioada ( SS P ), de formulare ( SS drug ), precum si a
variabilitatilor intraindividuala ( SS int ra ) , interindividuala ( SS int er ).
1
Se folosesc notatiile Y. = ∑ Yi si Y. = ∑ Yi ( unde n este
i n i
numarul valorilor sumate).

135
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Tabelul nr. 18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si

SSTotal =
∑ (Y ) ∑ (Y ) ∑ (Y ) ∑(Y ) ∑ (Y )
2 2 2 2 2
− Y••• = − Y••• + − Y••• + − Y• jk
ijk •• k • j•
• jk − Y• j• − Y••k + Y••• + ijk

SSα SS β SS γ
SS within =
∑ (Y ) ∑ (Y ) ∑ (Y ) ∑((Y ) ( ))
2 2 2 2
ijk − Yi•k = • j• − Y••• + • jk − Y• j • − Y•• k + Y••• + ijk − Y• jk − Yi•k − Y••k

SS P SS drug SS int ra
SS between =
∑ (Y ) ∑ (Y ) ∑(Y )
2 2 2
i •k − Y••• = •• k − Y••• + i•k − Y••k

SS carry SS int er
interactiunile intre acestia

136
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Deci, se vede ca avem:


• SS Between exprimă variabilitatea dintre subiecţi,
• SS within exprimă variabilitatea intra-subiecţi, si
• SS within = SS P + SS drug + SS int ra
SSTotal are ν T = 2 ( n1 + n2 ) − 1 grade de libertate. Cum sunt n1 + n2 subiecţi
în ambele secvenţe SS within are ν Within = n1 + n2 grade de libertate, iar
SS Between are ν Between = n1 + n2 − 1 grade de libertate.
In locul acestor formule se folosesc formule prescurtate.
Mentionam aceste formule prescurate deoarece ele apar practic in
toate cartile de farmacie sau de statistica aplicata in farmacie. Ele reprezinta
avantajul unor calcule mai rapide si dezavantajul ca nu sunt „inteligibile”,
nefiind clara legatura lor cu variabilitatile parametrilor studiati.

2.11.3. Calculul variabilitatii interindividuale


Vom deduce formula uzuala pentru SS int er = 2∑∑ Y i•k − Y •• k ( )2

k i
Ridicand la patrat se obtine
SSint er =
⎛ 2⎞ ⎛ Y 2⎞
= 2∑ ⎜ ∑ Yi •k − 2Y••k ∑ Yi•k + nk Y••k ⎟ = 2∑ ⎜ ∑ Yi•k − 2Y••k ∑ i•k + nk Y••k ⎟ =
2 2

k ⎝ i i ⎠ k ⎝ i i 2 ⎠
⎛ Y 2⎞ ⎛ 2⎞
= 2∑ ⎜ ∑ Yi •k − 2Y••k ••k + nk Y••k ⎟ = 2∑ ⎜ ∑ Yi•k − 2Y••k * nk * Y••k + nk Y••k ⎟ =
2 2

k ⎝ i 2 ⎠ k ⎝ i ⎠
Yi•k 2 Y 2
= ∑∑ − 2∑ nk ••k 2
k i 2 k ( 2nk )
Yi•k Y
Mai departe, deoarece prin definitie, Y i •k =
; Y ••k = ••k se
2 2nk
obtine formula „farmaceutica” a sumei patratelor intersubiecti:
Yi.2k Y..2k
SS int er = ∑ −∑
k ,i 2 k 2n k

137
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Facem observatia ca la descompunerea sumelor am folosit termenii


in engleza deoarece in aceasta limba exista cate doua cuvinte (provenind din
latina si din saxona) corespunzand cuvintelor romanesti inter si intra.

2.11.4. Calculul efectelor de secventa

In ceea ce priveste SS carry , el se poate obtine din diferenta intre


mediile secventelor, care este egala cu diferenta efectelor reziduale din cele
doua secvente, motiv care justifica si utilizarea „interschimbabil” a celor
doi termeni .
n Y ••1 + n2 Y ••2
Intr-adevar, observând că Y ••• = 1 rezultă
n1 + n2

( ) ( )
2 2
SSCarry = 2n1 Y ••1 − Y ••• + 2n2 Y ••2 − Y •••

2n1n22 2n12 n2
(Y ) (Y ) 2n1n2
( )
2 2 2
= ••1 − Y ••2 + •• 2 − Y ••1 = Y ••2 − Y ••1
( n1 + n2 ) ( n1 + n2 ) n1 + n2
2 2

2n1n2
{ ( ) ( )}
2
= 1 ⎡ Y •12 + Y •22 − Y •11 + Y •21 ⎤
n1 + n2 2 ⎣ ⎦

CT − CR
⎧1
Media parantezei ⎨ ⎡ Y •12 + Y •22 − Y •11 + Y •21
⎩2 ⎣
( ) ( )⎤⎦ ⎫⎬⎭ este
2
conform demonstratiei ce urmeaza:
Yijk = μ + Sik + Pj + F jk + C j −1, k + ε ijk
Calculand mediile corespunzatoare lui Y•11 , Y•12 , Y•21 si Y•22 vom
obtine:
( )
E Y•11 = μ + P1 + FR ( )
E Y•21 = μ + P2 + FT + CR
E (Y ) = μ + P + F
•12 1 T E (Y ) = μ + P + F + C
•22 2 R T

E (Y + Y ) = 2 μ + C
•12 •22 T E (Y + Y ) = 2μ + C
•11 •21 R

⎛ ⎧1
De unde rezulta ca: E ⎜ ⎨ ⎡ Y •12 + Y •22
⎝⎩2 ⎣
( ) − (Y + Y )⎦⎤ ⎭⎫⎬ ⎠⎞⎟ = C −2 C
•11 •21
T R

138
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Deci, efectul ce apare din diferenta intre secvente este in fapt legat
de diferenta intre efectele rezidule din cele doua secvente.
SS Carry şi SS Inter au respectiv ν Carry = 1 şi ν Inter = n1 + n2 − 2 grade de
libertate.

Calculul simplificat al erorii intraindividuale


Dupa cum s-a aratat in tabelul de mai sus, SS within poate fi
descompusa in trei componente: o componenta datorata efectului direct al
medicamentului ( SS drug ), o componenta datorata perioadei ( SS P ) si o
componenta datorata variabilitatii intra – subiect
( SS int ra ): SS within = SS P + SS drug + SS int ra
Dintre aceste trei componente, SSint ra este in fapt singurul termen
legat de variabilitatea biologica intraindividuala. Vom deduce in continuare
o formula de calcul “rapid” al acestui termen .
(∑ x ) 2

∑ (x ) = ∑x
2
−x 2

i
Aplicand succesiv formula i i se obtine
n
dupa cum urmeaza.
2

( ⎤
⎢ ∑ Y ijk − Y • jk ⎥ )
∑ ((Y ) ( )) = ∑ (Y ) −∑ ⎣ j ⎦
2 2
SS int ra = ijk − Y • jk − Y i • k − Y • • k ijk − Y • jk =
2

2
⎛ ⎞
⎜ ∑ Y ijk ⎟
⎝ i ⎠ − (
Yi • k − Y•• k )
2
Y •2jk Y i •2k Y •2• k
= ∑ Yijk2 − ∑ nk

k ,i 2
= ∑ Yijk2 − ∑ nk
−∑
2
+ ∑ 2nk

2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor


Descompunerea lui SS within permite testarea ipotezei privind
prezenţa variabilităţii inter-subiecţi, adică: H 0 : σ s2 = 0 versus H a : σ s2 > 0 .
În acest sens se foloseşte statistica
SS ν
FV = Inter Inter .
SS Intra ν Intra

139
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Similar, celelalte efecte se pot testa cu ajutorul raportului intre suma


erorilor corespunzatoare si SSint ra (pe post de SS R in modelul general).

Sinteza formulelor de calcul este dată în tabelul urmator.

Tabelul nr. 19: Analiza efectelor fixe cu ajutorul dispersiilor:

Sursa de df SS MS F
variatie
Inter - subiecti
Secventa (carry ν Carry = 1 SS Carry MS Carry = FCarry =
- over
SS Carry MS Carry
= =
ν Carry MS int er
Reziduale ν Inter = n1 + n2 − 2 SS Inter MS int er = Fint er =
SS Inter MS int er
= =
ν Inter MS int ra
Intra - subiecti
Efectul direct al νF =1 SS F MS F = SS F
FF =
medicamentului νF *
= MS F
MS int ra
Perioada νP =1 SS P MS P = SS P
FP =
νP
= MS P
MS int ra
Reziduale ν Intra = n1 + n2 − 2 SS Intra MS Intra =
SS Intra
=
ν Intra
Total ν Total = 2(n1 + n2 ) − 1 SS Total

*
Formula este validă doar dacă efectul carry-over este nul.

Observatii

Vom studia acum legătura dintre cele două modele reprezentate in


Tabelul nr.1 si Tabelul nr.4

140
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

Dacă factorul A este secvenţa de administrare a medicamentului si


factorul B este perioada, atunci α este suma intre efectul carry-over si
⎛ FR FT ⎞
efectul subiectilor, β = ( P1 P2 ) este efectul perioadei si γ = ⎜ ⎟
⎝ FT FR ⎠
este efectul interacţiunii secvenţei de administrare a medicamentului cu
perioada (adică efectul direct al medicamentului „formulation”).
Se observă că sunt verificate conditiile specificate la prezentarea
modelului general:
α1 + α 2 = 0 = CR + CT
β1 + β 2 = 0 = P1 + P2
γ 11 + γ 12 = 0 = FR + FT = γ 21 + γ 22
γ 11 + γ 21 = 0 = FT + FR = γ 12 + γ 22

Facem observatia, altfel esentiala, ca prezentarea in foarte multe


lucrari de biostatistica si bioechivalenta a efectului medicamentului ca
interactiune intre secventa si perioada este de neinteles in lipsa
identificarilor de mai sus.
In fapt, este vorba de combinatii intre variabile care sa permita
separarea efectelor. Aceste combinatii pot aparea ca efecte ai unor factori ce
nu se regasesc intr-un tablou farmacologic al determinantilor diferentelor
intre formulari.
Efectul de secventa (carry) ramane o piatra de incercare in
experimentele de bioechivalenta si aparitia lui in studii efectuate pe baza de
protocoale concepute astfel incat sa se evite complet aparitia efectelor
reziduale, este de neexplicat.

141
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA

142
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

2.12. Legatura intre ANOVA si testul t in compararea efectelor

2.12.1. Compararea intre modelul statistic general si modelul statistic specific


„cross – over”

In esenta, diferenta intre cele doua modele se refera la alegerea


„termenului rezidual”;
modelul 1 nu descompune pe S R2 ;
modelul 2 distinge între reziduale intra-individuale şi reziduale inter-
individuale.
Mai exact:
SS T = S A2 + S B2 + S AB
2
+ S R2 = SS carry + SS P + SS drug + SS int ra + SS int er =
= (SS carry + SS int er ) + (SS P + SS drug + SS int ra ) =
= SS between + SS within = SS total
Această descompunere modifică formulele statisticilor F . In modelul
„biostatistic” se imparte cu un numar mai mic ( MSint ra ) ceea ce conduce la un
interval de incredere mai larg pentru efectele de formulare si deci la cresterea
probabilitatii de acceptare a „egalitatii efectelor”.

2.12.2. Testarea efectului secvenţei de administrare folosind metoda


ANOVA:

2
⎛ ⎞
( )2
MS carry = SS carry = 2n1 Y••1 − Y••• + 2n 2 Y••2 − Y•••( )
2 n Y + n 2 Y••2
= 2n1 ⎜⎜ Y••1 − 1 ••1
n1 + n 2


⎝ ⎠

⎛ n Y + n2 Y••2
+ 2n2 ⎜⎜ Y••2 − 1 ••1
2
(
⎞ 2n1 n 22 Y••1 − Y••2
⎟ =
)
2

+
(
2 n 2 n 12 Y • • 2 − Y • • 1 )
2

n1 + n2 ⎟ (n1 + n2 )2 (n 1 + n2 )
2
⎝ ⎠
2
⎛ ⎞
⎜ ⎟
( ) = 2(Y 1 − Y1 ) ( )
2
2 n1 n 2 2 ⎜ 2 Y − Y••1 ⎟
= Y ••2 − Y ••1 ••2 ••1
= ⎜ ••2 ⎟ =
n1 + n 2 ⎜ 1 1 ⎟
+ +
n1 n2 ⎜ n n ⎟
⎝ 1 2 ⎠

143
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

2
⎡ ⎤
2 ⎢ ⎥
U •1 − U •2 ⎥
2n1n2 ⎧1 ⎡
( ) ( ) ⎤ ⎫⎬ = 2n1n2 U •1 − U •2 ( ) ⎢
2
⎨ ⎣ Y•12 + Y•22 − Y•11 + Y•21 ⎦ ⎭ n1 + n2
=2
⎢ 1 1 ⎥
n1 + n2 ⎩2
⎢ + ⎥
⎢⎣ n1 n2 ⎥⎦

2 2
⎛ ⎞ ⎛ ⎞
⎜ ⎟ ⎜ ⎟
MScarry U − U •2 ⎟ * 1 = ⎜ U •1 − U •2
Deci, = 2 ⎜ •1 ⎟
MSint er ⎜ 1 1 ⎟ 2σˆ u2 ⎜ 1 1 ⎟
⎜⎜ + ⎟⎟ ⎜⎜ σˆ u + ⎟⎟
⎝ n1 n2 ⎠ ⎝ n1 n2 ⎠

Se observa ca decizia obtinuta prin ANOVA in ceea ce priveste efectul


rezidual este acelasi cu rezultatul obtinut prin testul t.
Incercam, in continuare, sa facem aceiasi comparatie intre cele doua
metode de evaluare a efectului de perioada.

2.12.3. Testarea efectului perioadei folosind ANOVA

( ) = ∑∑ n (Y )
2 2
SSP = ∑∑∑ Y • j • − Y ••• k • j• − Y •••
k j i k j

(
= ( n1 + n2 ) ⎡ Y •1• − Y ••• ) + (Y )
− Y ••• ⎤
2 2
•2•
⎢⎣ ⎥⎦

⎣ { ( ⎦ ⎣ )
2
= ( n1 + n2 ) ⎡ n1n+2n2 Y •1• − Y •2• ⎤ + ⎡ n1n+1n2 Y •2• − Y •1• ⎤
⎦ ( )
2

}
n12 + n22
( )
2
= Y •2• − Y •1•
n1 + n2

Observatie:
MS β
Observam ca nu mai duce la acelasi rezultat ca in testul t efectuat
MS int ra
pentru variabilele O•1 si O•2 .

144
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

Nepotrivirea apare din aceea ca nu stim exact cum sa calculam media


Y• j1 + Y• j 2
perioadei: media „least square” Y• j • = sau media obisnuita
2
Y• j •
Y• j • =
n1 + n2
In acelasi context, al secventelor inegale, mai avem si media totala cand
apare problema folosirii mediei mediilor secventelor („least square”) sau media
obisnuita.
Mentionam ca in literatura formulele finale sunt date fara demonstratie, iar
in aplicatiile efective sunt luate intotdeauna variante pentru cazul particular
n1 = n2 (secvente egale).
Problema isi are importanta deoarece, de cele mai multe ori, la finalul
experimentului de bioechivalenta nu mai avem n1 = n2 .

Concluzii:

În practică, în prezenţa efectelor carry – over inegale, si deci a aparitiei


efectelor de secventa, se recomanda a se folosi pentru a testa bioechivalenţa,
datele din prima perioadă. Nu trebuie să uităm insa următoarele consecinţe ale
acestei proceduri:
1) puterea de detecţie a diferenţelor semnificative clinic este micşorată
datorită creşterii dispersiei ( se inlocuieste dispersia intraindividuala cu cea
interindividuala) şi,
2) pierderea de informaţie prin acceptarea existentei unor efecte de secventa
si renuntarea la datele din perioada a – 2 – a.
In fond se anulează avantajul major al experimentului crossover şi anume faptul
ca fiecare subiect este propriul sau martor.

Analiza dispersionala (ANOVA) se aplica in toata lumea in evaluarea


studiilor de bioechivalenta, dar in final rezultatele sale nu influenteaza in nici un
fel decizia privind bioechivalenta.
Efectele de perioada nu influenteaza estimarea efectelor de formulare.
Aparitia efectelor de formulare nu semnifica nimic! Egalitatea nu implica
bioechivalenta si nici bioechivalenta nu implica egalitatea.
Aparitia efectelor de secventa invalideaza metoda de testare a efectelor de
formulare. Pe de alta parte insa, testarea egalitatii duce la o informatie
nesemnificativa.
145
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor

In acelasi timp este de mentionat ca toate ghidurile referitoare la analiza


bioechivalentei recomanda utilizarea MSE „mean square erorr” in formula de
testare a bioechivalentei. Dar aceasta iarasi nu inseamna nimic. In fond
MSE = 2σ d2 si nimic nu ne impiedica sa estimam direct σ d2 prin S d2 care este mai
usor calculat si rezultatul este acelasi.
Ramane totusi ca ANOVA – in cazul in care pune in evidenta efectele de
secventa – impune o examinare atenta a protocolului studiului si verificarea
masurilor de indepartare a efectelor reziduale.
Ca o concluzie finala, ANOVA nu este un instrument de decizie, rolul sau
fiind „informativ”.

146
II. Statistica matematica si biostatistica Estimarea bioechivalentei

2.13. Estimarea bioechivalentei

2.13.1. Metode parametrice de estimare a bioechivalentei


2.13.1.1. Metoda intervalului de incredere
Anterior a fost prezentata modalitatea de testare a ipotezei nule ca
doua produse sunt “egale” intre ele dupa efectuarea unui experiment 2*2
cross-over, metoda care a fost criticata de multi autori. In locul acesteia a
fost propusa de Metzler 1 o metoda bazata pe intervale de incredere.
Daca intervalul de incredere (1 − 2α ) *100% pentru diferenta
μT
μT − μ R sau pentru raportul se afla in limitele de acceptare impuse,
μR
atunci se accepta ca medicamentul testat este bioechivalent cu cel de
α
referinta. Uzual se aplica regula ± 20% , iar = 0.05 si, in acest caz,
2
regula de acceptare devine:
a) Produsele sunt bioechivalente daca intervalul de incredere 90%
pentru μT − μ R este in limitele ± 20% din efectul produsului de referinta
sau daca,
μT
b) este intre 80% si 125% cu probabilitatea 90%.
μR
Aici trebuie facuta observatia ca, in ambele cazuri, aplicarea regulii
presupune cunoasterea lui μ R , ceea ce nu este niciodata cazul, si se ia din
acest motiv YR pe post de μ R .

2.13.1.2. Metoda celor “doua teste unilaterale”, Schuirmann


Ipoteza nula este ipoteza compusa din doua ipoteze simple, testul de
bioechivalenta descompunandu-se de fapt in doua teste unilaterale:
H 01 : μ T − μ R ≤ θ I vs H a1 : μT − μ R 〉 θ I si
H 02 : μ T − μ R ≥ θ S vs H a 2 : μ T − μ R 〈 θ S
O biodisponibilitate mai mare a produsului testat decat cel de
referinta, implica posibilitatea unor efecte secundare sau toxice crescute si o
“siguranta” mai mica. Bioechivalenta implica o echivalenta atat in ceea ce
priveste efectul cat si in ceea ce priveste siguranta.

1
C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974
147
II. Statistica matematica si biostatistica Estimarea bioechivalentei

Daca vrem sa testam ipotezele enuntate la un nivel de semnificatie


α , in conditiile in care presupunem ca datele sunt normal repartizate, putem
aplica testul t. Echivalenta este stabilita atunci cand

TI =
( )
YT − YR − θ I
〉 t(α , n1 + n2 − 2 ) si TS =
( )
YT − YR − θ S
〈 − t (α , n1 + n2 − 2 )
1 1 1 1
σˆ d + σˆ d +
n1 n2 n1 n2
MSE
σl d =
2
(MSE = Mean Square Error din ANOVA),
2
RMSE
deci σl d = (RMSE = Root Mean Square Error)
2
Observam ca procedeul celor doua teste t unilaterale este echivalent
cu metoda clasica de testare a includerii intervalului de incredere pentru
μT − μ R cu probabilitatea (1 − 2α ) *100% in intervalul de acceptare.

2.13.1.3. Transformarea logaritmica a datelor


Ghidurile de testare a bioechivalentei recomanda transformarea
logaritmica a datelor.
Daca datele initiale sunt repartizate normal si coeficientul de variatie
este mic, atunci si datele transformate urmeaza aproximativ o distributie
normala.
⎛X −μ⎞ σ2
Pentru a demonstra aceasta observam ca : D⎜⎜ ⎟⎟ = 2 = CV 2
⎝ μ ⎠ μ
X −μ
Daca CV este suficient de mic este aproximat de zero si :
μ
⎛X⎞ ⎛ X −μ⎞ X −μ
ln X − ln μ = ln⎜⎜ ⎟⎟ = ln⎜⎜1 + ⎟≅
⎝μ⎠ ⎝ μ ⎟⎠ μ
X −μ
Deci, ln X ≅ ln μ + ; E (ln X ) = ln μ si D(ln X ) = CV 2
μ
Deci, ln X = N (ln μ , CV 2 ), adica datele transformate sunt distribuite
normal cu media ln μ si dispersia CV 2 .
Deci, coeficientul de variatie obtinut din datele netransformate este o
estimare a dispersiei datelor transformate.

148
II. Statistica matematica si biostatistica Estimarea bioechivalentei

De obicei insa transformarea logaritmica are rostul de a corecta


σ2
asimetria datelor initiale si a le « restrange » prin aceea ca σ 2 trece in .
μ2
In cazul in care CV 2 nu este foarte mic lucrurile sunt cu mult mai
complicate.
Intervalul de incredere pentru diferenta mediilor datelor transformate
μ T − μ R sunt aproximativ egale cu cele pentru logaritmul raportului
∗ ∗

⎛μ ⎞
mediilor netransformate ln⎜⎜ T ⎟⎟ .
⎝ μR ⎠
Intr-adevar, fie E ( X T ) = μT , E(X R ) = μ R , E (ln X T ) = μ T∗ si
D(ln X T ) = D(ln X R ) = σ 2

Avem:
μT = E ( X T ) = E ( eln X T
) ≅ E ⎛⎜⎝1 + ln X T +
1
2
( ln X T ) ⎞⎟ =
2


σ2
= 1 + μT∗ + E ( ln X T ) = 1 + μT∗ + (σ 2 + μT∗ 2 ) = e μT +
1 2 1 ∗

2 2 2
μ R∗ σ2
Similar obtinem: μ R = e +
2
σ μ T∗
2
e +
μT 2 si cum σ este de asteptat sa fie
2
Ca urmare ln = ln
μR μ σ2 ∗2
e R
+
2
μ R∗ μ T∗
foarte mic in raport cu e si e , avem :

μT e μT
ln ≅ ln μ ∗ = μT∗ − μ R∗
μR e R

2.13.2. Metode non – parametrice de testare a bioechivalentei


Daca nu sunt verificate ipotezele necesare aplicarii ANOVA (si
implicit a testului t), in particular ipotezele privind normalitatea si egalitatea
dispersiilor, intervalul de incredere se determina folosind testele non-
parametrice. Metoda se bazeaza pe compararea rangurilor. In analiza
bioechivalentei, exista indoieli si incertitudini in ceea ce priveste natura
distributiei parametrilor farmacocinetici . Timp de multi ani parametrii

149
II. Statistica matematica si biostatistica Estimarea bioechivalentei

bioechivalentei au fost analizati ca valori netransformate. Ulterior


reglementarile oficiale au recomandat transformarea logaritmica a datelor.
In prezent, analiza statistica se bazeaza pe transformarea logaritmica
⎛ A⎞
a AUC si a valoarii C max . Deoarece ln A − ln B = ln⎜ ⎟ aceasta este o
⎝B⎠
analogie (dar nu acelasi lucru) cu analiza raportului parametrilor estimati.
O metoda de calcul neparametric a intervalului de incredere pentru
raportul parametrilor a fost data de Hollander si Wolfe 2 si extinsa ulterior
alaturi de alte metode nonparametrice de Steinijens si Diletti 3 .
Metodele sunt tentante dar, un lucru esential trecut de obicei sub
tacere este acela ca se presupune ca nu apar efecte de perioada sau efecte de
secventa. Pe de alta parte, chiar daca statistica arata aparitia unor astfel de
efecte, nu avem nici o garantie ca acestea sunt reale. In fapt o decizie
corecta privind aceste efecte se bazeaza numai pe evaluarea
fenomenologica, pe baza proprietatilor fizicochimice ale substantelor active,
a considerentelor fiziologice si a caracteristicilor designului experimentului
clinic.
Consideram N subiecti intr-un experiment cross-over cu doua
perioade si doua secvente ( care insa nu se iau in calcul). In prima faza se
determina diferentele pentru fiecare subiect (Testat – Referinta). Pentru
cazul unei transformari logaritmice a AUC se compara diferentele
logaritmului raspunsurilor pentru fiecare subiect:
⎛ AUCT ⎞
ln( AUCT ) − ln( AUC R ) = ln⎜⎜ ⎟⎟ = R
⎝ AUC R ⎠
AUCT
Se pot calcula si rapoartele deoarece acestea sunt in relatie
AUC R
biunivoca cu diferentele logaritmurilor.
Se compara R ′ , media geometrica pentru rapoarte, pentru toate
perechile posibile de N rapoarte individuale (R), unde N este numarul de
N ( N + 1)
subiecti. Exista astfel de perechi, incluzand si raportul R/R intre
2
un subiect si el insusi.

2
Hollander M, Wolfe D A, Non-parametric Statistical Methods,Wiley, New York, 1973
3
Steinijens V W, Diletti E, Statistical Analysis of Bioavailability Studies: Parametric and
Non-parametric Confidence Intervals, Eur. J. Clin. Pharmacol 24, 127-136,1983
150
II. Statistica matematica si biostatistica Estimarea bioechivalentei

Facem observatia ca media geometrica a rapoartelor este in


corespondenta biunivoca cu media aritmetica al logaritmului valorilor :
ln a + ln b + ln c
= ln 3 abc , etc.
3
Valorile lui R ′ sunt apoi ordonate crescator in functie de rang.
Limita inferioara si superioara a intervalului de incredere nonparametric de
90%, respectiv 95%, sunt redate in tabelul privind intervalele de incredere
folosind testul de rang Wilcoxon.
In practica, nu este necesara compararea logaritmica deoarece noi
suntem interesati de rapoartele dintre testat si referinta. Daca noi comparam
N ( N + 1)
rapoartele si folosim media geometrica a perechilor pentru
2
ranguri, obtinem un interval de incredere pentru rapoartele directe dintre
testat si referinta.

2.13.3. Compararea rezultatelor metodelor parametrice si non –


parametrice in estimarea bioechivalentei unor forme farmaceutice cu
meloxicam
Problema studiului de bioechivalenta privind supozitoarele cu
MELOXICAM - medicamentul testat si MELOXICAM - medicamentul de
referinta, a fost aceea ca aplicand procedurile statistice standard produsele
apareau, dupa cum se poate vedea (fig. 8) chiar si cu ochiul liber – ca fiind
inechivalente.

Fig. 8. – Curbele medii pentru produsul testat si cel de referinta


151
II. Statistica matematica si biostatistica Estimarea bioechivalentei

O examinare mai atenta insa a profilelor individuale (fig.9a si fig 9b)


arata o distribuite omogena, relativ normala a profilelor in cazul
medicamentului testat si o distributie absolut anormala in cazul produsului
de referinta 4 .

Fig. 9a– Curbele individuale pentru produsul de referinta

Fig. 9b– Profilele individuale dupa administrarea medicamentului testat

4
A.Medvedovici, F.Albu, C.Georgita, C.Mircioiu, V.David, A non-extracting procedure
for the determination of meloxicam in plasma samples by HPLC-diode array
detection,Arzneimittel Forschung/Drug Research,.55 (6), 326-331 (2005).
152
II. Statistica matematica si biostatistica Estimarea bioechivalentei

Apare ca profilele medicamentului testat se imparte in 3 grupe


diferite: un subiect cu valori aberant de mici, 5 voluntari cu valori mari si
restul – un grup mai omogen – cu valori intermediare.
In acest context, testarea uzuala a bioechivalentei parametrilor in
cele doua populatii (R si T) si pe egalitatea dispersiilor, este departe de a fi
cea mai indicata metoda.

2.13.3.1. Estimarea egalitatii mediilor plasmatice folosind testul “non –


parametric” Wilcoxon
La testarea egalitatii mediilor plasmatice a doua preparate
farmaceutice (testat –T si referinta – R) continand MELOXICAM s-a
constatat urmatoarea distributie a datelor:
Subject 1 3 5 6 7 8 10 11 12
AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5
AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
Subject 13 15 16 17 18 19 20 21 23
AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3
AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4

Tabel 20
Studiem mai intai diferentele dintre AUC pentru medicamentul testat si
referinta.
Subject 1 3 5 6 7 8 10 11 12
AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5
AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
AUCT − AUC R 8215 1230 2822 9114 18130 3901 18340 37547 9731

Subject 13 15 16 17 18 19 20 21 23
AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3
AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4
AUCT − AUC R 299 19320 8002 11544 2573 -10226 11172 -6456 12024

Tabel 21
Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare.
Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta
dintre tratamente. Vom ordona crescator aceste diferente netinandu-se cont
de semn (Tabel 22).
Subject 13 3 18 5 8 21 16 1 6
AUCT − AUC R 299 1230 2573 2822 3901 -6456 8002 8215 9114

Rang 1 2 3 4 5 6 7 8 9

Subject 12 19 20 17 23 7 10 15 11
AUCT − AUC R 9731 -10226 11172 11544 12024 18130 18340 19320 37547

Rang 10 11 12 13 14 15 16 17 18
153
II. Statistica matematica si biostatistica Estimarea bioechivalentei

Dupa ordonarea completa a diferentelor (netinandu-se cont de


semne) se vor adauga semnele corespunzatoare diferentelor originale care
au determinat aceste ranguri:

Subject 13 3 18 5 8 21 16 1 6
AUCT − AUC R 299 1230 2573 2822 3901 -6456 8002 8215 9114

Rang + semn 1 2 3 4 5 -6 7 8 9

Subject 12 19 20 17 23 7 10 15 11
AUCT − AUC R 9731 -10226 11172 11544 12024 18130 18340 19320 37547

Rang + semn 10 -11 12 13 14 15 16 17 18

Tabel 23
Astfel, subiectul 21 care avea inainte rangul 6 va capata rangul -6
deoarece diferenta pentru acest subiect este negativa. Acelasi lucru se va
intampla si cu subiectul 19 care va capata rangul -11.
Vom calcula suma rangurilor pozitive si suma rangurilor negative:
R+ = 1 + 2 + 3 + 4 + 5 + 7 + 8 + 9 + 10 + 12 + 13 + 14 + 15 + 16 + 17 + 18 = 154
si R− = 6 + 11 = 17
In tabelul de mai jos sunt prezentate valorile “critice” ale celor doua
sume de ranguri necesare pentru nivelul de semnificatie 5%, respectiv 1%,
pentru N valori (N se considera numarul de perechi excluzand perechile a
caror diferenta este 0). Cea mai mica suma a rangurilor trebuie sa fie cel
mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele
doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat.
Numarul de α = 0,05 α = 0,01
subiecti N
6 0 -
7 2 -
8 3 0
9 5 1
10 8 3
11 10 5
12 13 7
13 17 10
14 21 13
15 25 16
16 30 19
17 35 23
18 40 28
19 46 32
20 52 37
154
II. Statistica matematica si biostatistica Estimarea bioechivalentei

In studiul analizat N = 18 , suma minima a rangurilor este R− = 17 si


17 ≤ 40 (valoarea corespunzatoare din tabel). De aceea, spunem ca cele
doua medicamente realizeaza nivele plasmatice diferite pentru α = 0,05 .
Rezultatele acestui test sunt foarte aproape de cele obtinute cu testul
t. Considerand ca ipotezele testului Wilcoxon sunt mai putin restrictive in
comparatie cu testul t, atunci cand nu avem garantia inplinirii conditiilor de
aplicare a testului t, testul de mai sus este un test de recomandat.
Pentru valorile date aproximarea normala este mai la indemana
pentru a compara mediile celor doua populatii:
N ( N + 1)
R−
4
Z=
N (2 N + 1)( N + 1)
24
unde R este suma rangurilor (poate fi utilizata oricare dintre suma rangurilor
pozitive sau negative) si N este numarul de elemente (exceptand valorile
egale).
In cazul nostru, N = 18 si R = 154 , deci,
18 *19
154 −
4
Z= = 2,9832 .
18 *18,5 *19
12
In cazul in care se vor exclude subiectii 6 si 21 vom avea: N = 16 ,
R+ = 127 , R− = 9 si
16 *17
127 −
4
Z= = 3,0508
16 *16,5 *17
12

Deci si aproximarea normala a distributiei rangurilor ne duce la


aceiasi concluzie privind existenta unei diferente semnificative intre nivelele
plasmatice ale lui R si T.

155
II. Statistica matematica si biostatistica Estimarea bioechivalentei

3.13.3.2. Estimarea bioechivalentei prin calculul “non – parametric” al


intervalelor de incredere
La testarea bioechivalentei acelor doua preparate farmaceutice
(testat –T si referinta – R) s-au obtinut urmatoarele valori pentru Cmax .

Subiect 1 3 5 6 7 8 10 11 12
C max R 923 1739 770 173 795 698 918 707 1381

C max T 1289 1856 728 639 1726 1028 1626 799 1206
T/R 1,39 1,06 0,94 3,69 2,17 1,47 1,77 1,95 1,50

Subiect 13 15 16 17 18 19 20 21 23
C max R 927 641 643 879 787 1795 865 1030 1401

C max T 1048 1241 968 1132 981 1654 1590 809 1768
T/R 1,13 1,93 1,50 1,28 1,24 0,92 1,83 0,78 1,26
Tabel 25

Vom determina media geometrica pentru fiecare raport T adica


R
radicalul dintre produsul a doua rapoarte. Astfel: pentru subiectul 1 media
geometrica este radicalul dintre produsul raportului subiectului 1 combinat
cu el insusi:
1,39653 *1,39653 ≈ 1,397
Pentru subiectul 1 combinat cu subiectul 2, media geometrica este
radicalul produsului dintre raportul subiectului 1 si raportul subiectului 2:
1,397 *1,067 ≈ 1,221
Acest rationament il vom aplica pentru fiecare dintre cei 18 subiecti.
N ( N + 1) 18 * 19
Se vor determina = = 171 de combinatii diferite incluzand
2 2
si fiecare raport cu el insusi.

156
II. Statistica matematica si biostatistica Estimarea bioechivalentei

Mediile geometrice determinate sunt:


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 1,397 1,221 1,149 2,271 1,741 1,434 1,573 1,652 1,452 1,257 1,644 1,450 1,341 1,319 1,134 1,602 1,047 1,328
2 1,221 1,067 1,005 1,985 1,522 1,254 1,375 1,444 1,269 1,098 1,437 1,268 1,172 1,153 0,992 1,401 0,916 1,161
3 1,149 1,005 0,945 1,869 1,433 1,180 1,294 1,359 1,195 1,034 1,353 1,193 1,103 1,086 0,933 1,318 0,862 1,092
4 2,271 1,985 1,869 3,694 2,832 2,332 2,558 2,686 2,361 2,043 2,674 2,358 2,181 2,146 1,845 2,606 1,703 2,159
5 1,741 1,522 1,433 2,832 2,171 1,788 1,961 2,059 1,810 1,567 2,050 1,808 1,672 1,645 1,414 1,998 1,306 1,655
6 1,434 1,254 1,180 2,332 1,788 1,473 1,615 1,696 1,491 1,290 1,689 1,489 1,377 1,355 1,165 1,645 1,076 1,363
7 1,573 1,375 1,294 2,558 1,961 1,615 1,771 1,860 1,635 1,415 1,852 1,633 1,510 1,486 1,278 1,804 1,179 1,495
8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953 1,717 1,486 1,945 1,715 1,586 1,560 1,342 1,895 1,239 1,570
9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509 1,306 1,709 1,507 1,394 1,372 1,179 1,666 1,089 1,380
10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131 1,479 1,305 1,207 1,187 1,021 1,442 0,942 1,194
11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936 1,707 1,579 1,553 1,336 1,886 1,233 1,563
12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505 1,392 1,370 1,178 1,663 1,087 1,378
13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288 1,267 1,089 1,539 1,006 1,275
14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247 1,072 1,514 0,989 1,254
15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921 1,301 0,851 1,078
16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838 1,202 1,523
17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785 0,996
18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262

Mediile geometrice considerate o singura data sunt:


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
1 1,397
2 1,221 1,067
3 1,149 1,005 0,945
4 2,271 1,985 1,869 3,694
5 1,741 1,522 1,433 2,832 2,171
6 1,434 1,254 1,180 2,332 1,788 1,473
7 1,573 1,375 1,294 2,558 1,961 1,615 1,771
8 1,652 1,444 1,359 2,686 2,059 1,696 1,860 1,953
9 1,452 1,269 1,195 2,361 1,810 1,491 1,635 1,717 1,509
10 1,257 1,098 1,034 2,043 1,567 1,290 1,415 1,486 1,306 1,131
11 1,644 1,437 1,353 2,674 2,050 1,689 1,852 1,945 1,709 1,479 1,936
12 1,450 1,268 1,193 2,358 1,808 1,489 1,633 1,715 1,507 1,305 1,707 1,505
13 1,341 1,172 1,103 2,181 1,672 1,377 1,510 1,586 1,394 1,207 1,579 1,392 1,288
14 1,319 1,153 1,086 2,146 1,645 1,355 1,486 1,560 1,372 1,187 1,553 1,370 1,267 1,247
15 1,134 0,992 0,933 1,845 1,414 1,165 1,278 1,342 1,179 1,021 1,336 1,178 1,089 1,072 0,921
16 1,602 1,401 1,318 2,606 1,998 1,645 1,804 1,895 1,666 1,442 1,886 1,663 1,539 1,514 1,301 1,838
17 1,047 0,916 0,862 1,703 1,306 1,076 1,179 1,239 1,089 0,942 1,233 1,087 1,006 0,989 0,851 1,202 0,785
18 1,328 1,161 1,092 2,159 1,655 1,363 1,495 1,570 1,380 1,194 1,563 1,378 1,275 1,254 1,078 1,523 0,996 1,262

157
III. Statistica matematica si biostatistica Estimarea bioechivalentei

Tabel 26 Intervalele de incredere folosind testul de rang Wilcoxon


Numarul de subiecti Rangul limitei inferioare Rangul limitei superioare
(N) 95% 90% 95% 90%
6 1 3 21 19
7 3 4 26 25
8 4 6 33 31
9 6 9 40 37
10 9 11 47 45
11 11 14 56 53
12 14 18 65 61
13 18 22 74 70
14 22 26 84 80
15 26 31 95 90
16 30 36 107 101
17 35 42 119 112
18 41 48 131 124
19 47 54 144 137
20 53 61 158 150
21 59 68 173 164
22 66 76 188 178
23 74 84 203 193
24 82 93 219 208
Dupa cum se observa, limita inferioara, respectiv superioara a
intervalului de incredere 95% este valoarea rangului 14, respectiv 65 al
mediilor geometrice determinate anterior, deoarece numarul de subiecti este
N = 18 .
Pentru a determina un rang al mediilor geometrice vom construi, in
EXCEL, tabelul mediilor geometrice luate o singura data
Vom folosi functia small(array;k) care calculeaza valoarea de rang
k dintr-un set de date (array).
In cazul nostru array, in tabelul Exccel, a fost F3:Q20, k = 41 ,
respectiv 131 pentru intervalul de incredere CI 95% , deci am avut:
• =small(F3:Q20; 41)=1,194
• =small(F3:Q20; 131)=1,696
ceea ce inseamna un interval de incredere CI 95% = (1,194 , 1,696)
In cazul intervalului de incredere 90% limita inferioara va avea
rangul 48, iar cea superioara rangul 124 corespunzand astfel intervalului
CI 90% = (1,247 , 1,652) :
• =small(F3:Q20;48)=1,247
• =small(F3:Q20;124)=1,652

158
III. Statistica matematica si biostatistica Estimarea bioechivalentei

Limitele inferioare si limitele superioare stabilite de FDA pentru


bioechivalenta sunt (0,800 , 1,25) .
In ambele situatii se constata ca nu putem demonstra bioechivalenta
celor doua produse.

2.13.3.3. Estimarea bioechivalentei folosind testul non – parametric


Wilcoxon, pornind de la un model care ia in considerare si efectele de
perioada

Fie, folosind notatiile standard de la modelul incrucisat cu doua


perioade si doua secvente, diferenta intre formularile testate
θ = μT − μ R .
Consideram testarea bioechivalentei folosind doua teste unilaterale:
H 01 : θ L∗ ≤ 0 vs H A1 : θ L∗ 〉 0 unde θ L∗ = θ − θ L si

H 02 : θ U∗ ≥ 0 vs H A 2 : θ U∗ 〈 0 unde θ U∗ = θ − θ U
In vederea testarii ipotezelor enuntate consideram combinatia
(“contrastul”):
⎧d − θ h ; h = L,U pentru subiectii din sec venta 1
bhik = ⎨ ik ,
⎩ d ik ; pentru subiectii din sec venta 2
unde:
• i = 1, nk , k = 1,2 , reprezinta numarul de subiecti in cele doua
secvente
P − P1
• d ik = 2 este jumatate dintre diferentele intre cea de-a II a
2
perioada si prima perioada
• h = L sau U dupa cum ne referim la compararea cu limita inferioara
sau cea superioara a intervalului de acceptare a bioechivalentei

159
III. Statistica matematica si biostatistica Estimarea bioechivalentei

Folosind rationamentul de la testarea efectelor in experimentul


cross-over pentru diferenta d ik intre valorile pereche ale unui subiect dat
vom obtine:
⎧1
⎪ 2 [(P2 − P1 ) + (θ − 2θ h )] pentru k = 1
E (bhik ) = ⎨

1
[(P2 − P1 ) + θ ] pentru k = 2
⎩ 2
σ e2
D(bhik ) = D(d ik ) = σ =
2
d
2
Observam ca din definitiile de mai sus rezulta imediat ca:
E (bhi1 ) − E (bhi 2 ) = (θ − θ h ) = θ h∗
n1 (n1 + n2 + 1)
Media sumei rangurilor este (s-a demonstrat la testul
4
Wilcoxon).
Consideram suma rangurilor: R L = ∑ R(bLi1 ) si RU = ∑ R (bUi1 ) si
n1 n1

i =1 i =1

n (n + 1) n (n + 1)
variabilele aleatoare WL = RL − 1 1 si WU = RU − 1 1 .
2 2
n(n + 1)
Inlocuirea sumei rangurilor R cu R − este “testul Mann –
2
Whitney” care insa este in esenta acelasi test.
n1 (n1 + n2 + 1) n1 (n1 + 1) n1 n2
E (W L ) = E (WU ) = − =
2 2 2
si
n1 n2 (n1 + n2 + 1)
D(W L ) = D(WU ) =
12
Tragem concluzia ca produsele sunt bioechivalente atunci cand
amandoua ipotezele H 01 si H 02 sunt respinse.
Deci, relatia: WU ≤ w(α ) si WL 〉 w(1 − α )
unde valorile w(α ) se gasesc in tabele, iar valorile complementare se
calculeaza cu formula: w(1 − α ) = n1 n2 − w(α ) , implica biochivalenta celor
doua produse.

160
III. Statistica matematica si biostatistica Estimarea bioechivalentei

In cazul in care avem si un numar k de cozi (valori egale), atunci


valorile egale se inlocuiesc cu media rangurilor lor rν si dispersiile devin

D (W L ) = D (WU ) = n1 n 2 (n1 + n 2 + 1 − Q ) ,
1
12
1
( )
k
unde Q = ∑ rν − rν .
3

(n1 + n2 )(n1 + n2 − 1) ν =1
Cand numarul de valori este suficient de mare (de exemplu, mai
mare de 40) se poate folosi aproximatia normala:
n1 (n1 + n2 + 1)
RL −
WL − E (WL ) 2
ZL = = si
D(WL )
n1 n2 (n1 + n2 + 1)
1
12
n1 (n1 + n2 + 1)
RU −
WU − E (WU ) 2
ZU = =
D(WU )
n1 n2 (n1 + n2 + 1)
1
12
Vom compara AUCtot pentru studiul de bioechivalenta privind
produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.
Subiecti 1 6 7 10 11 15 19 20 21
secv 1 RT RT RT RT RT RT RT RT RT
P1 36721 3494 24163 21584 40403 21322 48654 19776 31387

P2 44936 12608 42293 39924 77951 40642 38428 30948 24932

Subiecti 3 5 8 12 13 16 17 18 23
secv 2 TR TR TR TR TR TR TR TR TR
P1 65279 50454 25033 34553 25217 37065 37007 19996 35726

P2 64049 47631 21132 24823 24918 29063 25463 17423 23702

P2 − P1
Vom calcula d ik = = jumatate dintre diferentele intre cea de-
2
a II a perioada si prima perioada
Calculam

161
III. Statistica matematica si biostatistica Estimarea bioechivalentei

AUCR =
∑ AUC R
=
n1 + n2
36721 + 3494 + ... + 31387 + 64049 + 47631 + ... + 23702
= = 44900
9+9
Determinam: − θ L = θ U = 0,2 * AUC R = 8980
Deci,
bL11 = d11 − θ L = 4108 + 8980 = 13088 ,…..,
bL 91 = d 91 − θ L = −3228 + 8980 = 5752
bU 11 = d11 − θ U = 4108 − 8980 = −4872 ,…,
bU 91 = d 91 − θ U = −3228 − 8980 = −12208
bL12 = bU 12 = d12 = −615 , ……., bL 92 = bU 92 = d 92 = −6012
Ordonam descrescator valorile absolute ale lui bLik , respectiv bUik si
vom determina rangurile corespunzatoare R(bLik ) , respectiv R(bUik ) .
RL = ∑ R(bLi1 ) = 7 + 6 + 4 + 3 + 1 + 2 + 13 + 5 + 10 = 51
n1

i =1

n1 (n1 + 1) 9 *10
WL = RL − = 51 − =6
2 2
RU = ∑ R(bUi1 ) = 6 + 8 + 18 + 16 + 3 + 14 + 1 + 10 + 2 = 78
n1

i =1

n1 (n1 + 1) 9 * 10
WU = RU − = 78 − = 33
2 2

secv P1 P2 d ik bLi1 = d i1 − θ L R(bLik ) bUi1 = d i1 − θ U R(bUik )


1
RT 36721 44936 4108 13088 7 -4872 6
RT 3494 12608 4557 13537 6 -4423 8
RT 24163 42293 9065 18045 4 85 18
RT 21584 39924 9170 18150 3 190 16
RT 40403 77951 18774 27754 1 9794 3
RT 21322 40642 9660 18640 2 680 14
RT 48654 38428 -5113 3867 13 -14093 1
RT 19776 30948 5586 14566 5 -3394 10
RT 31387 24932 -3228 5752 10 -12208 2

162
III. Statistica matematica si biostatistica Estimarea bioechivalentei

secv P1 P2 d ik bLi 2 = d i 2 R(bLik ) bUi 2 = d i 2 R(bUik )


2
TR 65279 64049 -615 -615 17 -615 15
TR 50454 47631 -1411 -1411 15 -1411 12
TR 25033 21132 -1950 -1950 14 -1950 11
TR 34553 24823 -4865 -4865 11 -4865 7
TR 25217 24918 -149 -149 18 -149 17
TR 37065 29063 -4001 -4001 12 -4001 9
TR 37007 25463 -5772 -5772 9 -5772 5
TR 19996 17423 -1287 -1287 16 -1287 13
TR 35726 23702 -6012 -6012 8 -6012 4

Din tabel avem:


w(α ) = W9;9; 0, 05 = 22 si w(1 − α ) = n1n2 − w(α ) = 9 * 9 − 22 = 59
Intrucat 22 〈 33 ⇒ w (α ) 〈 WU si 6 〈 59 ⇒ w (1 − α ) 〉 WL nu
putem afirma ca produsele sunt bioechivalente

2.13.3.4.Calculul parametric

LATIN SQUARE DESIGN : ANOVA TABLE for AUCtot


LATIN SQUARE with Log (neperian) option
SOURCE D.F SS MS F p
Period 1 0.000350993 0.000350993 0.00114772 0.9734 NS
Subject(Seq) 16 10.4047 0.650296 2.12643 0.07096 NS
Formulation 1 0.320187 0.320187 1.04699 0.3214 NS
Sequence 1 0.0100203 0.0100203 0.0327659 0.8586 NS
Error 16 4.89306 0.305816
Total 35 15.6284
--------------------------------------------------------------------------------
N Mean SD SEM GeoMean Geo SD
Formulation:num = R 18 10.2755 0.850093 0.200369 29012.8 2.33987
Formulation:num = T 18 10.4641 0.421689 0.0993931 35035.2 1.52453
--------------------------------------------------------------------------------
Root Mean Square Error = 0.553007 ; CV = 0.0533286
phi = 0.72353
Power of the test = 0.161064
1 - ( Power of the test ) = 0.838936
Minimum detectable difference = 0.188617
163
III. Statistica matematica si biostatistica Estimarea bioechivalentei

--------------------------------------------------------------------------------
BIOEQUIVALENCE TESTS FOR
Level R and level T
Reference Confidence Interval: [ 0.8, 1.25]
Geomean Ratio (Test/Reference) = 1.20758
90% standard confidence interval
(around the ratio:[test form]/[ref form])=[ 0.87528, 1.666]
t(0.05 - 16df) = 1.7459

Cannot conclude equivalence.


--------------------------------------------------------------------------------
TWO ONE-SIDED T-TESTS FOR
Level R and level T
Lower: t( 16df) = 0.1873
Upper: t( 16df) = 2.2338
t(0.05 - 16df) = 1.7459
Cannot conclude equivalence

LATIN SQUARE DESIGN : ANOVA TABLE for Cmax

LATIN SQUARE with Log (neperian) option


SOURCE D.F SS MS F p
Period 1 0.18169 0.18169 3.02264 0.1013 NS
Subject(Seq) 16 4.71008 0.29438 4.89739 0.001414 ***
Formulation 1 1.22793 1.22793 20.4283 0.000349 ***
Sequence 1 0.0137681 0.0137681 0.229051 0.6387 NS
Error 16 0.961752 0.0601095
Total 35 7.09523
--------------------------------------------------------------------------------
N Mean SD SEM GeoMean Geo SD
Formulation:num = R 18 6.72375 0.494661 0.116593 831.927 1.63994
Formulation:num = T 18 7.09312 0.316931 0.0747013 1203.66 1.37291
--------------------------------------------------------------------------------
Root Mean Square Error = 0.245172 ; CV = 0.0354889

90% standard confidence interval


(around the ratio:[test form]/[ref form])=[ 1.2544, 1.6687]
t(0.05 - 16df) = 1.7459
Cannot conclude equivalence.

164
III. Statistica matematica si biostatistica Estimarea bioechivalentei

2.13.4.Compararea rezultatelor
Este de observat ca testele neparametrice, la fel ca cele parametrice
indica faptul ca cele doua produse nu sunt bioechivalente. Aceasta deoarece
intr-adevar la aproape toti subiectii avem:
AUC totR 〈 AUC tot
T

Si totusi rezultatul este profund incorect deoarece intravariabilitatea


si distributia non-normala a rezultatelor produsului de referinta indica foarte
probabil si o intravariabilitate mare a produsului de referinta.
Dupa cum se vede in fig. 10, fig.11. avem o diferenta foarte mare
intre medicamentul de referinta si medicamentul testat dar aceasta diferenta
este o combinatie intre intravariabilitatea lui R si cea a lui T.

AUCtot vs TreatmentName Cmax vs TreatmentName


400000 2000
01 03 01 03
05 06 05 06
07 08 07 08
10 11 10 11
12 13 12 13
15 16 15 16
300000 17 18 1500 17 18
19 20 19 20
A U C t o t (n g / m L * h )

21 23 21 23
C m a x (n g / m L )

200000 1000

100000 500

0 0
R T R T
TreatmentName TreatmentName

Fig. 10Valorile AUCtot pereche pentru R si T Fig. 11Valorile Cmax pereche pentru R si T

In acest caz, dupa cum au propus aproape toti cercetatorii in ultimii


ani ar trebui introduse criterii “scalate” – adica largirea limitelor de
acceptare a bioechivalentei, in functie de intravariabilitatea referintei.
Din pacate aceasta nu se poate obtine decat din experimente
repetate, deci experimente in care medicamentul referinta este administrat
de doua ori.
In experimentul cross-over fara repetitie se obtine o intravariabilitate
2
S d sau SS int ra din ANOVA care sunt o combinatie a variabilitatilor pentru
medicamentul testat si referinta si acestea nu se pot estima separat.

165
III. Statistica matematica si biostatistica Estimarea bioechivalentei

166
II. Statistica matematica si biostatistica Teste statistice de discordanta

2.14. TESTE STATISTICE DE DISCORDANTA

In ceea ce priveste valorile anormale , se pun in principal trei


probleme:
- decizia privind respingerea sau omisia acestor valori,
- analiza efectului lor de distorsionare a rezultatelor estimarilor
parametrilor populatiei,
- existenta unor factori neluati in seama si necesitatea elaborarii unui
alt model statistic, corespunzator realitatii.
In vederea realizarii primului obiectiv se aplica testele de
discordanta , numite si teste de respingere , dar decizia de respingere sau
non-respingere nu poate fi luata fara examinarea si a celorlate doua
probleme enuntate.
Putem defini intuitiv notiunea de discordanta (outlier) astfel: o
observatie care deviaza atat de tare de restul observatiilor incat poate fi
suspectata ca a fost generata printr-un mecanism diferit. Cand este vorba de
un set de date universale, caracteristica principala a unei observatii
discordante este “departarea” sau deviatia (masurata) la o scara adecvata)
fata de grupul majoritatii observatiilor (inlying observations). Cand este
vorba de date multivaluate / structurate, discordanta inseamna abaterea de la
modelul statistic (de ex. Regresia liniara) caruia i se supun celelalte valori.
In general, putem spune ca, intr-un esantion, o valoare (sau o submultime de
valori) este “discordanta” daca nu respecta patentul caruia ii apartin celelalte
valori ( este inconsistenta cu restul observatiilor).
In principiu exista doua mecanisme care pot da nastere unui esantion
ce pare sa contina valori outlier (daca excludem factorul de eroare umana
sau defectiunile aparaturii folosite). Aceste mecanisme dicteaza in buna
masura felul in care vor fi tratate aceste valori speciale.
a. Datele provin dintr-o distributie heavy tailed (graficul functiei de
repartitie se apropie relativ „incet” de asimptota data de axa Ox) precum
distributia Student T. In acest caz, valorile aparent indepartate de restul
reprezinta un factor firesc, intrisec legii de repartitie.
Acest fenomen nu este caracteristic distributiei normale sau
distributiilor gamma (ce manifesta o apropiere rapida de asimptota Ox),
drept pentru care nu vom discuta acest mecanism.
b. Datele provin din doua distributii diferite. Una dintre acestea,
„distributia de baza” genereaza „observatii bune”, in timp ce cealalta,
„distributia contaminata” creeaza „observatii discordante” sau
„contaminanti”. Daca distributia contaminanta are o descrestere
asimptomatica mai lenta decat cea de baza, atunci va fi evidenta tendinta
167
II. Statistica matematica si biostatistica Teste statistice de discordanta

contaminantilor de a se manifesta ca valori discordante, indepartate de restul


observatiilor.
În general există o gamă foarte largă de teste din care putem alege şi
în mod natural ne punem problema care sunt criteriile de a alege un test sau
altul într-o situaţie particulară şi cum putem defini performanţa testului ales.
Sunt patru aspecte principale care trebuiesc luate în considerare.
1. Modelul de bază şi determinarea semnificaţiei. În orice context un
test statistic poate fi construit pur şi simplu pe baza intuiţiei şi să respingem
sau să acceptăm valorile extreme. Totuşi avem nevoie de un criteriu de
respingere care să asigure o anumită semnificaţie operaţiei ceea ce impune
în mod esenţial elaborarea unor ipoteze de lucru privind distribuţia testului
statistic sau măcar să ştim ceva despre distribuţia de probabilitate pe coadă.
2. Ipoteza alternativă care să ne permită definirea valorilor anormale.
3. Definirea performanţei testului şi a conceptului asociat de putere.
Alegerea dintre mai multe teste ar trebui să fie bazată pe performanţa lor
relativă. Evaluarea performanţei relative, de exemplu calculul puterii trebuie
sau poate fi făcută când avem definită ipoteza alternativă şi distribuţia
testului statistic în condiţiile ipotezei alternative. Probemele sunt foarte
complicate motiv pentru care până în ultimii ani ele au fost comple ignorate.
4. Care sunt proprietăţile dorite pentru testul de discordanţă. Astfel ne
putem pune problema unui test uniform cel mai puternic sau măcar să ne
mulţumim cu o optimalitate locală sau cu certitudinea unei nedeplasări sau
cu satisfacerea unor proprietăţi de invarianţă.
Alternativ putem să construim teste folosind o metodă larg acceptată
cum ar fi metoda verosimilăţii maxime a rapotului.

2.14.1. Construcţia testelor de discordanţă


Testele aplicabile au fost clasificate în şapte clase.
1. Statistici bazate pe raportul exces / dispersie.
Acestea sunt rapoarte ale diferenţelor între valoarea aberantă şi
vecinul său cel mai apropiat sau imediat după acesta în şir şi intervalul
valorilor sau alte măsuri ale dispersiei selecţiei.
Ca exemplu avem
xn − xn −1
xn − x2
Propus de Dixon pentru examinarea unei valori aberante superioare
şi care evită valoarea x1 sau
xn − xn −1
σ

168
II. Statistica matematica si biostatistica Teste statistice de discordanta

unde σ este deviaţia standard în modelul de bază.


Testul presupunea σ cunoscut şi o repartiţie normală a probelor.
Putem înlocui σ cu o estimare a sa dintr-o probă restrânsă din care s-au
eliminat valorile bănuite ca aberante.

2. Statistici bazate pe raportul dintre lungimea domeniul de valori /


dispersie.
Testele se obţin din cele de mai sus prin înlocuirea numărătorului cu
lungimea domeniul valorilor. Ca exemplu avem
xn − x1
s
unde s poate fi obţinut din întreg setul de valori sau dintr-un set restrâns prin
eliminarea valorilor bănuite a fi aberante sau poate fi cunoscut din alte
măsurători.
Dezavantajul acestor teste este acela că el nu face distincţie între
cazurile când avem o valoare aberantă superioară, una inferioară sau de
amândouă tipurile.
3. Statistici bazate pe raportul deviaţie / dispersie.
Aceste teste înlătură dezavantajul celor anterioare prin aceia că se
înlocuieşte lungimea domeniului de valori cu distaţa dintre o valoare
aberantă şi măsură a tendinţei centrale a datelor. De exemplu putem
considera raportul
x − x1
s
La fel ca şi s , x poate fi calculat din intregul set de date sau dintr-o
parte a acestuia.
4. Statistici bazate pe sume de pătrate.
Aceste statistici se bazează pe suma pătratelor restricţionate şi suma
pătratelor pentru întregul set de valori.
De exemplu raportul
n−2

∑(x − x )
2
i n , n −1
i =1
,
∑( x − x)
n 2
i
i =1
n−2

∑x i
unde x n ,n −1 = i =1
poate fi folosit pentru testarea a două valori aberante
n−2
superioare xn şi xn-1 dintr-o populaţie normal distribuită.
169
II. Statistica matematica si biostatistica Teste statistice de discordanta

5. Statistici pe baza raportului între valorile extreme şi valorile medii.


Aceste statistici s-au dovedit în particular relevante pentru datele cu
distribuţie de tip Gamma.

6. Statistici bazate pe momente de ordin superior.


Statistici care măsoară asimetria sau curbura pot fi folosite şi pentru
testarea valorilor aberante.
( ) ( )
3 4
n ∑ xi − x n ∑ xi − x
3
şi 2

( )
xi − x ⎤
2

(
x −x ⎤
⎢⎣ ∑ i ⎥⎦ )
2 2
⎢⎣ ∑ ⎥⎦

7. Statistici W.
Aceste teste se bazează pe rapotul dintre pătratul unei combinaţii liniare a
tuturor datelor şi suma pătratelor abaterilor faţă de medie.

W =
(∑ wi xi )
2

∑ xi − x
2
( )
(ponderile w , calculate in functie de parametrii selectiei , se gasesc in
tabele).
O situaţie specială apare atunci când avem un grup de valori
anormale superior sau inferior şi când testele enumerate mai sus nu pot pune
în evidenţă aberaţii datorită unui efect de mascare. De aceea s-au conceput
teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc).
Alte teste examinează valorile extreme secvenţial. În fapt acestea
examinează în principal valoarea aberantă maximă pe baza unui test deviaţie
/ dispersie şi dacă xn se devedeşte valoare aberantă el se repetă operaţia
pentru xn-1 pe proba redusă. Procedura se continuă până când se găseşte o
valoare neaberantă.
Aplicarea unui test sau altul ne poate duce la concluzii in general
diferite, in final decizia privind declararea unei valori ca discordante tinand
de analiza fenomenului.
Exemplu: 1, 5, 11, 4, 2, 6, 3
O prima masura de precautie pe care trebuie sa o luam este aceea de
a verifica faptul ca distributia datelor nu se modifica radical prin
schimbarea unitatilor de masura, deci la schimbari liniare sau la schimbarea
de la o distributie normala la una exponentiala.

170
II. Statistica matematica si biostatistica Teste statistice de discordanta

Prima operatiune, indiferent de testul aplicat, este aceea de asezare a


datelor in ordine crescatoare.
1, 2, 3 , 4, 5, 6 , 11
Rezultatul este bine sa fie vizualizat printr-o asezare a punctelor pe o
dreapta.

Fig. nr. 6
Motivul pentru care o prima sau ultima valoare pot fi considerate ca
discordante este acela ca aceste valori apar a fi foarte separate de de restul
datelor , in raport cu imprastierea datelor din selectie.
Aceasta ne duce in mod natural la ideia unei statistici bazata pe
raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar
D este o masura a dispersiei datelor .
Pe post de A putem lua de exemplu diferenta intre valoarea extrema
si urmatoarea valoare, cea mai apropiata de ea x7 − x6 , sau distanta intre
aceasta si restul datelor considerate ca un grup x7 − M , unde M este media
celorlalte 6 valori.
Pentru D putem considera fie lungimea intervalului de valori
x 6 − x1 , sau distanta intre urmatoarele doua valori x6 − x5 care este cu mult
mai mic decat x7 − x6 , sau dispersia primelor 6 valori
Consideraţiile de mai sus sugerează următoarele statistici pentru
testarea valorilor extreme:
x −x 5 x −x 5
y ( 6, 7 ; 1, 6 ) = 7 6 = = 1 ; y ( 6, 7 ; 5, 6 ) = 7 6 = = 5
x6 − x1 5 x6 − x5 1
x7 − x′ 11 − 3,5
T′ = = = 2,14
s′ 3,5
xs − xr
Statisticile sunt de forma y ( r , s ; p, q ) =
xq − x p
Am putea lua de exemplu, la numitor în prima statistică întregul
domeniu de variaţie al valorilor
x −x 5
y ( 6, 7 ;1, 6 ) = 7 6 = = 0,5
x7 − x1 10

171
II. Statistica matematica si biostatistica Teste statistice de discordanta

x5 − x′ x −x
iar în loc de T ′ = sa folosim T = 5 , dar statisticile rămân în
s′ s
esenţă aceleaşi.
Consideram spre exemplu valorile concentratiilor maxime ale
MELUOL , un metabolit activ al nicergolinei la 24 de voluntari sanatosi.
Pentru a lua o decizie cat mai corecta, vom examina atat valorile
individuale, cat si raportul valorilor pentru un acelasi voluntar.
Mai mult decat atat, pentru a avea si o imagine a acestor valori si a
raportului dintre ele, considera reprezentarile valorilor pentru medicamentul
de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a
„dependentei” T ( R ) ( care, daca valorile s-ar corela perfect, ar trebui sa
fie o dreapta).

Tabelul nr. 21:


CMAX,T CMAX,R CMAX,T CMAX,R
Subject (ng/ml) (ng/ml) T/R T/R (ng/ml) (ng/ml)
1 65.70 48.98 134 46 2 2
2 7.85 6.73 117 47 3 3
3 10.11 21.76 46 56 3 3
4 3.94 2.65 149 62 4 4
5 29.54 22.60 131 71 4 4
6 10.58 14.84 71 78 4 5
7 6.84 5.95 115 88 5 6
8 14.79 16.54 89 89 7 7
9 17.29 6.57 263 90 7 7
10 11.61 8.75 133 92 8 7
11 27.48 14.82 185 102 10 9
13 5.24 3.72 141 106 11 14
14 32.11 36.33 88 111 12 15
15 12.49 20.29 62 115 12 15
16 4.23 4.60 92 117 13 15
17 7.01 14.96 47 131 15 15
18 1.96 1.76 111 133 16 15
19 3.09 3.03 102 134 17 17
20 15.91 15.01 106 141 22 20
21 21.54 14.94 144 144 27 22
22 3.34 4.30 78 149 30 23
23 3.75 6.72 56 185 32 36
24 12.67 14.08 90 263 66 49
N 23 23 media 111 14 13
Mean 14.31 13.475 StDev 48.6 14.2 11.4

172
II. Statistica matematica si biostatistica Teste statistice de discordanta

Fig. nr. 7
T(R)
CMAX,T (ng/ml)
70.00
CMAX,R (ng/ml)
60.00
60.00
R2 =0.7497
50.00
50.00
40.00
40.00
30.00
30.00
20.00
20.00
10.00
10.00
0.00
0.00
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00
0 5 10 15 20 25 30

Fig. nr. 8

T 60
R
T/ R
70

300
60 50

250
50
40

200
40

30
150
30

100
20
20

50
10 10

0 1 3 5 7 9 11 13 15 17 19 21 23

1 3 5 7 9 11 13 15 17 19 21 23 0

1 3 5 7 9 11 13 15 17 19 21 23

Observam dupa ordonare, ca valorile concentratiilor maxime pentru


voluntarul 1 sunt cele mai mari si, cel putin pentru T, mult mai mari
(aparent discordante) decat pentru ceilalti voluntari.

Voluntarul 9 apare normal in contextul valorilor individuale pentru


T si R dar raportul lor este cel mai mare, si probabil destul de indepartat de
celelalte rapoarte.

173
II. Statistica matematica si biostatistica Teste statistice de discordanta

In tabelul de mai jos sunt redate rezultatele aplicarii testelor Dixon si


Tn pentru R, T si T/R . Din punct de vedere al testului Dixon, toate
valorile sunt discordante.

Aplicand testul Tn , voluntarul 9 este de eliminat dat fiind raportul


T/R discordant.

Tabelul nr. 22:

voluntar 9 T/R Dixon (Xk-Xk-2)/(Xk-X3)= 0.55 >0.41


voluntar 1 T/R = 134 valoare normala
voluntar 1 R Dixon (Xk-Xk-2)/(Xk-X3)= 0.57 >0.41
voluntar 1 T Dixon (Xk-Xk-2)/(Xk-X3)= 0.58 >0.41

voluntar 9 T/R Tn = ( Xk-Xmediu)/S= 3.14 >2.82


voluntar 1 T/R Tn = ( Xk-Xmediu)/S= 0.48 <2.82
voluntar 1 R Tn = ( Xk-Xmediu)/S= 3.12 >2.82
voluntar 1 T Tn = ( Xk-Xmediu)/S= 3.62 >2.82

Acelasi test arata insa ca voluntarul 1 este anormal din punct de


vedere al celor doua valori, dar nu si din punct de vedere al raportului T/R.

Dat fiind ca decizia privind bioechivalenta este influentata doar de


intravariabilitate si nu depinde de intravariabilitate, voluntarul 1 nu este de
eliminat.

In final, decizia privind clasificarea unei valori drept discordante,


depinde de analiza fenomenologica si mai putin de rezultatul testelor
statistice.

174
II. Statistica matematica si biostatistica Teste statistice de discordanta

2.14.2. Criteriul Dixon pentru respingerea outliers


Tabelul nr. 23
k Nivel de semnificatie
5% 1%
3 (
r10 = X 2 − X 1
) 0.941 0.988
(X k − X 1 )
daca cea mai mica valoare este suspecta
4 0.765 0.889
5
r10
( X − X k −1 )
= k
0.642 0.780
(X k − X 1 )
daca cea mai mare valoare este suspecta
6 0.560 0.698
7 0.507 0.637
8 (
r11 = X 2 − X 1
) 0.554 0.683
( X k −1 − X 1 )
daca cea mai mica valoare este suspecta
9 0.512 0.635
10
r11 =
( X k − X k −1 ) 0.477 0.597
(X k − X 2 )
daca cea mai mare valoare este suspecta
11
r21 =
( X 3 − X k −1 ) 0.576 0.679
( X k −1 − X 1 )
daca cea mai mica valoare este suspecta
12 0.546 0.642
13
r21
( X − X k −2 )
= k
0.521 0.615
(X k − X 2 )
daca cea mai mare valoare este suspecta
14
r22 =
(X 3 − X 1 ) 0.546 0.641
( X k −2 − X 1 )
daca cea mai mica valoare este suspecta
15 0.525 0.616
16
r22
( X − X k −2 )
= k
0.507 0.595
(X k − X 3 )
daca cea mai mare valoare este suspecta
17 0.490 0.577
18 0.475 0.561
19 0.462 0.547
20 0.450 0.535
21 0.440 0.524
22 0.430 0.514
23 0.421 0.505
24 0.413 0.497
25 0.406 0.489

175
II. Statistica matematica si biostatistica Teste statistice de discordanta

Valorile critice pentru t ca test bilateral la nivelul de semnificatie 5


% pentru eliminarea valorilor discordante:

Tabelul nr. 24:


Valoare T Valoare T
3 1.155 15 2.549
4 1.481 16 2.585
5 1.715 17 2.620
6 1.887 18 2.651
7 2.020 19 2.681
8 2.126 20 2.709
9 2.215 25 2.822
10 2.290 30 2.908
11 2.355 35 2.979
12 2.412 40 3.036
13 2.462 50 3.128
14 2.507 100 3.383

2.14.3. Valori discordante fata de corelatia liniara

Un tip special de valoare discordanta este cazul cand un punct


experimental pare a nu se potrivi cu modelul corespunzator celorlalte date.
Acest lucru este prezentat in figura 9 in contextul simplu al regresiei liniare.
Punctele P din interiorul cercului punctat corespund unui model de
regresie liniara. De remarcat totusi faptul ca “elipsa “ ce am desenat-o noi in
jurul dreptei de regresie este arbitrara , dar sa presupunem ca avem
considerente fenomenologice care sa ne permita definirea unui domeniu in
interiorul caruia punctele sa poata fi acceptate ca urmand modelul liniar.
Daca presupunem ca variabila x nu este o variabila aleatoare, si
pentru un x dat se determina experimental mai multe valori y, si daca
acestea sunt distribuite normal, se poate calcula un interval de incredere in
afara caruia sa putem eticheta valorile drept discordante

176
II. Statistica matematica si biostatistica Teste statistice de discordanta

Fig. 9 Estimarea dreptei care descrie relatia intre variabilele y si x

Putem, la fel de bine considera dreapta de regresie drept valoarea


adevarata si sa consideram un domeniu centrat pe aceasta. Aceasta este
echivalent cu inlocuirea dispersiei in fiecare punct x cu o singura dispersie,
a intregii multimi de puncte (fig.10) .
Dupa cum s-a prezentat la capitolul privind regresia liniara, dreapta
“adevarata” y = α + β x (in cazul cand datele urmeaza efectiv un model
liniar) este aproximata de dreapta care aproximeaza cel mai bine punctele
experimentale y = a + b x , in sensul ca suma patratelor distantelor de la
puncte la dreapta este minima (dreapta prin cele mai mici patrate).

Fig.10 Distributia normala a punctelor in jurul valorilor de pe dreapta de regresie

Sa consideram in continuare cateva tipuri de puncte in afara


multimii de valori “normale”.
Fie de exemplu punctul A in fig. 11. El va fi o valoare discordanta
fata de multimea P sau in multimea P+A relativ la modelul regresiei liniare.
El este la o distanta mare de dreapta care fiteaza punctele, sau altfel spus,
includerea sa in multimea de date mareste semnificativ variatia reziduala.

177
II. Statistica matematica si biostatistica Teste statistice de discordanta

Important este, in afara de considerarea efectului punctului asupra


erorii reziduale, sa evaluam si efectul asupra parametrilor dreptei de
regresie. Parametrii acesteia sunt dependenti de punctele pe care le fiteaza.
Daca in loc de A consideram punctul experimental B obtinand
multimea de date P+B, B nu apare a fi o valoare discordanta (un punct
experimental discordant) relativ la estimarea regresiei liniare a modelului.
Dar punctul B are un efect considerabil asupra fitarii modelului,
intrucat includerea sa in multimea punctelor care determina dreapta prin
cele mai mici patrate creste substantial precizia cu care este estimata panta
dreptei de regresie.
Si aceasta deoarece x-ul sau este la o distanta considerabila fata de
x-ul celorlalte puncte din P. In fapt el este o valoare discordanta in ce
priveste coordonata x fata de complexul P+B. Spunem ca B este un punct cu
“parghie mare”. A se obseva ca punctul parghie este o componenta a
variabilei independente si nu a raspunsului. Astfel, daca in loc de B luam
punctul experimental discordant C (cu aceeeasi coordonata x ca a lui B),
obtinem multimea P+C si C are aceeasi parghie mare ca si B.
Totusi, in comparatie cu B, includerea lui C schimba substantial
estimarea liniei de regresie. Spunem ca C este un punct influential in
multimea P+C. Deasemenea C este o valoare discordanta (relativ la modelul
regresiei liniare ca in toate cazurile discutate). In multimea P+A valoarea
discordanta A are o parghie mai mica dar este influentiala pentru ordonata la
origine si mai putin pentru panta.
Pentru simplitate am introdus notiunile de valori discordante, puncte
parghie si date influentiale in termeni de puncte individuale. Dar, in
particular, aceste notiuni se aplica la fel de bine si grupurilor sau
submultimilor de puncte.

Fig. 11 Valori discordante fata de dreapta de regresie

178
II. Statistica matematica si biostatistica Teste statistice de discordanta

2.14.3.1.Drepte si puncte discordante


Problema “discordantei” se complica atunci cand in fapt datele nu se
inscriu pe o singura dreapta ci pe doua sau mai multe drepte in functie de
valorile lui x.
Exemplul cel mai sugestiv si cel mai important pentru
farmacocinetica in acest sens este acela al medicamentelor cu doua etape de
injumatatire, una initiala rapida (de exemplu distributia in compartimentul
profund) si una finala ( de exemplu eliminarea) , lenta , notate uzual cu α
si β .
Deci datele urmeaza un model biexponential si, dupa logaritmare, se
obtin doua domenii de dependenta liniara a logaritmului concentratiei de
timp , dupa cum se observa in fig.10 pentru concentratia plasmatica a
nicergolinei.
Concentration of nycergoline after oral administration
100
c onc . ( ng/m l)

10

1
0 5 10 15 20 25 30
time ( hours)

Fig. 12
Datele de la 4 h la 8 h se inscriu pe o dreapta , iar datele de la 8 h la
24 h pe o alta dreapta. Deci avem un timp de injumatatire de distributie si un
timp de injumatatire de eliminare. O analiza pur si simplu statistica ar duce
la concluzia ca ultimele doua puncte reprezinta valori discordante.
Compararea datelor privind farmacocinetica nicergolinei la mai multi
voluntari duce la concluzia ca nu este vorba de o supraestimare a
concentratiilor la ultimele doua puncte ci efectiv avem doua faze de
eliminare din sange.
Din alt unghi privind lucrurile, intr-un grup de subiecti caracterizati
printr-o eliminare monoexponentiala si deci, in reprezentarea logaritmica cu
inscrierea punctelor dincolo de tmax pe o dreapta, pot aparea unul sau mai
multi voluntari cu eliminare biexponentiala. In fapt este posibil ca toti
179
II. Statistica matematica si biostatistica Teste statistice de discordanta

subiectii sa aiba o eliminare bifazica, dar modelul “aparent” in functie de


intervalul de recoltare si evaluare a probelor de sange sa fie cand cel real,
cand unul simplificat.
Ca exemplu, prezentam cazul ibuprofenului. Ibuprofenul fiind cu
mult mai solubil in lipide urmeaza un model farmacocinetic cu cel putin
doua compartimente. Datele experimentale pot fi insa modelate la
majoritatea subiectilor cu un model monocompartimental. In fapt, apare o
“degenerare” a modelului prin compensarea unor procese ce afecteaza
concentratia plasmatica.
Suntem interesati in vederea predictiei, de modele cat mai simple.
Cand unul din subiecti apare efectiv cu o comportare mai complexa, poate fi
de preferat eliminarea lui ca “outlier”, desi in fond, el este mai aproape de
realitate decat ceilalti subiecti.
Si aici lucrurile sunt relative. Daca vom considera curba medie
pentru un lot de voluntari carora li s-a administrat oral omeprazol, vom
putea obtine o fitare corespunzatoare cu solutia unui model
monocompartimental. Unul dintre subiecti poate aparea discordant fata de
medie.
Introducerea unui “time-lag” ce corespunde unei intarzieri in
absorbtie (omeprazolul se administreaza, din cauza ca este instabil in mediu
acid, de regula sub forma de capsule enterosolubile) acesta revine si el in
rand cu ceilalti.

2.14.3.2. Voluntari discordanti in studii de bioechivalenta


Cazul cel mai reprezentativ este acela al medicamentelor al caror
metabolizare poate fi lenta la o mica parte din subiecti. Analiza curbelor din
figura 4 duce la ideea ca doi dintre voluntari sunt metabolizori lenti,
deoarece au concentratii mult mai mari decat restul voluntarilor
Plasma levels of propafenone after repeted administration of RYTMONORM (KNOLL) TO 24 healthy volunteers I
II
III
900 IV
V
VI
VII
VIII
concentration (ng/ml)

IX
600 X
XI
XII
XIII
XIV
300 XV
XVI
XVII
XVIII
XIX
XX
0 XXI
96 144 XXII
XXIII
time (hour) XXIV

Figura 13.

180
II. Statistica matematica si biostatistica Teste statistice de discordanta

Din punct de vedere “statistic” ei vor parea ca “discordanti”


indiferent de testul aplicat. Din punct de vedere al scopului urmarit, dupa
cum se vede din figura 14, ei nu ar trebui eliminati deoarece nu influenteaza
rezultatul final – medicamentele apar a fi bioechivalente (fig.14)
Mean plasma levels of propaf enone af ter repeted administration of
PROPAFENON (………..) and RYTMONORM (KNOLL) to 24 healthy volunteers

300

T
R
concentration (ng/ml)

200

100

0
96 144

time (hour)

Figura 14
De fapt, dupa cum este prezentat in capitolul privind evaluarea
statistica a bioechivalentei, ceea ce importa cu mult mai mult, este
intravariabilitatea, variabilitatea unui subiect fata de sine insusi, in cele doua
perioade ale experimentului.
Dupa cum se vede in figura 15, cei doi “ouliers” in ceea ce priveste
intravariabilitatea au si o variatie semnificativa intre cele doua perioade,
deci eliminarea lor poate fi luata in consideratie.
In acest caz insa, curbele din figura 14 vor deveni si mai apropiate si
nu se va schimba decizia privind bioechivalenta.
1000
concentration (ng/ml)

500

Figura 15

181
II. Statistica matematica si biostatistica Teste statistice de discordanta

Uneori, unele curbe pot parea discordante prin aceea ca prezinta


doua sau mai multe maxime, ceea ce este neuzual in farmacocinetica. Daca
este vorba insa de oxicami (piroxicam, meloxicam, tenoxicam etc.), acest
fenomen este normal datorita circulatiei enterohepatice a acestor
medicamente. Deci curbele de meloxicam din figura 16 nu pot fi considerate
curbe discordante.

Mean plasma levels of meloxicam

1.6
Concentration (ug/ml)

0.8

R
T
0
0 12

time (h)

Figura 16.

In evaluarea bioechivalentei esentiala este compararea perechilor de


curbe apartinand aceluiasi voluntar.

Dupa cum se vede din figura 17, cele doua curbe difera foarte mult.
Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor, dar
difera foarte mult la acelasi individ in perioade diferite, ceea ce reprezinta o
intravariabilitate mare, caracteristica clasei “conazolilor” (ketoconazol,
fluconazol, itraconazol etc.).

Voluntarul prezentat are un raport mult prea mare atat intre


concentratiile maxime, cat si intre ariile de sub curba si el este efectiv
“outlier”.

182
II. Statistica matematica si biostatistica Teste statistice de discordanta

Figura 17.
Aparent acelasi caz ar fi si in figura 18. Spunem ca aparent, deoarece
in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt
foarte frecvente si este vorba efectiv de bio-inechivalenta.
Mean plasma levels of mefenamic acid
7

3.5

R
T

0
0 4 8 12 16 20 24
Time (hours)

Figura nr. 18
In concluzie, problema eliminarii unor puncte, sau a unor curbe, sau
a multimii curbelor pentru un subiect dat, nu este in principal o problema
de statistica ci una tinand de analiza fenomenului studiat, de variabilele ce-l
determina si de modelul teoretic urmat.

183
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2.15. Puterea testului. Calculul numarului de voluntari


2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru
obtinerea unei estimari a mediei cu o precizie fixata
Pentru un interval de incredere (1- α ), pentru media une populatii
precizia estimarii este in fapt definita de lungimea intervalului. Cu cat
intervalul este mai mic, cu atat mai precisa va fi estimarea. De aceea,
marimea esantionului se poate alege pornind de la lungimea intervalului de
incredere care sa asigure o precizie stabilita anterior E, sau altfel spus, o
limita a erorii.
Astfel cand datele urmeaza o distributie normala, marimea
esantionului necesar va fi data implicit de relatia:
σ
E = Y − μ = zα (1)
n 2
De exemplu, presupunem ca dorim sa avem 95% incredere si ca
eroarea in media estimata sa fie mai mica de 10% din deviatia standard (i.e.,
E ≤ 0.1 σ ).
z α2 σ 2
σ
Deci, z α = 0.1 * σ si ca urmare n = 2
= 384.2 ≈ 385
2 n (0 . 1 *σ )
2

Procedeul se extinde imediat la cazul estimarii intervalelor de


incredere pentru diferenta intre mediile a doua selectii dupa cum se arata in
tabelul urmator.
Tabelul 25 Determinarea marimii esantionului in functie de precizie:
Parametru Estimarea Intervalul de incredere Marimea esantionului
μ − − σ σ2
Y Y ± zα n = z α2
2 n 2
E2

μ1 − μ 2 − −
− − σ 12 σ 22 (σ
2
+ σ 22 )
Y1−Y 2 (Y 1 − Y 2 ) ± z α + n = zα2 1

2
n n 2
E2
p p̂ pˆ qˆ
pˆ qˆ n = z α2 *
pˆ ± z α
n 2
E2
2

p1 − p 2 pˆ 1 − pˆ 2 pˆ 1 − pˆ 2 ±
n = zα2 *
( pˆ1qˆ1 + pˆ 2 qˆ2 )
pˆ 1 (1 − pˆ 1 ) pˆ 2 (1 − pˆ 2 ) 2
E2
± zα +
2
n n

185
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

E poate fi luat o valoare absoluta, o fractie din σ sau o fractie din


valoarea mediei estimate. In lipsa unei estimari experimentale a lui p se
poate lua un numar “maxim” prin aceea ca se ia p(1 − p ) maxim, deci
1
p= .
2
De retinut ca alegerea lui n astfel incat eroarea sa nu depaseasca un
anumit prag urmareste atingerea unei precizii date in estimarea lui μ cu
considerarea numai a erorii de tip I.
O abordare independenta de distributie poate fi obtinuta folosind
inegalitatea lui Cebasev:
}≥ 1− σ 2
− 2
1- α = P { Y − μ ≤ E (2)
nE
Inlocuind inegalitatea cu egalitatea si luand, la fel ca mai sus E = 0.1 σ si
α=0,05 obtinem :
σ2 σ2 σ2
α = 2 si n = 2 = = 2000
nE αE 0,05 ∗ 0,01σ 2
Observam ca cifra « asiguratoare » este mult mai mare din aceea ca nu avem
nici o informatie despre distributie.

2.15.2. Testarea ipotezelor. Calculul numarului de subiecti in functie de


probabilitatile erorilor de tipul I si tipul II fixate in prealabil
Pentru a calcula numarul de subiecti in functie si de puterea testului
trebuie specificata diferenta semnificativa clinic in cazul parametrului
masurat. In cele mai multe studii clinice obiectivul este demonstrarea
eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt
medicament. Indiferent de comparator, este important sa se specifice ce
diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta
diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul”
microscopului definit de studiul clinic cu care comparam cele doua
medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci
va fi nevoie de un numar mic de subiecti.
Daca diferenta este relative mica, va fi nevoie de un grup de subiecti
mai mare. Daca Δ → ∞ , puterea tinde la 1, iar cand
Δ → 0 avem 1 − β → 0 .
Practic se determina numarul de subiecti necesari asigurarii unei
anumite puteri pentru un risc α dat sau, altfel spus selectarea unei

186
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de


eroare de tip I fixat.
Raportul dintre α si β este ca cel din selectia de incertitudine a lui
Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea
erorii de tip II.

2.15.3. Testarea ipotezelor privind media unui lot


Presupunem ca testam urmatoarele ipoteze:
H0 : μ = μ 0
vs. H a : μ > μ0
cu riscul α cand dispersia σ 2 este cunoscuta. Simplificam ipoteza
alternativa alternativa, luand
H a : μ = μ0 + Δ
unde Δ >0 este o diferenta minima pe care o consideram semnificativa
clinic si vrem sa o punem in evidenta.
Daca diferenta este mai mare decat Δ , n va fi mai mic. Deci noi
luam in acest fel un n “asigurator” (conservativ) asumandu-ne un risc cat
mai mic.
Deoarece, in ipoteza alternativa ca μ = μ 0 + Δ , testul statistic

Y − ( μ 0 + Δ)
σ/ n
urmeaza o distributie standard normala. Puterea testului este data de relatia
1 − β = P { H 0 respinsa H a ade var ata} =
⎧− ⎫
⎪ Y − ( μ0 + Δ) Δ ⎪.
= P⎨ > z1−α − μ = μ0 + Δ ⎬
⎪ σ/ n σ/ n ⎪
⎩ ⎭
⎧⎪ Δ n ⎫⎪ ⎧⎪ Δ n ⎫⎪
= P ⎨ z > zα − ⎬ = 1 − P ⎨ z < zα − ⎬,
⎪⎩ σ ⎪⎭ ⎪⎩ σ ⎪⎭
de unde , din definitia cuantilelelor
Δ n Δ n
zβ = z1−α − = − zα −
σ σ

187
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

si de aici
σ 2 [zα + z β ]2
n=
Δ2
Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este
H a : μ < μ0 .
Pentru a testa ipoteza bilaterala
H 0 : μ = μ0
vs. H a : μ = μ 0 − Δ sau H a : μ = μ 0 + Δ
H 0 este respinsa in zona critica, adica pentru
x − μ0 x − μ0
〉z sau 〈−z .
σ 1−
α
2
σ 1−
α
2
n n
Deci
⎛ ⎞
⎜ x−μ x − μ0 ⎟
1− β = P ⎜ 0
〈 zα sau 〉 z α μ = μ1 ⎟ =
⎜ σ 2
σ 1−
2 ⎟
⎜ ⎟
⎝ n n ⎠
⎛ σ σ ⎞
P ⎜ x 〈 μ0 + zα * sau x 〉 μ0 + z α * μ = μ1 ⎟ =
1−
⎝ 2 n 2 n ⎠
⎛ ⎞
⎜ x−μ μ −μ x − μ1 μ0 − μ1 ⎟
= P⎜ 1
〈 0 1
+ zα sau 〉 +z α ⎟
⎜ σ σ 2
σ σ 1−
2 ⎟
⎜ ⎟
⎝ n n n n ⎠
x − μ1
Deoarece media adevarata este μ1 , este repartizat N (0,1) . Prin
σ
n
urmare
⎛ ⎞ ⎛ ⎞
⎜ ⎟ ⎜ ⎟
μ − μ1 ⎟ + 1 − Φ⎜ μ 0 − μ1 + z
1 − β = Φ⎜ 0 + zα ⎟
⎜ σ ⎟ ⎜ σ 1−
α

⎜ 2
⎟ ⎜ 2

⎝ n ⎠ ⎝ n ⎠

188
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

⎛ ⎞
μ − μ1 ⎜ ⎟
Pentru 0 〈 − 0.5 se poate considera ca Φ⎜ μ 0 − μ1 + z ⎟ ≅ 0 , si deci
σ ⎜ σ α


2

n ⎝ n ⎠
⎛ ⎞
⎜ ⎟
μ − μ1
β = Φ⎜ 0 +z α ⎟
⎜ σ 1− ⎟
⎜ 2

⎝ n ⎠
Conform definitiei avem Φ (z β ) = β , z α = − zα si ca urmare
1−
2 2

μ − μ1 σ μ − μ1
zβ = 0 − z α si = 0 .
σ 2 n z α + z β
2
n
Scotand pe n din ecuatie obtinem:
2
⎛ ⎞
σ ⎜⎜ z α + z β ⎟⎟
2

n= ⎝ 2 ⎠
(μ 0 − μ1 ) 2

Daca impartim cu μ12 obtinem:


2
σ2 ⎛ μ − μ1 ⎞
*100 = ( CV ) si ⎜ 0
2
⎟ *100 = Δ %
μ −1 ⎝ μ1 ⎠
si formula devine:
2
⎛ ⎞
( CV % ) ⎜ zα + zβ ⎟
2

n= ⎝ 2 ⎠
( Δ% )
2

Cazul distributiei binomiale


Fie Y variabila aleatoare Bernoulli cu probabilitatea de succes p si
probabiliatae de esec 1-p. Obiectivul studiului este de a alege intre
H0 : p = p0 si Ha : p = p1 (p1>p0)
din evaluarea unui esantion de marime n.
Proportia de selectie
1 n
P = ∑ Yi
n i =1
urmeaza aproximativ o distributie normala cu media p si dispersia p(1-p)/n .

189
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Pentru testarea ipotezelor enuntate ne folosim de aproximarea


normala

P − E ( P) P − p0
= ≈Z
D( P) p0 q0
n
⎧ ⎫
⎪ p− p ⎪ ⎧ ⎫⎪
⎪ ⎪ ⎪ p0 qo
β =⎨ 0
〉 zα p = p1 ⎬ = ⎨ p〉 p 0 + zα p = p1 ⎬ =
⎪ p0 qo ⎪ ⎪⎩ n ⎪⎭
⎪⎩ n ⎪⎭
⎧ ⎫
⎪p− p p − p p 0 q o ⎪⎪

=⎨ 1
〉 0 1
− zα ⎬
⎪ p1 q1 p1 q1 p1 q1 ⎪
⎪⎩ n n ⎪⎭
Δ p0 q0
zβ = − zα
p1 q1 p1 q1
n
p0 q0 Δ
z β + zα = n
p1 q1 p1 q1
In concluzie rezulta pentru n :
2
⎛ zβ p1 q 1 + z α p0 q 0 ⎞⎟
⎜ =n
⎜ Δ ⎟
⎝ ⎠

2.15.4. Testul pentru compararea mediilor a doua populatii


O procedura asemanatoare ca mai sus poate fi aplicata pentru
determinarea marimii esantionului necesar pentru obtinerea unei puteri date
in compararea a doua metode de tratament. Fie μ1 si μ 2 mediile
tratamentului 1 si, respectiv, tratamentului 2. Cele doua ipoteze sunt:
H 0 : μ1 = μ 2 vs. H a : μ1 ≠ μ 2
Presupunand ca σ 12 si σ 22 sunt cunoscute si considerand o ipoteza
alternativa specifica, simplificata H a : μ1 − μ 2 = Δ formula care da puterea
testului este prin definitie
190
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

1 − β = P { H 0 respinsa H a ade var ata} =


⎧− − − − ⎫
⎪ Y 1 − Y2 Y 1 − Y2 ⎪
= P⎨ >z α sau 〈 − zα μ1 = μ2 + Δ ⎬
⎪ σ d
1−
2 σd 2 ⎪
⎩ ⎭
σ 12 σ 22
unde σ d = +
n1 n2
− −
(Y 1 − Y 2 ) − Δ
Dar, in ipoteza alternativa, statistica este o variabila
σd
normala standard, z
Facand aceleeasi operatii ca mai sus, de punere in evidenta a
variabilei normal repartizate, si neglijand
⎧− − ⎫
⎪ Y 1 − Y2 ⎪
P⎨ 〈 − zα μ1 = μ2 + Δ ⎬ se obtine:
⎪ σd 2 ⎪
⎩ ⎭
⎧ − −

⎪ (Y − Y 2 ) − Δ Δ ⎪
1− β = P ⎨ 1 > − zα − μ1 = μ2 + Δ ⎬ .
⎪⎩ σd 2
σd ⎪⎭
De aceea
⎛ Δ ⎞
β = Φ ⎜ − zα − ⎟ ,
⎝ 2 σd ⎠
de unde,
Δ
zβ = −zα − .
2
σd
Daca presupunem ca n = n1 = n2 si σ 12 = σ 22 = σ 2 atunci
2
⎡ ⎤ Δ2 Δ2
⎢ zα + z β ⎥ = 2 = si deci
⎦ σ d 2σ
2
⎣ 2
n

191
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2 2
⎡ ⎤ ⎡ ⎤
(σ + σ ) ⎢ z α + z β ⎥
2
1
2
2 2σ 2 ⎢ z α + z β ⎥
n= ⎣ 2 ⎦ = ⎣ 2 ⎦
Δ 2
Δ 2

Pentru un test unilateral, formula de mai sus pentru determinarea


marimii esantionului devine:

n=
[ ]
(σ 12 + σ 22 ) zα + z β
2

Δ2
De retinut ca atunci cand dispersia populatiei este necunoscuta,
alegerea marimii lotului nu este o problema usoara.
De exemplu, in testarea ipotezei nule in expresia
H0 : μ = μ 0
vs. H a : μ > μ 0

Y − ( μ 0 + Δ)
cand valoarea adevarata este μ = μ 0 + Δ , statistica urmeaza o
s/ n
distributie t necentrata cu parametrul de ne-centrare δ = Δ / σ .

Tabelul de mai jos contine marimea calculata a loturilor pentru


testul t privind meda si respectiv, diferenta dintre mediile tratamentelor
respective, pentru diferite valori ale lui δ - “diferenta semnificativa”

192
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Tabelul nr. 26:


Test unilateral Test bilateral
Riscul α = 0.05
α = 0.1
β= 0.01 0.05 0.1 0.2 0.5 β= 0.01 0.05 0.1 0.2 0.5
μ − μ0 μ1 − μ 2
Δ= Δ=
σ σ
0.15 122 0.20 137
0.20 70 0.25 88
0.25 139 101 45 0.30 61
0.30 122 97 71 32 0.35 102 45
0.35 90 72 52 24 0.40 108 78 35
0.40 101 70 55 40 19 0.45 108 86 62 28
0.45 80 55 44 33 15 0.50 88 70 51 23
0.50 65 45 36 27 13 0.55 112 73 58 42 19
0.55 54 38 30 22 11 0.60 89 61 49 36 16
0.60 46 32 26 19 9 0.65 76 52 42 30 14
0.65 39 28 22 17 8 0.70 66 45 36 26 12
0.70 34 24 19 15 8 0.75 57 40 32 23 11
0.75 30 21 17 13 7 0.80 50 35 28 21 10
0.80 27 19 15 12 6 0.85 45 31 25 18 9
0.85 24 17 14 11 6 0.90 40 28 22 16 8
0.90 21 15 13 10 5 0.95 36 25 20 15 7
0.95 19 14 11 9 5 1.00 33 23 18 14 7
1.00 18 13 11 8 5 1.1 27 19 15 12 6
1.1 15 11 9 7 1.2 23 16 13 10 5
1.2 13 10 8 6 1.3 20 14 11 9 5
1.3 11 8 7 6 1.4 17 12 10 8 4
1.4 10 8 7 5 1.5 15 11 9 7 4
1.5 9 7 6 1.6 14 10 8 6 4
1.6 8 6 6 1.7 12 9 7 6 3
1.7 8 6 5 1.8 11 8 7 5
1.8 7 6 1.9 10 7 6 5
1.9 7 5 2.0 9 7 6 4
2.0 6 2.1 8 6 5 4
2.1 6 2.2 8 6 5 4
2.2 6 2.3 7 5 5 4
2.3 5 2.4 7 5 4 4
2.4 2.5 6 5 4 3
2.5 3.0 5 4 3
3.0 3.5 4 3
3.5 4.0 4

193
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2.15.5. Compararea a doua proportii

Cand variabilele rezultate sunt cu doua valori posibile (tratamentele


fie imbunatatesc, fie nu imbunatatesc starea pacientului) variabilele care ne
intereseaza mai mult sunt proportiile pacientilor a caror stare s-a ameliorat
si nu media unor masuratori date. Fie p1 si p2 proportia de succes (e.g.
vindecare sau imbunatatire) in grupul in care s-a facut tratamentul si,
respective in grupul de control. Marimea esantionului se poate determina
similar cu cazul testului t bilateral obtinandu-se pentru n :
2
⎡ ⎤
⎢ z α 2 p(1 − p) + z β p1 (1 − p1 ) + p 2 (1 − p 2 ) ⎥
n= ⎣ 2 ⎦
( p1 − p 2 ) 2

p + p2
unde p = 1 .
2

2.15.6. Marimea esantionului pentru comparari de mai multe medii prin


analiza dispersionala (ANOVA)
Pentru analiza dispersionala pe o singura cale cu n observatii pe
fiecare tratament, obiectivul principal este de a testa ipoteza H 0 privind
provenienta esantioanelor din aceiasi populatie. Folosind notatiile de la
capitolul privind analiza dispersionala avem:
H 0 : τ 1 = τ 2 = … = τ k = 0 , si cu ipoteza alternativa
H a : cel putin un τ i nu este zero

Reamintim ca:
⎛ SSA ⎞ n k 2 ⎛ SSE ⎞
E ( MSA) = E ⎜ ⎟ = σ 2
+ ∑ τ i si E ( MSE ) = E ⎜⎜ ⎟⎟ = σ 2
⎝ k −1⎠ k − 1 i =1 ⎝ k (n − 1) ⎠

Astfel, pentru o deviatie data de la ipoteza nula H 0 , masurata prin


k
n∑ τ i2 /( k − 1) , valori mari ale lui σ 2 micsoreaza sansele de obtinere a
i =1
valorii FA = MSA/MSE in zona critica a testului.
Sensibilitatea testului descrie puterea procedurii de a detecta
diferentele intre mediile grupurilor si reprezinta, in fapt, puterea testului.
194
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Aceasta putere se interpreteaza ca probabilitatea ca F sa cada in zona critica


atunci cand ipoteza nula este falsa si mediile tratamentelor difera intre ele.
Conform ipotezei nule FA=MSA/MSE urmeaza o distributie F cu
(n1,n2) grade de libertate, unde v1 = k − 1 si v2 = k (n − 1) = N − k .
Deci, pentru analiza dispersiei one-way, puterea este data de:
1 − β = P{FA > f (α , v1 , v 2 ) H a este ade var ata} =
⎧ n k 2 ⎫ (3)
= P ⎨ FA > f (α , v1 , v 2 ) ∑
k − 1 i =1
τ i ≠ 0⎬
⎩ ⎭
k
Pentru valori date pentru n∑ τ i2 /( k − 1) si σ 2 puterea poate fi
i =1
crescuta folosind esantioane mai mari. Problema revine la proiectarea unui
experiment cu o valoare a lui n astfel incat sa avem asigurata o putere data.
k
In ipoteza alternativa ca ∑τ
i =1
i
2
≠ 0, FA urmeaza o distributie
k
n∑τ i2
noncentrata cu un parametru de noncentralitate δ unde δ 2 = i =1
.
2σ 2
Asfel relatia (3) devine
⎧ n k 2 ⎫
1 − β = P ⎨ FA > f (α , v1 , v 2 ) ∑ τ i ≠ 0⎬ = P{FA > f (α , v1 , v 2 , δ )}
⎩ k − 1 i =1 ⎭
relatie care defineste implicit numarul necesar de subiecti.

2.15.7. Modelul crossover


Ipoteze punctuale privind egalitati.
FieYijk raspunsul voluntarului i in secventa k in perioada j.
Consideram un model care neglijeaza efectele carryover inegale:
Yijk = μ + S ik + Pj + T( j ,k ) + eijk ,
(4)
unde i = 1,2, …, n k este numarul de voluntary, j este perioada, k = 1, 2 este
secventa.
In modelul de mai sus μ este media totala, S ik este efectul aleatoriu
al voluntarului i in secventa k, Pj este efectul de perioada j, T( j ,k ) este
efectul direct al tratamentului administrat in perioada j, secventa k, adica

195
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Placebo pentru k = j
T( j ,k ) =
Medicamentul testat pentru k ≠ j, k = 1, 2; j = 1, 2
si eijk eroarea in masuratori.
Pentru modelul (4) se presupune ca {S ik } sunt distribuite
independent si identic cu media zero si dispersia σ S2 si {eijk } sunt distribuite
independent cu media zero si dispersia σ 2 . Se presupune ca {S ik } si {eijk }
sunt independente intre ele. Sa testam urmatoarele ipoteze:

H 0 : μT = μ P
vs H a : μT ≠ μ P (5)
Consideram diferentele intre perioade pentru fiecare voluntar in
interiorul fiecarei secvente definite:
1
d ik = (Yi 2 k − Yi1k ),
2
unde i = 1,2, …, n k , k = 1, 2.
Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum
urmeaza:
− −
Y T − YP
Td = ,
1 1
σˆ d +
n1 n2
− 1 − − − 1 − −
unde YT = (Y . 21 + Y . 12 ) , YP = (Y . 11 + Y . 22 ) si
2 2
2 nk
1 − − 1 nk − 1 nk
σˆ d = ∑∑ (d ik − d . k ) , Y . jk = n ∑
n1 + n2 − 2 k =1 i =1
2
Yijk , d . k = ∑ d ik
nk i =1
k i =1

Conform ipotezei nule, Td are o distributie t cu n1 + n2 − 2 grade de


libertate.
Daca nu se accepta ipoteza nula, atunci Td > t (1 − α / 2, n1 + n2 − 2).
In ipoteza alternativa simplificata μ T = μ p + Δ puterea testului Td
poate fi evaluat similar.
In scop de echilibrare, presupunem ca n1 = n2 = n ; ceea ce inseamna
ca fiecare secventa va avea acelasi numar de voluntari.

196
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Cele doua ipoteze de mai sus sunt de regula inlocuite cu doua


perechi de ipoteze (metoda Schuirmann)
H 01 : μT − μ P ≤ θ L
vs. H a1 : μT − μ P > θ L
si
H 02 : μT − μ P ≤ θU
vs. H a 2 : μ T − μ R 〉 θ U ,
unde θ L si θU sunt limitele pentru echivalenta semnificative clinic.
Dupa cum se observa ipoteza nula este ca medicamentele nu sunt
bioechivalente. Cu aceasta prezumtie de “vinovatie” este micsorat riscul
pacientului. Daca studiul nu “dezvinovateste” medicamentul testt, acesta nu
poate fi introdus in terapie.
Putem sa nu acceptam ipoteza nula a inechivalentei daca:
− −
Y T − Y P −θL
TL = > t (α , n1 + n2 − 2) si
σˆ d (1/ n1 ) + (1/ n2 )
− −
Y T − Y P − θU
TU = < −t (α , n1 + n2 − 2)
σˆ d (1/ n1 ) + (1/ n2 )
Fie θ = μT − μ P si φ S (θ ) puterea testului bilateral Schuirmann
pentru un θ dat.
In cazul bioechivalentei observam ca, in contextul in care se doreste
minimalizarea riscului pacientului, avem particularitatea ca functioneaza
intr-un fel prezumtia de „vinovatie”, in sensul ca H 0 este ipoteza ca
medicamentele nu sunt bioechivalente iar puterea testului este probabilitatea
de a accepta ipoteza bioechivalentei in cazul cand acestea sunt echivalente
α = P (respinge H 0 H 0 ade var ata ) = riscul pacientului
β = P ( accepta H 0 H a ade var ata ) = riscul producatorului
1 − β = P (respinge H 0 H a ade var ata )
In scopul calcularii puterii reformulam putin ipotezele H 0 in sensul
ca vom lua θ L = θ u = Δ
In acest context problema testului devine o problema de
probabilitate de a detecta o diferenta Δ pe care o consideram ca
semnificativa clinic; in cazul bioechivalentei aceasta diferenta este de 20%.

197
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Ipoteza complexa Ipoteza simplificata


H 01 : μ T − μ R 〈 θ L H 01 : μ T − μ R = − Δ
H a1 : μ T = μ R H a1 : μ T = μ R
H 02 : μ T − μ R 〉 θ u H 02 : μ T − μ R = Δ
H a 2 : μT = μ R H a 2 : μT = μ R

Analizam in continuare cazul

H 01 : μ T − μ R = − Δ vs. H a1 : μ T − μ R = 0

⎛ ⎞
⎜ x+Δ
1 − β = P ( respinge H 0 H a ade var ata ) = P 〉 t1−α ,2 n − 2 μT = μ R ⎟ =
⎜ ⎟
⎜ σˆ d 2 ⎟
⎝ n ⎠
⎛ ⎞
⎜ Δ
μT = μ R ⎟⎟
x
= P⎜ 〉 t1−α ,2 n − 2 −
⎜ σˆ d 2 σˆ d 2 n ⎟
⎝ n ⎠
⎛ ⎞
⎜ Δ
μT = μ R ⎟⎟
x
1− β = 1− P ⎜ 〈 t1−α ,2 n − 2 −
⎜ σˆ d 2 σˆ d n 2 ⎟
⎝ n ⎠
Δ
tβ ,2 n − 2 = t1−α ,2 n − 2 −
σ d 2n
Δ
= t1−α ,2 n − 2 − tβ ,2 n − 2 = t1−α ,2 n − 2 + t1− β ,2 n − 2
σd n
ˆ 2

2 σˆ
2
n = 2 ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * d2
Δ
In fapt noi am notat
X = X T − X R si σ 2 = σ d 2 ,
σ2
dar dupa cum s-a arata anterior,
σ =2 e

2 , deci
d

198
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2 σ
2
1
n = ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * 2e

2 Δ
σe
μ2 CV = *100
Impartind termenii raportului cu si tinand cont ca μ
se obtine pentru numarul de subiecti in fiecare secventa:
2
1
n = ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * '2
2 CV

2 Δ ,
Δ
Δ ' = *100
unde μ
Δ ' = 0, 2
Pentru cazul bioechivalentei si pentru intreg experimental,
2
n = ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * 2
2 CV

20
Pornind de la grupul 2 de ipoteze se obtine
H 01 : μ T − μ R = Δ
H 02 : μ T − μ R = 0
1 − β = P(respinge H 0 H a ade var ata )
⎛ ⎞
⎜ ⎟
⎜ X −Δ
1− β = P 〈 t2 n − 2,α μT − μ R = 0 ⎟ =
⎜ σˆ ⎟
⎜ 2 ⎟
⎝ n ⎠
⎛ ⎞
⎜ ⎟
X Δ
= P⎜ 〈 +t2 n − 2,α μT − μ R = 0 ⎟
⎜ σˆ σˆ ⎟
⎜ 2 2 ⎟
⎝ n n ⎠

si asa mai departe.

199
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Cazul cand exista o diferenta intre medicamente

Consideram in continuare cazul cand diferenta intre cele doua medii


nu mai este zero ci are o valoare data θ0 :

μT − μ R = θ 0
De regula pentru produsele bioechivalente θ0 este mai mic decat
7% din μ R .
Consideram din nou o ipoteza simplificata:
H 02 : μ T − μ R = Δ vs H a 2 : μT − μ R = θ 0 si notam
X = XT − X R
si vom folosi statistica
X T − X R − ( μT − μ R ) X − θ0
T2 n − 2 = =
σ d 1/ n + 1/ n σd 2/ n
Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti
necesari pantru a asigura o putere data :
1 − β = Φ (θ ) = P ( respinge H 0 H a ade var ata ) =
⎛ X −Δ ⎞
= P⎜ 〉 t α μT − μ R = θ0 ⎟ =
⎜ σˆ 2 n 1− , 2 n − 2 ⎟
⎝ 2 ⎠
⎛ X − θ0 Δ − θ0 ⎞
= P⎜ 〉 +t α μT − μ R = θ0 ⎟
⎜ σˆ 2 n σˆ 2 n 1− , 2 n − 2 ⎟
⎝ 2 ⎠
⎛ Δ − θ0 ⎞
β = P ⎜ T2 n −2 ≤ +t α μT − μ R = θ 0 ⎟
⎜ σˆ 2 n 1− 2 , 2 n − 2 ⎟
⎝ ⎠
Δ − θ0
Deci σˆ 2 n + t1−α ,2 n −2 = tβ ,2 n −2
2
2
⎛ ⎞ σˆ 2
de unde n = 2 ⎜ tα ,2 n − 2 + tβ ,2 n − 2 ⎟ *
⎠ (Δ −θ )
2
⎝ 2
Observam ca puterea depinde de θ , iar numarul de subiecti necesar
pentru detectarea unei diferente semnificative clinic data este cu atat mai
mare cu cat cele doua medicamente sunt mai apropiate.

200
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2.15.8. Calculul comparativ al numarului de subiecti necesari in


testarea bioechivalentei terapeutice a medicamentelor.

2.15.8.1. Calculul in testarea bioechivalentei


Medicamentele bioechivalente nu difera niciodata in ceea ce
priveste concentratiile plasmatice cu mai mult de 20 % , diferenta fiind in
medie mai mica de 7 % . Studiile de bioechivalenta au rostul de a
verifica statistic faptul ca doua medicamente unul de referinta si unul testat
difera in ceea ce priveste concentratiile in sange cu mai putin de 20 %,
diferenta care este considerata nesemnficativa clinic. Aceasta valoare
a dus insa si la multe confuzii si controverse. S-a considerat ca este posibil
ca un medicament sa aiba concentratii 80 % din medicamentul de referinta
iar altul sa aiba concentratii 120 % din medicamentul de referinta. In acest
fel, pacientul care ar schimba intre ele cele doua medicamente de referinta
ar avea la un moment dat o variatie de 40 % in nivelele plasmatice.
Concluzia este falsa deoarece porneste de la o exprimare literar folclorica a
definitiei matematice a bioechivalentei. Definitia exacta cere ca intervalul
de incredere 90 % pentru diferenta intre nivelele plasmatice medii ale
medicamentului testat si a celui de referinta sa sa fie mai mic decat 20 % :
⎛ μ TAUC ⎞ ⎛ μ cTmax ⎞
P⎜⎜ 0,8 〈 R 〈 1,25 ⎟⎟ ≥ 0,9 şi P⎜⎜ 0,8 〈 R 〈 1,25 ⎟⎟ ≥ 0,9
⎝ μ AUC ⎠ ⎝ μ c max ⎠
Intrucat lungimea intervalului de incredere este proportionala cu
variabilitatea medicamentului, cu cat aceasta este mai mare, cu atat
diferenta medie intre parametrii farmacocinetici trebuie sa fie mai mica.
Practic se ajunge la aceea ca medicamentele bioechivalente difera in medie
in ceea ce priveste concetratiile plasmatice, cu mai putin de 5-6 % ceea ce
se si verifica efectiv in practica , dupa cum se poate vedea mai jos

Statistica pe 273 aplicaţii generice în 1997 1


Pentru 127 studii de bio-echivalenţă in vivo

AUC 0-t final (t-last) 3,47 ±2,84%


AUC 0 – Infinit 3,25±2,97%
C max 4,29±3,72%

1
Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu,
Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995,
1999
201
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

De observat ca media diferenţei între generic şi inovator e mai mică


decât diferenţa minimă de 5% in uniformitatea conţinutului permis de USP.

2.15.8.2. Calculul in testarea echivalentei clinice


Obiectiv de demonstrat:
Testarea bioechivalentei pornind de la nivelele concentratiilor
plasmatice necesita zeci de subiecti in timp ce testarea echivalentei
terapeutice necesita zeci de mii de subiecti .
Calculul numarului de subiecti necesari pentru demonstrarea unui
efect de reducere a unui marker biologic pentru o afectiune data, in cazul in
care acesta ia valori numerice continue si avem dovezi ca datele sunt
distribuite normal se face in functie de diferenta semnificativa terapeutic
in valorile markerului, de riscul asumat α si de puterea testului 1 − β .
Presupunem ca testam urmatoarele ipoteze:
H 0 : μ = μ0 vs. H a : μ > μ0

cu riscul α cand dispersia σ 2 este cunoscuta. Pentru ipoteza alternativa


specifica, spunem
H :μ = μ + Δ
a 0

unde Δ >0 este o diferenta pe care o consideram semnificativa clinic.


Numarul de subiecti necesari pentru testarea acestei ipoteze este
2 2

σ ⎛⎜ z + z ⎞⎟
2
σ ⎛⎜ z + z ⎞⎟ 2

n= ⎝ ⎠ = ⎝ α
2 ⎠β α
2
β

(μ − μ ) 0
Δ 1
2 2

In cazul bioechivalentei se ia un risc de 10 % si o putere de 90 %.


Diferenta Δ semnificativa clinic pe care vrem sa o depistam este de
20 %.
α
= 0,05 ⇒ z α = −1,64 ; β = 0,1 ⇒ z β = −1,3 si Δ = 0,2
2 2

Pentru un medicament cu variabilitate moderata - 20 % ( dincolo de


30 % spunem ca medicamentul este cu variabilitate mare) , inlocuind in
formula se obtine

202
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2
⎛ ⎞
σ 2 ⎜⎜ z α + z β ⎟⎟
⎝ ⎠ 0 . 2 2 (1 . 64 + 1 . 28 ) 2
n = 2
= ≈ 9
Δ2 0 .2 2

2.15.8.3. Cazul compararii efectelor clinice


Când variabilele rezultate sunt cu două valori posibile (tratamentele
fie îmbunătăţesc, fie nu îmbunătăţesc starea pacientului) variabilele care ne
interesează mai mult sunt proporţiile pacienţilor a căror stare s-a ameliorat
şi nu media unor măsurători date.
Fie p1 şi p 2 proporţia de succes (vindecare sau îmbunătăţire) în
grupul în care s-a făcut tratamentul şi, respectiv în grupul de control.
Mărimea eşantionului se poate determina similar cu cazul testului t bilateral.
Consideram ipotezele:
⎧ H 0 : p1 = p 2 ⎧ H 0 : p1 − p 2 = 0
⎨ ⇔⎨
⎩ H a : p1 ≠ p 2 ⎩ H a : p1 − p 2 ≠ 0
Pentru a calcula numarul de subiecti in functie si de puterea testului
trebuie specificata diferenta semnificativa clinic in cazul parametrului
masurat. In cele mai multe studii clinice obiectivul este demonstrarea
eficientei si sigurantei unui medicament comparat cu placebo sau cu un alt
medicament. Indiferent de comparator, este important sa se specifice ce
diferenta este importanta din punct de vedere clinic sau stiintific. Aceasta
diferenta o vom nota cu Δ . Aceasta diferenta defineste “grosismentul”
microscopului definit de studiul clinic cu care comparam cele doua
medicamente. Intuitia ne spune ca daca se va alege o diferenta mare atunci
va fi nevoie de un numar mic de subiecti.
Daca diferenta este relative mica, va fi nevoie de un grup de subiecti
mai mare. Daca Δ → ∞ , puterea tinde la 1, iar cand
Δ → 0 avem 1 − β → 0 .
Practic se determina numarul de subiecti necesari asigurarii unei
anumite puteri pentru un risc α dat sau, altfel spus selectarea unei
probabilitati pentru eroarea de tip II acceptabila – in conditiile unui risc de
eroare de tip I fixat.
Raportul dintre α si β este ca cel din selectia de incertitudine a lui
Heisenberg: daca scade probabilitatea erorii de tip I, creste probabilitatea
erorii de tip II.
Ipoteze ce urmeaza a fi testate vor fi:
203
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

⎧ H 0 : p1 − p 2 = 0

⎩ H a : p1 − p 2 = Δ
Cunoscandu-se puterea testului π = 1 − β vom determina marimea
esantionului.
Conform definitiei puterea testului este:
π = 1 − β = 1 − P(accepta H 0 H a ade var ata ) = P(respinge H 0 H a ade var ata )
Deci,
⎛ ⎞
⎜ ⎟
⎜ pˆ 1 − pˆ 2 ⎟
1 − β = P⎜ 〉z α p1 − p 2 = Δ ⎟ =
⎜ ⎛1 1 ⎞ 1−
2 ⎟
⎜⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟⎟
⎝ ⎝ n1 n2 ⎠ ⎠
⎛ ⎛1 1 ⎞ ⎞
= P⎜ pˆ 1 − pˆ 2 〉 z α pˆ qˆ ⎜⎜ + ⎟⎟ p1 − p 2 = Δ ⎟
⎜ 1−
⎝ n1 n2 ⎠ ⎟
⎝ 2 ⎠
Vom scadea Δ din ambii membri ai inecuatiei precedente si vom obtine:
⎛ ⎛1 1 ⎞ ⎞
1 − β = P⎜ pˆ 1 − pˆ 2 − Δ 〉 z α pˆ qˆ ⎜⎜ + ⎟⎟ − Δ p1 − p 2 = Δ ⎟ =
⎜ 1−
⎝ n1 n2 ⎠ ⎟
⎝ 2 ⎠
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ pˆ − pˆ − Δ ⎝ n1 n2 ⎠ Δ ⎟
= P⎜ 1 2
〉z α − p1 − p 2 = Δ ⎟
⎜ pˆ 1 qˆ1 pˆ 2 qˆ 2 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜ n + 2
+ + ⎟⎟
n2 n1 n2 n1 n2
⎝ 1

Dar,
pˆ 1 − pˆ 2 − Δ
Z= ∈ N (0,1) si obtinem:
pˆ 1 qˆ1 pˆ 2 qˆ 2
+
n1 n2

204
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
1 − β = P⎜ Z 〉 z α − p1 − p 2 = Δ ⎟
⎜ 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
1 − P⎜ Z 〉 z α − p1 − p 2 = Δ ⎟ = 1 − (1 − β ) = β
⎜ 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠

Deci,
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
1 − P⎜ Z 〉 z α − p1 − p 2 = Δ ⎟ =
⎜ 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
= P⎜ Z 〈 − z α − p1 − p 2 = Δ ⎟ = β
⎜ pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
Dar,
P(Z 〈 z β p1 − p 2 = Δ ) = β , deci

⎛1 1 ⎞
pˆ qˆ ⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠ Δ
zβ = −zα −
pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2
2
+ +
n1 n2 n1 n2

205
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Aducand la acelasi numitor obtinem:


pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎛1 1 ⎞
zβ + pˆ qˆ ⎜⎜ + ⎟⎟ − Δ
= −zα
n1 n2 2 ⎝ n1 n2 ⎠
⎛ ⎛1 1 ⎞ pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎞⎟
Vom determina diferenta Δ = −⎜ z α pˆ qˆ ⎜⎜ + ⎟⎟ + z β + ⇒
⎜ 2 ⎝ n1 n2 ⎠ n1 n2 ⎟
⎝ ⎠
⎛ pˆ qˆ (n1 + n2 ) n2 pˆ 1 qˆ1 + n1 pˆ 2 qˆ 2 ⎞
Δ = −⎜ z α + zβ ⎟
⎜ n1 n2 n1 n2 ⎟
⎝ 2 ⎠
Ridicand la patrat obtinem:
2
⎛ ⎞
⎜ zα
⎜ pˆ qˆ (n1 + n2 ) + z β n2 pˆ 1 qˆ1 + n1 pˆ 2 qˆ 2 ⎟⎟
Δ2 = ⎝ 2 ⎠ sau, altfel scris:
n1 n2
2
⎛ ⎛1 1 ⎞ pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎞⎟
Δ2 = ⎜ z α pˆ qˆ ⎜⎜ + ⎟⎟ + z β +
⎜ 2 ⎝ n1 n2 ⎠ n1 n2 ⎟
⎝ ⎠
Considerand n1 = n si n2 = kn1 = kn vom obtine:
2
⎛ ⎛1 1 ⎞ pˆ1qˆ1 pˆ 2 qˆ2 ⎞
Δ = ⎜ zα
2
ˆ ˆ ⎜ + ⎟ + zβ
pq + ⎟ =
⎜ ⎝ n kn ⎠ n kn ⎟⎠
⎝ 2
2


= ⎜ zα ˆˆ
pq
( k + 1) + z pˆ1qˆ1k + pˆ 2 qˆ2 ⎞

⎜ 2 kn
β
kn ⎟
⎝ ⎠
2
⎛ ⎞
⎜ zα
⎜ pˆ qˆ (k + 1) + z β pˆ 1 qˆ1 k + pˆ 2 qˆ 2 ⎟⎟
kn = ⎝ 2 ⎠
Δ2
2
⎛ ⎞
⎜ zα
⎜ pˆ qˆ (k + 1) + z β pˆ 1 qˆ1 k + pˆ 2 qˆ 2 ⎟⎟
Deci, n = ⎝ 2 ⎠
Δ2 k

206
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2
⎛ ⎞
⎜ z α 2 pˆ qˆ + z β pˆ 1 qˆ1 + pˆ 2 qˆ 2 ⎟
⎜ ⎟
In cazul in care n1 = n2 ⇒ k = 1 si n = ⎝ 2 ⎠
Δ2

p1 + p 2
unde p = .
2

2.15.8.4. Cazul aspirinei.


Dintre pacientii cu infarct miocardic mor , intr-un interval de un an circa 10
% 2 , iar aspirina se pare ca reduce acest numar de decese cu 10 pana 30 %
din riscul celor care nu iau aspirina.
Ne propunem in continuare sa calculam numarul de pacienti cu
infarct miocardic ce trebuiesc urmariti pe un an de zile pentru a detecta o
reducere cu 20% a riscului de mortalitate , deci de la de la 10% la 8%.
Ne alegem ricul α = 0,05 si o putere a testului de 0.9 ( deci β=0,1)
10% ⎯20 ⎯→
⎯%
8%
10% + 8% 18%
p1 = 0,10 , p 2 = 0,08 si p = = = 9% ⇒ p = 0,09
2 2
Δ = 0,1 − 0,08 = 0,02
Δ este riscul evenimentului (infarct) în absenţa tratamentului minus
riscul evenimentului în prezenţa tratamentului sau procentulul riscului
evenimentului la lotul martor minus procentul riscului evenimentului la
lotul tratat.
2
⎛ 1.96 2 * 0.09 * 0.91 + 1,28 0,1 * 0,9 + 0,08 * 0,92 ⎞
n = ⎜⎜ ⎟ ≅ 4.300

⎝ 0 , 02 ⎠
Deci în studiile infarctului miocardic, aproximativ 10% dintre
pacienţi mor în decursul unui an. Un test clinic ar avea nevoie de
aproximativ 430 decese în grupul de control (adică, de aproximativ 4300
pacienţi în grupul de control şi 4300 în grupul de persoane tratate) pentru a
obţine 90% putere de detectare, 20% reducerea mortalităţii la un nivel de
5% ( α = 0,05 ).
În al doilea exemplu calculăm numărul de subiecţi pentru cazul în
care avem o reducere cu 20% a riscului de mortalitate de la 30% la 24%.

2
Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II.
Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor
Modification, JAMA 260 (15), 2259-2263, 1988
207
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

α=0,05 si β=0,1
30% ⎯20⎯→
⎯%
24%
30% + 24% 54%
p1 = 0,30 , p 2 = 0,24 si p = = = 27% ⇒ p = 0,27
2 2
Δ = 0,30 − 0,24 = 0,06
2
⎛ 1.96 2 * 0.27 * 0.73 + 1,28 0,3 * 0,7 + 0.24 * 0,76 ⎞
n = ⎜⎜ ⎟ ≅ 1.150

⎝ 0 , 06 ⎠
Rezultatul se înmulţeşte cu doi pentru că testul se efectuează pe
două loturi identice.
Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. Numarul de
morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor)
30
1150 * ≅ 350
100
Rezultatul calculelelor pentru alte combinatii de “rata
evenimentului” si “reducerea riscului” sunt date in tabelul de mai jos.
Procentul de mortalitate %
Reducerea riscului % 10 15 20 30 40
10% 1800 1700 1600 1400 1200
20% 430 400 390 350 300
30% 180 170 165 150 130
40% 100 90 87 80 70
50% 60 55 53 50 45
Test bilateral în care α=0,05; P=0,09.
Avem la dispozitie doua exprimari, amandoua corecte in masura
explicarii clare privind modul de calcul al scaderii. Astfel daca mortalitatea
scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20%
relativ la valoarea de referinta.
Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi
in studiu noi evaluam doua ipoteze privind mediile populatiei:
H 0 : μ = μ 0 si H A : μ = μ 0 + Δ
deci diferenta este una absoluta.
Daca insa plasam efectul intr-un cadru mai larg de comparare a
diverselor efecte – in diverse boli, ideea ca orice tratament nu modifica un
marker biologic cu mai mult de 30% din valoarea sa, este un rezultat mult
mai general, global aplicabil multimii markerilor, este semnificativ pentru
boala in sine care este caracterizata de o multime mare de parametri
masurabili sau nu.

208
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

2.15.8.5. Calculul numarului de subiecti necesari demonstrarii


echivalentei terapeutice a doua medicamente care sunt bioechivalente
Când compar aspirina 100% cu aspirina 80% presupun ca
medicamentul care elibereaza numai 80 % din cantitatea de aspirina
declarata are numai 80 % din actiunea celui care elibereaza intrega
cantitate. Deci diferenta considerata mai sus intre aspirina si placebo ( 0.02)
va scadea la 80 % , deci va fi de 0.016 .Diferenta intre testat si referinta
care trebuie depistata pentru a respinge bioechivalenta cu ajutorul efectului
de reducere a ratei de mortalitate a bolnavilor cu infarct intr-un interval de
un an va fi
Δ = 0,020 − 0,016 = 0,004 diferenta echivalentei terapeutice
In cazul in care tratez cu aspirina 100% avem 10% ⎯−⎯ ⎯→ 8%, iar
20%

−16%
in cazul aspirinei 80% avem 10% ⎯⎯ ⎯→ 8,4%
pˆ 1 = 0,08 ⇒ qˆ1 = 1 − pˆ 1 = 0,92
pˆ 2 = 0,084 ⇒ qˆ 2 = 1 − pˆ 2 = 0,916
pˆ + pˆ 2
pˆ = 1 = 0,082 ⇒ qˆ = 1 − pˆ = 0,918
2
În acest caz
2
⎛ 1.96 2 * 0.082 * 0.918 + 1,28 0,08 * 0,92 + 0.084 * 0,916 ⎞
n ≥ ⎜⎜ ⎟ ⇒

⎝ 0, 004 ⎠
n ≥ 98776 in fiecare grup, deci un total de circa 197552 de pacienti cu
infarct, de urmarit un an.

Concluzii

Literatura medicala abunda de “folclor” privind cazuri in care doua


medicamente bioechivalenta nu au fost echivalente clinic dar, studiile
sistematice in acest sens lipsesc. Din modul de prezentare a problemei
rezulta clar ca autorii nu au nici cea mai mica idee despre ce inseamna
bioechivalenta si cu ata mai putin stiu care este numarul de subiecti necesari
pentru a demonstra ceea ce in fapt nu se poate demonstra.

209
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari

Reprezentativ un astfel de studiu in cazul amiodaronei 3 se refera la


un sondaj de opinie in randul medicilor de familie. Indiferent de numarul
foarte mare al ignorantilor asupra subiectului – rezultatul nu poate fi
considerat ca o concluzie stiintifica.

3
James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically
Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology,
vol. 85, may 1, 2000
210
II. Statistica matematica si biostatistica Distributia binomiala

2.16. DISTRIBUTIA BINOMIALA

2.16.1. Compararea proportiilor cu testul exact Fisher

Consideram toate rezultatele posibile a doua incercari independente,


n1 in primul caz si n2 in al doilea caz, toate cu aceeasi probabilitate de
succes P. Notam numarul succeselor cu k1 si k2 .

Tabelul nr. 27
k1 n1 − k1 n1
k2 n2 − k2 n2
k1 + k2 n1 + n2 − ( k1 + k2 ) n1 + n2

unde:
- k1 si k2 numarul succeselor
- n1 − k1 si n2 − k2 numarul esecurilor
- n1 , n2 numarul de incercari si k1 + k2 fixate

Consideram rezultatele particulare x1 = k1 si x2 = k2 . Calculam


probabilitatea obtinerii acestor rezultate k1 si k2 , cand se dau marimile
esantioanelor n1 si n2 si numarul total de succese obtinute ( k1 + k2 ), cu
presupunerea ca probabilitatea de succes P este aceeasi pentru fiecare din
cele doua incercari.
Definim E1 si E2 ca fiind evenimentele ( x1 = k1 , x2 = k2 )
respectiv( x1 + x2 = k1 + k2 ).
Probabilitatea ca sa se obtina datele din tabel este:
P { E1 E2 }
P { x1 = k1 , x2 = k2 x1 + x2 = k1 + k2 } = P { E1 E2 } = (**)
P { E2 }
unde ( E1 E2 ) reprezinta realizarea concomitenta a evenimentelor E1 si E2 .
Daca se realizeaza E1 , adica ( x1 = k1 , x2 = k2 ), atunci automat se
intampla E2 , deoarece nu putem avea x1 = k1 si x2 = k2 fara a avea simultan
( x1 + x2 ) = ( k1 + k2 ).

211
II. Statistica matematica si biostatistica Distributia binomiala

De aceea probabilitatea evenimentului ( E1E2 ) este aceeasi cu


probabilitatea evenimentului E1 , adica P { E1E2 } = P {E1} . Inlocuind in
relatia (**) se obtine
P { E1} P ( x1 = k1 ∩ x2 = k2 )
P { x1 = k1 , x2 = k2 x1 + x2 = k1 + k2 } = =
P { E2 } P ( x1 + x2 = k1 + k2 )
P ( E2 ∩ E1 )
PE2 ( E1 ) =
P ( E2 )
Din definitia distributiei binomiale P( E1 ) si P ( E2 ) vor fi date de
formulele:
k n −k k k n −k
P( E1 ) = Cn 11 p 1 (1 − p) 1 1 Cn 22 p 2 (1 − p ) 2 2
k

k +k k 1 +k 2 n 1 + n 2 −( k 1 + k 2 )
P( E2 ) = Cn 11+ n 22 p (1 − p)

( k1 + k2 )! ⎡⎣ n1 + n2 − ( k1 + k2 )⎤⎦ !
k k
Cn 11 Cn 22 n1 !n2 !
PE 2 ( E1 ) = = ⋅
k +k
Cn 11+ n 22 k1 !k2 !(n1 − k1 )!(n2 − k2 )! ( n1 + n2 )!

De obicei in tabelele de contingenta se foloseste notatia din tabelul


de mai jos. Cu aceasta notatie probabilitatea rezultatelor devine
Tabelul nr. 28

A a b a+b
B c d c+d
a+c b+d

(a + b)!(c + d )!(a + c)!(b + d )!


PE 2 ( E1 ) = P ( a, c a + c ) = =
c !d !a !b !(a + b + c + d )!
(a + b)!(c + d )!(a + c)!(b + d )! 1 1
= ⋅ =C⋅
(a + b + c + d )! c !d !a !b ! c !d !a !b !

Regula de calcul se poate obtine mai usor daca observam ca la


numarator avem factorialele totalurilor marginale, iar la numitor numerele
din tabel si totalul general.

212
II. Statistica matematica si biostatistica Distributia binomiala

Exemplu.
Din studii anterioare se stia ca proportia de reactii adverse, in special
dureri de cap, la voluntarii sanatosi dupa administrarea isosorbit mononitrat
(ISMN) este de circa 30%.
S-a testat o noua formulare T comparativ cu formularea de referinta
in ceea ce priveste biodisponibilitatea. Protocolul experimentului clinic a
cerut, pe langa compararea biodisponibilitatii, si inregistrarea efectelor
adverse. Experimentul a fost de tip incrucisat, pe 24 voluntari din care, in
prima perioada 12 au primit medicamentul de referinta (R) si 12
medicamentul testat (T). Doi voluntari dintre cei care au primit referinta au
abandonat experimentul. In final numarul voluntarilor cu dureri de cap a
fost de 3 pentru R si 5 pentru T. Deci punand datele in tabelul 2x2 se obtine:

Medicament Reactii adverse (RA) Total


Da Nu
R 3 9 12
T 5 5 10
Total 8 14 22

Proportia de RA la ISMN a fost gasita mai mare medicamentul testat:


5 3
> .
10 12
Se poate afirma ca acest lucru este adevarat cu probabiliatatea 90%.
Verificam in acest scop ipotezele:
H 0 : PT = PR
cu α = 0,10.
H A : PT > PR
Aplicam testul Fisher. Sa calculam pentru inceput probabilitatea de a
se obtine exact rezultatul obtinut in experiment.. Conform cu cele
reprezentate mai sus, luand n1 =12, n2 =10 si k1 + k2 = 8
⎛ 3 9 12 ⎞
⎜ ⎟ 8!14!12!10!
P ⎜ 5 5 10 ⎟ = = 0,173
⎜ 8 14 22 ⎟ 3!5!5!9!22!
⎝ ⎠
Mai departe trebuiau calculate si probabilitatile pentru combinatiile
“mai putin probabile” decat combinatia obtinuta experimental si cu proportii
mai mari pentru PT . Avem de exemplu:

213
II. Statistica matematica si biostatistica Distributia binomiala

⎛ 2 10 12 ⎞
⎜ ⎟ 8!14!12!10! 1
P ⎜ 6 4 10 ⎟ = ⋅ = 0, 04
⎜ 8 14 22 ⎟ 22! 2!6!4!10!
⎝ ⎠

⎛ 1 11 12 ⎞
⎜ ⎟ 1
P ⎜ 7 3 10 ⎟ = c ⋅ = 0, 0045 si
⎜ 8 14 22 ⎟ 1!7!11!3!
⎝ ⎠

⎛ 0 12 12 ⎞
⎜ ⎟ 1
P ⎜ 8 2 10 ⎟ = c ⋅ =0
⎜ 8 14 22 ⎟ 0!8!12!2!
⎝ ⎠
⎛ 5⎞
Deci P ⎜ p ≥ ⎟ = (1,173 + 0, 04 + 0, 0041 + 0 ) > 0,10 . P = 0,213.
⎝ 10 ⎠
Deci, in ipoteza ca cele doua medicamente nu difera in ceea ce
priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de
5
este 0,213.
10
Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse
este mai mare in medicamentul testat decat in cel de referinta doar din
intamplare.
Este de mentionat o restrictie importanta a testului Fisher si anume
aceea ca numarul total de “cazuri” de un anumit tip este constant (in cazul
nostru am ales in consecinta numai combinatiile pentru care numarul total
de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in
experiment ). De altfel, raportat la un experiment anterior acesta ar fi trebuit
sa fie 6-7. Desi aceasta restrictie este bine cunoscuta ca incorecta, testul
Fisher se aplica in toata lumea fara precautii in ceea ce priveste
verosimilitatea asimilarii practic a tuturor sumelor marginale “constante”.
In continuare sa comparam rezultatul cu rezultatul obtinut din
compararea proportiilor experimentale folosind aproximarea normala.
Pentru a verifica ipotezele
H 0 : p1 = p2 = p
cu α = 0,10, calculam
H A : p1 > p2

214
II. Statistica matematica si biostatistica Distributia binomiala

⎛ 1 1 ⎞
p1 − p2 − ⎜ + ⎟
Z= ⎝ 2n1 2n2 ⎠ , unde pˆ = n1 p1 + n2 p 2 = k1 + k 2 = 3 + 5 = 4
⎛1 1⎞ n1 + n2 n1 + n2 12 + 10 11
pˆ (1 − pˆ ) ⎜ + ⎟
⎝ n1 n2 ⎠
5 3 ⎛ 1 1 ⎞
− −⎜ + ⎟
10 12 ⎝ 20 24 ⎠
Z= = 0, 77
4 7⎛ 1 1⎞
⋅ ⎜ + ⎟
11 11 ⎝ 10 12 ⎠

P ( Z〉 0, 77 ) = Φ ( −0, 77 ) = 0, 22 ceea ce este foarte apropiat de rezultatul


obtinut cu metoda Fisher. Mai departe comparam cele doua proportii de RA
folosind testul χ 2 . Revenim la tabel
3 9 12
5 5 10
8 14 22
si calculam valorile “asteptate” – pornind de la estimarea “combinata” a
probabilitatii:
k +k 3+5 4
pˆ = 1 2 = =
n1 + n2 12 + 10 11

Valorile asteptate vor fi


4
E (k1 ) = n1 ⋅ pˆ = 12 ⋅= 4,36
11
4
E (k2 ) = n2 ⋅ pˆ = 10 ⋅ = 3, 64
11
Iar celelalte valori se obtin prin scadere din n1 si n2 . Deci, dupa scrierea
datelor asteptate, tabelul devine:

3 (4,36) 9 (7,64) 12
5 (3,64) 5 (6,36) 10
8 14 22
si mai departe:

215
II. Statistica matematica si biostatistica Distributia binomiala

( Oi − Ei ) ( 3 − 4,36 ) ( 9 − 7, 64 ) ( 5 − 3, 64 ) ( 5 − 6,36 )
2 2 2 2 2

χ =∑
2
= + + + = 1, 46
Ei 4,36 7, 64 3, 64 6,36
Oi = valorile observate
Ei = valorile asteptate (expectation)

Daca vom cauta in tabele, vom gasi ca valoarea de prag pentru


distributia χ 2 cu un singur grad de libertate pentru aria de 0,90 este 2,71.
Deoarece 1,46 este mai mic decat 2,71, se accepta ipoteza ca cele
doua proportii sunt egale sau, mai exact spus, nu se poate respinge ipoteza
ca sunt egale.
Dupa cum s-a discutat la prezentarea testului χ 2 aplicat in
compararea proportiilor acesta este echivalent pentru un singur grad de
libertate cu aplicarea distributiei normale. Valoarea obtinuta la aplicarea
testului Z ridicata la patrat ar trebui sa dea valoarea obtinuta prin statistica
χ 2 , dar 0, 77 2 ≠ 1, 46 .

Daca insa, in calculul statisticii Z renuntam la aplicarea corectiei de


continuitate obtinem:
5 3
− −0
Z= 10 12 = 1, 21
4 7⎛ 1 1⎞
⋅ ⎜ + ⎟
11 11 ⎝ 10 12 ⎠
si 1,212 ≈ 1,46 .
Deci, testul χ 2 este echivalent cu testul Z fara corectia de
continuitate.

216
II. Statistica matematica si biostatistica Distributia binomiala

2.16.2. Tabele de contingenta R x C


Un tip special de experimente clinice este acela in care mai multe
grupuri de subiecti sunt comparate in ceea ce priveste un raspuns , numit si
”marker” ce nu iau valori numerice ci un numar finit de stari cum ar fi
agravat, neschimbat, vindecat, ameliorat.
Se poate intampla adesea ca si atunci cand raspunsul reprezinta o
variabila aleatoare continua, din punct de vedere clinic sa fim interesati in
incadrarea acestor valori in anumite intervale. Daca spre exemplu masuram
viteza de sedimentare a hematiilor ( VSH ), dat fiind nespecificitatea acestui
parametru sa ne fie mai util sa catgorisim valoare obtinuta ca normala ( de
exemplu intre 0 si 5 mm/h), crescuta moderat ( 5 – 40 mm/h ) sau foarte
mare ( peste 40 mm/h).
Uneori procesul este invers, de cuantificare a unor stari prin
asocierea unor numere pe o anumita scara, de exemplu o scara vizuala
privind durerea sau o scara de apreciere a eficientei unui tratament
antireumatic, cum este de exemplu indicele WOMAC, ce vine sa integreze o
serie mai mare de semne clinice mai mult sau mai putin subiective, mai
mult sau mai putin corelate intre ele.
In toate cazurile de mai sus putem fi interesati in frecventa
diferitelor raspunsuri in cadrul unor grupuri constituite ad-hoc in raport cu
obiectivele studiului , de exemplu barbati – emei, lot tratat – lot netratat etc.
La modul general, experimente de tipul celor de mai sus duc la niste
tabele pe care se numesc tabele R x C , unde R este numarul de grupuri (
“row” ) si C numarul de coloane. Cazul cel mai simplu si de altfel si cel
mai frecvent este cazul tabelelelor 2 x 2 , de exeplu vindecat, nevindecat sau
toxic, non – toxic etc. Aceste tabele se mai numesc si “tabele de
contingenta”, termenul de contingenta fiind etimologic unul preluat din
geometrie ( tangent, cotangent etc).
De regula, in aceste tabele suntem interesati sa verificam ipoteze
privind proportiile privind prevalenta unor simpome sau efecte in aumite
grupe si, in acest caz problema se reduce la compararea unor frecvente, care
subiect a fost tratat la capitolul verificarea ipotezelor statistice.
O formulare echivalenta, in contextul aranjarii rezultatelor in tabele,
cu ipotezele privind frecventele , se refera la relatiile intre linii si coloane.
Consideram spre exemplu un tabel generic privind rezultatele comparative,
pe loturi paralele, obtinute cu doua medicamente, unul de referinta R, si
unul testat T (tabelul 29).

217
II. Statistica matematica si biostatistica Distributia binomiala

Tabel 29. Exemplu de tabel de contingenta 2x3

lipsa efect efect moderat vindecat


R 20 30 40
T 15 30 50

Ipoteza nula ca tratamentele sunt echivalente se traduce in ipoteza


privind independenta liniilor, sau altfel spus, rezultatele nu implica diferente
intre tratamente.
In fapt liniile nu depind de criteriile dupa care se face impartirea
intre ele, nu depind de nivelele factorului dupa care se face clasificarea. In
fond ele nu sunt independente intre ele ci, in ipoteza H 0 avem aceiasi linie
indiferent de nivel.
Relatiile intre liniile si coloanele tabelelor de contingenta pot fi
testate cu ajutorul testului χ 2 cu (R-1)(C-1) grade de libertate.
( Oi − Ei )
2

χ 2
( R −1)( C −1) =∑
Ei
unde O sunt valorile observate iar E sunt valorile asteptate (“Expected”).
Pentru calculul valorilor asteptate va trebui sa completam tabelul cu
totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2
obtinut din tabelul29 prin considerarea numai a doua raspunsuri : “lipsa
efect” si “vindecat”

Tabel 30. Exemplu de tabel de contingenta 2x2

lipsa efect vindecat


R 20 40 60
T 15 50 65
total 35 90 125

Rescriem tabelul sub o forma generica ( tabelul 31)


Tabel 31. Tabel de contingenta 2x2 generic
lipsa efect vindecat
R n1 − k1 k1 n1
T n2 − k2 k2 n2
total ( n1 + n2 ) − (k1 + k2 ) k1 + k2 n1 + n2

218
II. Statistica matematica si biostatistica Distributia binomiala

Problema compararii celor doua tratamente o putem reduce la


k k
compararea celor doua frecvente de pacienti vindecati 1 si 2 .
n1 n2
In acest scop presupunem ca cele doua variabile k1 si k2 sunt
distribuite binomial cu acelasi parametru p ( proportia celor care raspund la
tratament). Dupa cum s-a aratat la capitolul privind distributia binomiala
mediile si dispersiile sunt date de formulele
E ( k1 ) = n1 p ; E ( k2 ) = n2 p ; D ( k1 ) = n1 pq ; D ( k2 ) = n2 pq
Dar, atunci cand p este mic npq = np (1 − p ) = np − p 2 ≈ np si deci
D ( ki ) ≈ E ( ki )
Mai departe, cand ni este suficient de mare variabila aleatoare
k − E (k ) k − np k − np O − E
standardizată z = = ≈ = se aproximează ca
D (k ) npq np E
fiind normal repartizată.
( Oi − Ei )
2

In aceste conditii ∑ Ei
este prin definitie repartizata χ 2

k1 + k 2
iar o estimare naturală a lui p este p = si respectiv
n1 + n2
( n + n ) − ( k1 + k2 )
p= 1 2
n1 + n2
35
In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si = 0.28
125
E(k1)= 60x90/125=43.2 E(k2)= 65x90/125=46.8
E( n1 − k1 )=60x35/125=16.8 E( n2 − k2 )= 65x35/125=18.2
Formam acum un tabel completat cu valorile asteptate ( tabelul 32)
Tabelul 32 Valorile observate si valorile asteptate
lipsa efect vindecat
R 20 (16.8) 40 (43.2) 60
T 15 (18.2) 50 (46.8) 65
total 35 90 125
si calculam valoarea testului

219
II. Statistica matematica si biostatistica Distributia binomiala

( 20 − 16.8 ) (15 − 18.2 ) ( 40 − 43.2 ) ( 50 − 46.8 )


2 2 2 2

χ =
1
2
+ + = +
16.8 18.2 43.2 46.8
⎛ 1 1 1 1 ⎞
3.22 ⎜ + + + ⎟ = 1.62
⎝ 16.8 18.2 43.2 46.8 ⎠
Pentru o semnificatie de 95%, valoarea de prag a lui χ12 este 3.84 .
Deci putem spune ca liniile sunt independente si deci tratamentele
sunt echivalente.

Aplicatie:
Vom testa reactia diferitelor persoane la razele solare in functie de
culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor
(albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si
sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de
expunere.
Valorile observate sunt prezentate in tabelul urmator:
Reactii adverse Total
Culoare ochilor Jupuire Eritem Non - reactie
Albastri 25 28 6 59
Verzi 5 5 7 17
Caprui 6 10 15 31
Total 36 43 28 107
Valorile asteptate sunt prezentate in tabelul urmator:
Reactii adverse Total
Culoare Jupuire Eritem Non - reactie
ochilor
Albastri 36 43 28 59
59 * = 19,85 59 * = 23,71 59 * = 15,44
107 107 107
Verzi 36 43 28 17
17 * = 5,72 17 * = 6,83 17 * = 4,45
107 107 107
Caprui 36 43 28 31
31 * = 10,43 31 * = 12,46 31 * = 8,11
107 107 107
Total 36 43 28 107
Testul statistic este:
(Oi − E i )2 (25 − 19,85)2 + (28 − 23,71)2 (15 − 8,11)2
χ (23−1)(3−1) = χ 42 = ∑ = + ... + = 18,14
Ei 19,85 23,71 8,11
Pentru un nivel de semnificatie α = 0,10 avem χ 42 = 9,49 si cum
18,14 〉 9,49 vom respinge ipoteza H 0 : reactia nu depinde de culoarea ochilor.

220
II. Statistica matematica si biostatistica Distributia binomiala

2.16.3.Teste de independenta la clasificarea dupa doua criterii

Problema tabelelor de contingenta este problema demonstrarii


faptului ca doua criterii de clasificare introduse pe aceiasi populatie sunt
independente.
Doua criterii se pot considera independente daca distributia dupa un
criteriu este aceiasi indiferent daca mai aplicam sau nu si al doilea criteriu
de clasificare.
De exemplu daca rezultatele obtinute prin aplizarea a doua
tratamente si gruparea dupa varsta sunt independente , ne asteptam sa avem
aceleasi proportii de ameliorari si/sau vindecari in toate grupele de varsta
cu cele doua medicamente. Ipoteza nula este aceea ca cele doua criteriide
clasificare sunt independente. Verificarea acestei ipoteze se face folosind
exact acelasi test ca mai sus
( Oi − Ei )
2

χ 2
( R −1)( C −1) =∑
Ei
dar interpretarile calculelor sunt diferite.
Consideram din nou tabelul 30 , unde cele doua criterii de clasificare
sunt medicamentul administrat si efectul obtinut.

Tabelul 33. Clasificarea pacientilor dupa tratament si efecte


lipsa efect efect moderat vindecat total
R 20 30 40 90
T 15 30 50 95
total 35 60 90 185

Sa estimam probabilitatile asteptate in fiecare celula in conditiile


incare cele doua criterii sunt independente ( ceea ce semnifica in fapt
echivalenta medicamentelor R si T).
Estimam la inceput probabilitatile marginale, pornind de la
totalurile marginale.
Probabilitatea ca un pacient luat la intamplare din lotul selectat sa nu
prezinte o ameliorare a starii sale este de 35/90=0.39 ; probabilitatea ca la
un subiect oarecare efectul sa fie moderat este 60/90=0.67 si probabilitatea
vindecarii este 90/185. Similar, probabilitatile caun subiect sa fi primit
medicamentul de referinta este 90/185 si respectiv 95/185 ca sa fi primit
medicamentul testat.
Una din definitiile independentei a doua evenimente A si B este
aceea ca P ( A ∩ B ) = P ( A) P ( B )
221
II. Statistica matematica si biostatistica Distributia binomiala

In conditiile ipotezei nule ca cele doua siteme de clasificare ( efectul


si medicamentul 0 sunt independente, pentru prima celula a tabelului
rezulta:

P(lipsa efect ∩ medicament R ) = P(lipsa efect ) * P(medicament R ) =


35 90
= * = 0.092
185 185
Probabilitatea ca un subiect sa simta o ameliorare la administrarea
60 90
medicamentului R va fi si asa mai departe.
185 185
Valorile asteptate se obtin apoi prin inmultirea probabilitatii
clasificarii intr-o celula data cu numarul total de subiecti deci , pentru prima
celula avem 0.092*185=17 .
Observam ca aceasta valoare se poate calcula mai usor deoarece
35 90 35 * 90
* * 185 = deci valoarea asteptata pentru o celula data se
185 185 185
poate obtine ca produsul intre totalurile marginale impartit la totalul general.
Se observa ca am intrat deja in algoritmul prezentat anterior pentru
tabelele 2x2.

222
II. Statistica matematica si biostatistica Distributia binomiala

2.16.4. Tabelele 2x2 corelate

In experimentul anterior, in fapt am comparat numarul de reactii


adverse la doua grupuri paralele de subiecti. In evaluarea rezultatelor si in
concluziile obtinute desigur ca un rol important l-a avut si intervariabilitatea
subiectilor, care este in general destul de mare. Nu am avut nici o informatie
privitoare la omogenitatea celor doua loturi.
Dupa cum s-a prezentat de mai multe ori in paginile anterioare, in
experimentul biologic se recurge ori de cate ori este posibil la experimentul
incrucisat, in care fiecare subiect este propriul sau martor.
O evaluare mult mai relevanta in ceea ce priveste efectele adverse
comparative pentru cele doua medicamente o obtinem daca vom compara
frecventa acestora la acelasi lot, sa zicem lotul 1 (de 12 subiecti) care in
perioada a 1a a primit R si in perioada a 2a a primit T. Observam ca R a
avut ra la 3 voluntari, iar T la 5 voluntari.
De fapt, la o examinare mai amanuntita rezultatele sunt conform
tabelelor urmatoare:
1 2 3 4 5 6 7 8 9 10 11 12
R ra - - - ra - - - - ra - -
T - ra - ra - - ra - - ra - ra

R
ra N- ra Total
T ra 1 4 5
N- ra 2 5 7
Total 3 9 12
Deci un subiect a avut RA la amandoua medicamentele si 5 nu au
avut la nici unul din cele doua medicamente, comportamentul lor nu ne da
informatii despre diferentele intre medicamente, ci numai despre toxicitatea
substantei active. Informatia despre o eventuala diferenta este cuprinsa in
intregime in celelalte doua cifre (2 si 4).
Daca medicamentele ar fi complet echivalente ar fi de asteptat ca
numarul celor care au avut reactii adverse la R si nu au avut la T sa fie
aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au
avut la R. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel.
Deci avem in fapt de evaluat tabelul:
ra la R si n-ra la T 2 ra = reactii adverse
ra la T si n-ra la R 4 n-ra = non-reactii adeverse
Total 6

223
II. Statistica matematica si biostatistica Distributia binomiala

1
Folosind direct distributia binomiala cu p = si n = 6, obtinem:
2
2
1
P ( x ≤ 2 ) = ∑ Cnk p k q n − k si deoarece p = q =
0 2
2
⎛ 6 ⋅ 5 ⎞ 1 22
( )
P ( X ≤ 2 ) = ∑ Cnk p n = Cn0 + Cn1 + Cn2 ⋅ p 6 = ⎜ 1 + 6 +

⎟ =
2 ⎠ 26 64
= 0,34
0

Sau folosind aproximarea normala:


⎛ 1 ⎞ ⎛ 1 ⎞
x
⎜ 0 2+ − np ⎟ ⎜ 2 + − 3 ⎟ ⎛ −0,5 ⎞
P ( X ≤ 2) = Φ ⎜ 2
⎟ = Φ⎜ ⎜ 1,5 ⎟⎟ = Φ ( −0, 41) = 0,34
⎟ = Φ⎜
⎜ npq ⎟ ⎜ 1 ⎟ ⎝ ⎠
⎝ ⎠ ⎜ 6⋅ ⎟
⎝ 4 ⎠
Deci acelasi rezultat.
Concluzia este ca nu putem respinge ipoteza echivalentei celor 2
medicamente in ceea ce priveste reactiile adverse. Daca am fi aplicat un test
de comparare tabelului aparent, de exemplu folosind aproximarea normala a
datelor din tabel, am fi obtinut:
5 3 1 1 1
− − −
3
Z = 12 12 24 24 = 12 = ≈ 0,46 ⇒ θ (− 0,46) = 0,32
4 7 ⎛1 1⎞ 1 14 14
* *⎜ + ⎟
12 12 ⎝ 12 12 ⎠ 12 3
Concluzia este aceiasi ca nu se poate respinge ipoteza ca cele doua
medicamente au avut proportii de substante active diferite doar din
intamplare. In fapt, in esenta numarul de date este prea mic pentru a putea
asuma, la un risc acceptabil, ca cele doua medicamente au toxicitate diferita.

224
II. Statistica matematica si biostatistica Distributia binomiala

2.16.5. Teste de omogenitate


In unele situatii practice, numarul subiectilor pentru fiecare nivel al
unuia din criterii este fixat dinainte. De exemplu numarul de barbati si
numarul de femei inrolati in studiu sau numarul de subiecti pe diferite
categorii de varste. Daca vom testa nivelele efectului unui medicament
clasificarea dupa acest criteriu va fi o variabila aleatoare.
Problema pe care ne-o punem in acest caz este aceea a omogenitatii:
sunt esantioanele omogene in raport cu un criteriu dat?
Ipoteza nula in acest caz este aceea ca toate esantioanele provin
dintr-o populatie omogena si deci frecventele in interiorul celor doua
grupe nu difera semnificativ.

Exemplu
Consideram o clasificare a fumatorilor in ceea ce priveste numarul
de tigari fumate si varsta. Fixam in prealabil numarul de subiecti din grupele
de varsta 20-30, 30-40, 40-50, peste 50 ani si stabilim nivelele de fumatori
0-10, 10-20, peste 20 tigari/zi.
Presupunem ca am obtinut tabelul de mai jos:

Nr. tigari Varsta (ani)


20-30 30-40 40-50 > 50 total
0-10 20 30 40 50 140
10-20 30 40 30 30 130
> 20 50 50 50 20 170
total 100 120 120 100 440

Deci vom considera ipotezele:


H0: cele 4 categorii de varsta sunt omogene in ceea ce priveste consumul de
tigari.
HA: cele 4 categorii de varsta nu sunt omogene in ceea ce priveste consumul
de tigari.

Calculam ca mai sus valorile “asteptate”: valoarea asteptata va fi


produsul totalurilor marginale, impartit la numarul total de subiecti.

100 ⋅140
Exemplu: in prima celula = 31,8 etc .
440
Intr-adevar, daca populatiile sunt omogene sau echivalente si toate
esantioanele provin din aceeasi populatie in ceea ce priveste consumul de

225
II. Statistica matematica si biostatistica Distributia binomiala

tigari, cea mai buna estimare a proportiei in totalul populatiei, a celor ce


consuma mai putin de 10 tigari/zi este 100/440 acelasi pentru celelalte
categorii de fumatori. Ne vom astepta in acest caz sa gasim de exemplu
(100/440) ⋅ 140 fumatori 0-10 tigari in categoria de varsta 20-30 ani.

226
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17. APLICATII IN EPIDEMIOLOGIE

2.17.1. Studii cohort


Studiile epidemiologice se ocupa de punerea in evidenta a unor
factori (de exemplu fumatul) care cresc riscul de aparitie a unor boli – de
exemplu cancerul pulmonar. O abordare corecta a acestor studii trebuie sa
se bazeze pe urmarirea in timp a doua loturi – unul expus la factorul
considerat de risc si un lot martor care nu este expus factorului de risc.
Un astfel de studiu se numeste studiu Cohort. Radacina indo-
europeana “ghort” inseamna in esenta loc ingradit. In latina avem “hortus” –
gradina, in limbile slave “gorod” – oras, in romana gard, in engleza “yard” –
curte, etc.
Deci un studiu cohort indica faptul ca subiectii studiului sunt
separati intr-un fel, ingraditi si urmariti. Aceste studii prezinta dezavantajul
ca necesita un timp indelungat pentru a fi efectuate, pentru ca trebuie
asteptat uneori un numar mare de ani. In cazul bolilor rare numarul
subiectilor ce ar trebui urmariti pentru a se ajunge la un numar de bolnavi
care sa permita evaluari statistice demne de incredere ar trebui sa fie urias.

2.17.2. Studii case – report


In locul studiilor prospective, controlate, pe subiecti sanatosi, se
poate recurge la alte studii, retrospective – pe bolnavi, studii “case – report”,
pe baza rapoartelor de caz, a fiselor de observatii si a altor documente.
In astfel de studii retrospective se compara numarul bolnavilor care
au fost expusi la un factor de risc cu numarul bolnavilor care nu au fost
expusi. In contextul aceluiasi exemplu dat mai sus, se compara numarul
bolnavilor de cancer pulmonar fumatori, cu numarul bolnavilor care nu sunt
fumatori. Lucrurile sunt ceva mai complexe in cazul celor care au fumat o
perioada de timp si apoi s-au lasat, sau cazul celor care nu au fumat dar au
fost expusi sistematic fumului de tigara.
Aparent celor doua tipuri de studii ar fi echivalente, dar de fapt nu
sunt. Consideram urmatorul exemplu fictiv: se impart bolnavele de cancer
de col uterin care au murit in primul an de la depistarea bolii – in doua
categorii:
• prima categorie cele cere au numele Maria sau Ileana
• a doua categorie cele care au alte nume
Rezultatul obtinut este acela ca numele Maria si Ileana creste
semnificativ riscul de cancer.
Rezultatul este evident fals. Greseala nu este de statistica ci apare
din aceea ca loturile nu sunt omogene in ceea ce priveste provenienta din
227
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

mediul rural si din orase. Maria si Ileana sunt mai mult nume de la sate –
acolo unde asistenta medicala este, din pacate, foarte precara. Depistarea
bolii se face mai tarziu sau prea tarziu si tratamentul este si el “bolnav”.
Intr-un studiu prospectiv se poate urmari omogenitatea loturilor
printr-o judicioasa stabilire a criteriilor de includere / excludere in / din
studiu, ceea ce este mult mai dificil la un studiu preponderent “post –
mortem”.

2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case -


report) a riscului din cauza expunerii la un factor dat.

Riscul expunerii.
PE (D )
Riscul expunerii se defineste prin formula R = se evalueaza
PNE (D )
intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea
imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi
(E – expus, D – disease = boala)
Dar, in case – study, noi nu expunem subiectii, ci consideram
bolnavi. Deci eveniment produs este boala, si obtinem: PD (•)
Pentru simplificare, ne situam in cazul bolilor rare P (ND ) = 1
Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula
Bayes

PD (E )P(D ) PD (E )P(D )
PE (D ) = ≅
PD (E )P(D ) + PND (E )P( ND ) PD (E )P(D ) + PND (E )
si, similar, la cei neexpusi:

PD (NE )P(D ) PD (NE )P (D )


PNE (D ) = ≅
PD (NE )P(D ) + PND (NE )P(ND ) PD (NE )P(D ) + PND (NE )

Inlocuind in raport se obtine

PD (E )P(D )[PD (NE )P(D ) + PND (NE )]


R=
[PD (E )P(D ) + PND (E )]PD (NE )P(D )
PD (E )[PD (NE )P (D ) + PND (NE )]
si daca simplificam prin P(D ) , se obtine: R =
[PD (E )P(D ) + PND (E )]PD (NE )

228
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

Riscul retrospectiv (“odds ratio”)

Consideram raportul “defectelor - odds ratio” OR care se obtine


intr-un studiu retrospectiv (case-study):
Rapoartele odds sunt rapoartele intre proportia celor expusi si
proportia celor de neexpusi in populatia de bolnavi si respectiv acelasi
raport in populatia de sanatosi. Spre exemplu se considera proportia
factorilor intr-un lot de bolnavi de cancer pulmonar si proportia fumatorilor
intr-un lot din intreaga populatia. Raportul acestor proportii, numit odds
ratio, este o masura a riscului de imbolnavire al celor expusi.
PD ( E )
P ( NE ) P ( E ) PND ( NE )
OR = D = D
PND ( E ) PD ( NE ) PND ( E )
PND ( NE )
In exemplul nostru:
proportia fumatorilo r in populatia de bo ln avi
OR =
proportia fumatorilo r in populatia de sanatosi
In cazul bolilor rare ar trebui determinat numarul de imbolnaviri
intr-un lot expus comparativ cu un lot neexpus pe perioade foarte lungi ceea
ce este foarte scump si, in general, nu este fezabil datorita iesirii din studiu a
foarte multi dintre subiecti. In aceasta situatie insa, daca aproximam ca
probabilitatea imbolnavirii este aproximativ zero ( P(D ) ≅ 0 ) si
probabilitatea de neimbolnavire este aproape 1( P( ND ) ≅ 1 ), riscul obtinum
retrospectiv OR este o estimare a riscului din cauza expunerii – R. Intr-
adevar,

PD (E )[PD (NE )P(D ) + PND (NE )] PD (E )PD (NE )P(D ) + PD (E )PND (NE ) PD (E )PND (NE )
R= = =
[PD (E )P(D ) + PND (E )]PD (NE ) PD (E )P(D )PD (NE ) + PND (E )PD (NE ) PND (E )PD (NE )

Si comparand cele doua rezultate am obtinut R ≅ OR

229
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17.4. Intervalul de incredere pentru riscul relativ estimat retrospectiv


(odds ratio) in studiile de control de caz

Riscul relativ estimat retrospectiv (“odds ratio” - OR) este


intotdeauna pozitiv si rareori trece de 10. Distributia sa de probabilitate nu
este normala la marimile de esantioane obisnuite. Transformarea
logaritmica ln(OR ) este de obicei folosita pentru a duce la distributii
aproximativ normale.
Daca vom considera un lot testat si unul de referinta avem, dupa
definitie:
pT pC
OT = ; OC = unde C = control si T = testat
1 − pT 1 − pC
O p (1 − pC ) p p
OR = T = T si ln OR = ln OT − ln OC = ln T − ln C
OC pC (1 − pT ) 1 − pT 1 − pC
Observam ca daca riscul nu difera in cele doua loturi,
OR = 1 ⇔ pT = pC , o estimare a lui OR se obtine din frecventa
experimentala:

m
OR =
m
pT 1 − m
pC (
unde m
) x
pT = T si m
x
pC = C
m m
pC 1 − pT ( ) nT nC

Deoarece OR nu este normal distribuit se foloseste in practica


ln OR
In vederea obtinerii unei estimari a dispersiei lui ln OR aplicam asa
zisa “metoda δ “
Metoda δ de calcul aproximativ a dispersiei unei functii f de
variabila aleatoare x, D ( f ( x ) ) prin dezvoltarea lui f in jurul lui μ :
f ( x ) = f ( μ ) + f ′ ( μ )( x − μ )
E ( f ( x ) ) = f ( μ ) + f ′ ( μ )( μ − μ )
D ( f ( x ) ) = E ⎡⎣ f ( x ) − f ( μ ) ⎤⎦ 2 = E ⎡⎣( f ′ ( x ) ) ( x − μ ) ⎤⎦ = ( f ′ ( x ) ) D ( x )
2 2

p
In cazul in care f ( p ) = ln vom avea:
1− p

230
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

2
⎡ ⎤
⎛ p ⎞′ ⎛ p ⎞′ ⎥ p (1 − p )
D ( f ( p ) ) = ⎜ ln ⎟ D ( p ) = ⎢⎜ ln
⎢ ⎟ * =
⎝ 1− p ⎠ ⎝ 1− p ⎠ ⎥ n
⎣ ⎦
1 ⎞ p (1 − p )
2
⎛1 1
=⎜ + ⎟ * =
⎝ p 1− p ⎠ n np (1 − p )

Aplicand regula in cazul nostrum se obtine formula lui Woolf:


1 1
D ( ln ( OR ) ) = + =
nT pT (1 − pT ) nC pC (1 − pC )
1 ⎛ 1 1 ⎞ 1 ⎛ 1 1 ⎞ 1 1 1 1
= ⎜ + ⎟+ ⎜ + ⎟= + + +
nT ⎝ pT 1 − pT ⎠ nC ⎝ pC 1 − pC ⎠ a b c d
Intervalul de incredere
Intervalul de incredere de 95% este egal cu:
1 1 1 1
ln(OR ) ± 1,96 + + +
a b c d
Intervalul de incredere in scala originala de risc relativ estimat este
[ ]
prin urmare dat de [ORL ; ORU ] sau e ln (ORL ) ; e ln (ORU ) unde ln(ORL ) si
ln(ORU ) sunt limitele inferioare si superioare ale lui ln(OR )
Observatie:
Intervalul [ORL ; ORU ] nu este simetric fata de media riscului relativ
estimat.

2.17.5. Calcularea marimilor esantionului pentru estimarea unui risc


relativ intr-un studiu case – report, cu o precizie data 1
Se doreste o eroare mai mica de ε
Se poate face o estimare a numarului de subiecti in ipotezele:
• Esantioanele sa fie egale n1 = n2 = n
• Riscul relativ estimat este mai mare de 1.
Oˆ RL − OR W
ε= = L
OR OR

1
Woolf B. On estimating the relationship between blood group and disease, Human
Genet., 19, 251-3, 1955
231
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

⇒ ε * OR = OR − Oˆ R L = W L = e ln (OR ) − e ln (ORL ) =
⎧⎪ ⎫⎪ ⎡ ⎤
⎨ ln (OR )− z α *SE [ln (OR )]⎬ ⎢ − z α *SE [ln (OR )]⎥
ln (OR ) ⎪⎩ 1− ⎪⎭ ⎢⎣ 1− 2 ⎥⎦
=e −e 2
= OR − OR * e
⎧1 ⎡ 1 1 ⎤⎫
ln (1 − ε ) = − z * SE [ln (OR )] = − z * ⎨ ⎢ + ⎥⎬
⎩ n ⎣ P1 (1 − P1 ) P2 (1 − P2 ) ⎦ ⎭
α α
1− 1−
2 2

Rezolvand obtinem:
⎡ 1 1 ⎤
z2 α ⎢ + ⎥
1− P (1 − P1 ) P2 (1 − P2 ) ⎦
2 ⎣ 1
n=
[ln(1 − ε )]2

2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor


privind riscul relativ estimat retrospectiv (OR)
Ipoteza nula este de obicei H 0 : OR = 1 Aceasta este echivalenta cu
H 0 : P1 = P2 si ipoteza alternativa este H A : P1 ≠ P2
Prin urmare, pentru a calcula marimea esantioanelor necesare pentru
testarea ipotezelor privind riscul relativ estimat retrospectiv, se poate folosi
aceeasi abordare ca cea folosita la testarea ipotezei H 0 : P1 = P2 vs
H A : P1 − P2 = Δ
Formula corespunzatoare este:
2

⎨ z1− α [ ( )] ⎫
2 P 1 − P + z1− β [P1 (1 − P1 ) + P2 (1 − P2 )]⎬
n=⎩ 2 ⎭ , unde P = P1 + P2
(P1 − P2 ) 2
2
In studiile de control a cazului, P2 - rata de expunere de control este
de obicei cunoscuta cu o precizie mare. In acest caz este folosita expresia
modificata.
2
⎧ ⎫
⎨ z1− α [2 P2 (1 − P2 )] + z1−β [P1 (1 − P1 ) + P2 (1 − P2 )]⎬
n=⎩ 2 ⎭
(P1 − P2 ) 2

232
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17.7. Originea conceptului OR (Odds Ratio) propusă de către Woolf.


Woolf a ajuns la conceptul de odds ratio pornind de la studiul
datelor din literatură medicală referitoare la predispoziţia către anumite boli
existentă la anumite grupe sanguine.
Mai mulţi cercetători au evidenţiat 2 că există o predispoziţie către
cancerul gastric la subiecţii cu grupa sangvină A şi o predispoziţie către
ulcerul peptic la cei cu grupa sangvina 0 . Pentru cancer frecventele sunt de
2% si respectiv 1% si deci, pentru un lot de 5000 subiecti cu grupa A si
5000 de subiecti cu grupa 0 s-ar obtine rezultatele:

B+ B- p
(bolnavi cu cancer gastric) (control) (Procent de boala in grupa)
Grupa sangvina A 100 (a) 5000 (b) 2%
Grupa sangvina 0 50 (c) 5000 (d) 1%
Total 150 10.000

Consideram in continuare un studiu “retrospective” si calculam:


• p1 proporţia celor cu grupa A în lotul de bolnavi:
100 2
p1 = =
150 3
• p2 proporţia celor cu grupa A în lotul control:
5000 1
p2 = =
10000 2
Avem:
2 1
p1 − p2 = − = 0,1667
3 2
Consideram ca proportiile de 1% si 2% sunt adevarate si in cazul in
care lotul de control include cele doua grupuri de sange in alt raport decat
1:1, de exemplu 9:1

B+ B-
(bolnavi cu cancer gastric) (control)
Grupa sangvina A 180 (a) 9000 (b)
Grupa sangvina O 10 (c) 1000 (d)
190 10.000

2
Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the
ABO blood groups, Brit Med J, 1, 799, 1953

233
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

In acest caz :
180 9000
p1 − p2 = − = 0, 047
190 10000
Intuitiv, dacă n-ar exista o predispoziţie pentru cancer de stomac la
cei cu grupa A, cele două proporţii ar trebui să fie egale. Şi totuşi, după cum
se poate observa, cele două proporţii din exemplul de mai sus diferă
semnificativ. Acesta este un exemplu în care intuiţia sau logica
convenţională ne poate induce în eroare şi în care metodele statistice ne pot
veni în ajutor.
Woolf a observat deci că diferenţa între cele două proporţii depinde
de numărul de subiecţi cu grupa A şi cu grupa 0 din lotul de control, deci
diferă de la un studiu clinic la altul, chiar dacă rata specifică de atac în
interiorul unui grup sangvin dat rămane constantă.
El a arătat deci, că dacă de exemplu în lotul de control avem 5000 de
subiecţi cu grupa A, si 5000 de subiecţi cu grupa 0 se obţine un rezultat, şi
în cazul în care există 9000 de subiecţi cu grupa A si respectiv 1000 de
subiecţi cu grupa 0 se obtine un rezultat mult diferit de primul caz..
Rezultatele sunt foarte diferite în condiţiile în care proporţia de bolnavi în
cele două grupe rămân constante 2% şi 1%.
În aceste condiţii el a propus înlocuirea testului de comparare a celor
două proporţii aşa cum s-a enuţtat, cu compararea raportului ratelor de
incidenţă 100/5000 şi 50/5000.
Ratele de incidenţă reprezintă proporţiile de bolnavi în cadrul grupei
sangvine A (a/b) şi proporţia de bolnavi din cadrul grupei sangvine 0 (c/d):
a
ad
OR = c =
b bc
d
Pentru compararea ratelor de incidenta, se testează ipotezele:
H 0 : OR = 1 vs H1 : OR ≠ 1
În studiile case-control (caz martor) OR (Odds Ratio) măsoară
asocierea dintre o expunere şi riscul de dezvoltare a unei boli. În cazul
bolilor rare, dupa cum s-a aratat mai sus, OR redă o estimare destul de
precisă a riscului relativ (RR).

234
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

2.17.8. Metoda Mantel-Haenszel de calcularea OR in studii case-


control stratificate 3
Cand avem mai multe studii clinice epidemiologice, de exemplu
unul pe femei si unul pe barbati, in ipoteza ca nu exista diferente
semnificative intre cele doua sexe in ceea ce priveste riscul unei anumite
boli induse de un factor de risc dat, este natural sa reunim loturile si sa
facem calculele pentru populatia reunita. Daca insa nu putem presupune
acest lucru, o metoda alternativa de calcul este metoda Mantel-Haenszel
.Metoda Mantel-Haenszel este folosită pentru a estima „pooled odds ratio”
din mai multe straturi sau mai multe studii similare:
k
⎛ ai di ⎞
∑ ⎜
i =1 ⎝ ni ⎠

m
OR MH = k , unde ni = ai + bi + ci + di
⎛ bi ci ⎞
∑ ⎜
i =1 ⎝ ni ⎠

Strat / Studii Cazuri Control Total
1 Expusi a1 b1 n11
Neexpusi c1 d1 n01
Total m11 m01 n1
......... ........................ ............ ............ .............
j Expusi aj bj n1 j
Neexpusi cj dj n0 j
Total m1 j m0 j nj
......... ........................ ............ ............ .............
K Expusi aK bK n1K
Neexpusi cK dK n0K
Total m1K m0K nK
ai d i
Notam ORi = Ψ i . Deoarece Ψ i = si deci ai di = bi ci Ψ i , avem:
bi ci

3
Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective
studies of disease, JNCI 1959, 22:719-748
235
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

ai di bi ci bi ci
ni
∑ ∑ ni
Ψi
ni
Ψi
=∑
bjc j ∑ i i
m =Ψ
OR = = = wΨ ,
MH
bi ci bi ci
∑n ∑n ∑j n
i i j

bi ci
ni
unde wi = poate fi interpretata ca ponderea componentei Ψ i in
bjc j
∑ nj
suma.
Facem observatia ca ponderile wi sunt in fapt estimari ale inversului
dispersiilor componentelor Ψ i .
In anumite conditii restrictive, aplicand metoda verosimilitatii
maxime se poate arata ca 4 dispersia lui ORMH se calculează conform
ecuaţiei:
K ⎛b c a + d j bj + c j a j d j ⎞
K a d a +dj
∑ j j
* j ∑ ⎜⎜
j j
* j + * ⎟
n j ⎟⎠
( ( )) j =1 ⎝ n j
m j =1 n j nj nj nj
D ln OR MH = + +
⎛ K a jd j ⎞
2
⎛ K a j d j ⎞ ⎛ K bjc j ⎞
2⎜ ∑
2⎜ ∑
⎜ j =1 n ⎟⎟ ⎜ j =1 n ⎟⎟ ⎜⎜ ∑ n
⎟⎟
⎝ j ⎠ ⎝ j ⎠⎝ j =1 j ⎠
K bjc j bj + c j

j =1 n j
*
nj
+ 2
⎛ K bc ⎞
2⎜ ∑ j j ⎟⎟
⎜ j =1 n
⎝ j ⎠

Intervalul de încredere se poate obţine folosind ecuaţia:


m MH exp ⎛ ± z D log OR
OR ⎜ α
⎝ 2
m MH ⎞


( ( ))

4
P.Silocks, An easy approad to the Robins – Breslow. Greendland variance estimation,
Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110)
236
II. Statistica matematica si biostatistica Aplicatii in epidemiologie

Exemplu . Consideram rezultate dintr-un studiu privind incidenta cancerelor


de gura efectuat in Olanda

Femei Fumătoare Nefumătoare Total


Paciente cu Leucoplakie localizare mucoasă 6 5 11
obraji
Control (femei populaţie Olanda) 30.3 69.7 100
Total 36.3 74.7 111

Bărbaţi Fumători Nefumători Total


Pacienţi cu Leucoplakie localizare mucoasă 11 1 11
obraji
Control (bărbaţi populaţie Olanda) 36.7 63.3 100
Total 47.7 64.3 112

k
⎛ ai di ⎞
∑⎜ ⎟
= k ⎝ i ⎠ in care avem:
m MH i =1 n
Vom aplica relatia OR
⎛ bi ci ⎞
∑ ⎜
i =1 ⎝ ni ⎠

a1 = 6 a2 = 11
b1 = 5 b2 = 1
c1 = 30,3 c2 = 36, 7
d1 = 69, 7 d 2 = 63,3
n1 = 111 n2 = 112

In cazul nostru obtinem:

a1d1 a2 d 2 6*69.7 11*63.3


+ +
m MH n1 n2 111 112 = 5.9
OR = =
b1c1 b2 c2 5*30.3 1*36.7
+ +
n1 n2 111 112

deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul
fumatorilor decat in cazul nefumatorior .

237
TABELE STATISTICE

Tabele pentru z

z 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0754
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2258 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549
0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2996 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4639
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993

239
TABELE STATISTICE

3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

240
TABELE STATISTICE

Tabele pentru t

ν t 0 ,55 t 0 , 60 t 0 , 70 t 0 , 75 t 0 ,80 t 0 ,90 t 0 ,95 t 0,975 t 0 ,99 t 0,995


1 0,158 0,325 0,727 1,000 1,376 3,08 6,31 12,71 31,82 63,66
2 0,142 0,289 0,617 0,816 1,061 1,89 2,92 4,30 6,96 9,92
3 0,137 0,277 0,584 0,765 0,978 1,64 2,35 3,18 4,54 5,84
4 0,134 0,271 0,569 0,741 0,941 1,53 2,13 2,78 3,75 4,60
5 0,132 0,267 0,559 0,727 0,920 1,48 2,02 2,57 3,36 4,03
6 0,131 0,265 0,553 0,718 0,906 1,44 1,94 2,45 3,14 3,71
7 0,130 0,263 0,549 0,711 0,896 1,42 1,90 2,36 3,00 3,50
8 0,130 0,262 0,546 0,706 0,889 1,40 1,86 2,31 2,90 3,36
9 0,129 0,261 0,543 0,703 0,883 1,38 1,83 2,26 2,82 3,25
10 0,129 0,260 0,542 0,700 0,879 1,37 1,81 2,23 2,76 3,17
11 0,129 0,260 0,540 0,697 0,876 1,36 1,80 2,20 2,72 3,11
12 0,128 0,259 0,539 0,695 0,873 1,36 1,78 2,18 2,68 3,06
13 0,128 0,259 0,538 0,694 0,870 1,35 1,77 2,16 2,65 3,01
14 0,128 0,258 0,537 0,692 0,868 1,34 1,76 2,14 2,62 2,98
15 0,128 0,258 0,536 0,691 0,866 1,34 1,75 2,13 2,60 2,95
16 0,128 0,258 0,535 0,690 0,865 1,34 1,75 2,12 2,58 2,92
17 0,128 0,257 0,534 0,689 0,863 1,33 1,74 2,11 2,57 2,90
18 0,127 0,257 0,534 0,688 0,862 1,33 1,73 2,10 2,55 2,88
19 0,127 0,257 0,533 0,688 0,861 1,33 1,73 2,09 2,54 2,86
20 0,127 0,257 0,533 0,687 0,860 1,32 1,72 2,09 2,53 2,84
21 0,127 0,257 0,532 0,686 0,859 1,32 1,72 2,08 2,52 2,83
22 0,127 0,256 0,532 0,686 0,858 1,32 1,72 2,07 2,51 2,82
23 0,127 0,256 0,532 0,685 0,858 1,32 1,71 2,07 2,50 2,81
24 0,127 0,256 0,531 0,685 0,857 1,32 1,71 2,06 2,49 2,80
25 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,79
26 0,127 0,256 0,531 0,684 0,856 1,32 1,71 2,06 2,48 2,78
27 0,127 0,256 0,531 0,684 0,855 1,31 1,70 2,05 2,47 2,77
28 0,127 0,256 0,530 0,683 0,855 1,31 1,70 2,05 2,47 2,76
29 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,76
30 0,127 0,256 0,530 0,683 0,854 1,31 1,70 2,04 2,46 2,75
40 0,126 0,255 0,529 0,681 0,851 1,30 1,68 2,02 2,42 2,70
60 0,126 0,254 0,527 0,679 0,848 1,30 1,67 2,00 2,39 2,66
120 0,126 0,254 0,526 0,677 0,845 1,29 1,66 1,98 2,36 2,62
∞ 0,126 0,253 0,524 0,674 0,842 1,28 1,645 1,96 2,33 2,58

241
TABELE STATISTICE

Tabele pentru F0,95

ν1 1 2 3 4 5 6 7 8 9 10

ν2
1 161 200 216 225 230 234 237 239 241 242
2 18,5 19,0 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4
3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20
28 4,20 3,43 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91
∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83

243
TABELE STATISTICE

ν1 12 15 20 24 30 40 60 120 ∞
ν2
1 244 246 248 249 250 251 252 253 254
2 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5
3 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53
4 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63
5 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,37
6 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67
7 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23
8 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93
9 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54
11 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40
12 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30
13 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,25 2,21
14 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13
15 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07
16 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,06 2,01
17 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96
18 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92
19 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88
20 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84
21 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81
22 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78
23 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76
24 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73
25 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71
26 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,75 1,69
27 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,73 1,67
28 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,71 1,65
29 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,70 1,64
30 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62
40 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1,51
60 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39
120 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25
∞ 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,22 1,00

244
TABELE STATISTICE

Tabele χ 2

Numar grade Aria


de libertate 0,025 0,950 0,975 0,990
1 0 3,842 5,024 6,635
2 0,0501 5,992 7,378 9,210
3 0,216 7,815 9,348 11,345
4 0,484 9,488 11,143 13,277
5 0,831 11,071 12,833 15,086
6 1,237 12,592 14,449 16,812
7 1,690 14,067 16,013 18,475
8 2,180 15,507 17,535 20,090
9 2,700 16,919 19,023 21,666
10 3.247 18,307 20,483 23,209
11 3,816 19,675 21,920 24,725
12 4,404 21,026 23,337 26,217
13 5,009 22,362 24,736 27,688
14 5,629 23,685 26,119 29,141
15 6,262 24,996 27,488 30,578
16 6,908 26,296 28,845 32,000
17 7,564 27,587 30,191 33,409
18 8,231 28,869 31,526 34,805
19 8,907 30,144 32,852 36,191
20 9,591 31,410 34,170 37,566
21 10,283 32,671 35,479 38,932
22 10,982 33,924 36,781 40,289
23 11,689 35,173 38,076 41,638
24 12,401 36,415 39,364 42,980
25 13,120 37,653 40,647 44,314
26 13,844 38,885 41,923 45,642
27 14,573 40,113 43,195 46,963
28 15,308 41,337 44,461 48,278
29 16,047 42,557 45,722 49,588
30 16,791 43,773 46,979 50,892

245
BIBLIOGRAFIE

1. W.J.Westlake: Use of confidence intervals in analysis of


comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972.
2. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics
Bul.,180-83,1947
3. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis
of variance, J. Am. Stat. Assoc.,47,583-621,1952
4. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley,
New York, 1973
5. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley,
New York, 1973
6. Chow, S.C. & Liu, J.P. (1992) Design and analysis of bioavailability
and bioequivalence studies. New York, Marcel Dekker (cap. 3) [1].
7. Saporta, C. (1990) Probabilité, Analyse des données et statistique.
Paris, Ed. Technip (cap. 15) [2].
8. Vaduva, I. (1970) Analiză dispersională. Bucureşti, Ed. Tehnică
(cap. 4) [3].
9. K.A.Brownlee, Statistical Theory and metodology in Science and
Engineering, J. Wiley, New – York, 1960
10. D. Ceausescu, Tratarea statstica a datelor chimico – analitice, Ed.
Tehnica, Bucuresti, 1973
11. M. Tiron, teoria erorilor de masurare si metoda celor mai mici
patrate, Ed. Tehnica, Bucuresti, 1972
12. F. Gremy, D. Salmon, Bases statistiques pur la recherchemedicale et
biologique, Dunod, Paris, 1969
13. M. R. Spiegel, Probability and statistique, McGraw – Hill, New –
York, 1980
14. D. Ceausescu, Utilizarea statisticii matematice in chimia analitica,
Ed. Tehnica, Bucuresti, 1980
15. M. Iosifescu, T. Postelnicu, Curs de biomatematica, Univ.
Ecologica, Bucuresti, 1990
16. M. Iosifescu, Gh. Mihoc, R. Teodorescu, Teoria probabilitatilor si
statistica matematica, Ed. Tehnica, Bucuresti, 1966
17. S. Bolton, Statistics, in Remington: The Science and Practice of
Pharmacy, 9 – th ed., Mark publ., Easton, Pennsylvania, 1995
18. United States Pharmacopoeia, ed. XXIII, cap. Statistical Procedures
for Bioequivalence Studies Using a Standard Two – treatment Crossover
design, 1995
19. P. G. Welling, F.L.S. tse, S. Dighe, Pharmaceutical Bioequivalence,
cap. 3, C.M. Metzler: Statistical criteria, M. Dekker, New – York, 1991
247
BIBLIOGRAFIE

20. V.W.Steinijans, D. Hauschke, Update on the statistical analysis of


bioequivalence studies, Int. J.Clin.Pharmacol. Ther. Toxicol,. 28(3), 105 –
110, 1990
21. M. Rowland (ed), Variability and Drug Therapy: Description,
Estimation and Control, Raven Press, New York, 1985
22. S.C. Chow, J.P.Liu, Design and Analysis of Biovailability and
Bioequivalence Studies, M. Dekker, London, New York, 1992
23. A. Rescigno. A. Marzo, U. Thyroff – Friesinger, A new measure of
bioequivalence, 1 –st European Congress of Pharmacology, Milano, june
1995, poster nr. 19
24. A Marzo, Open questions in bioequivalence, 1 –st European
Congress of Pharmacology, Milano, june 1995, poster nr. 18
25. E. Beyssac, C. Lauro. Marty, H-l Chabard, J-M Aiache, Study of
bioequivalence metrics, 6-th European Biopharmaceutics and
Pharmacokinetics, Atena, aprilie 1997
26. C. Mircioiu, V. Voicu: Degenerated, solutions of pharmacokinetics
models for some lipophilic drugs, Canad. J. Physiol, Pharmacol. 72
(suppl.1), 305, 1994
27. C. Mircioiu, V. Voicu, M. Jiquidi: Mathematical algoritms and
computer programs as source of variability in population drugs, 1-st
Congress of the European Association for Clinical Pharmacology and
Therapeutics, September, 27-30, 1995, Paris
28. C. Mircioiu: „Mathematical variability” in pharmacokinetics, 6-th
Europ. Congress of Biopharmaceutics and Pharmacokinetics, Atena, 22-24
April 1996, Europ. J. Drug Metab. Pharmacokin. (special issue), abstract
371
29. Choi L., Caffo B., Rohde C., A survey of the likelihood approach to
bioequivalence trials, Statistics in Medicine, 27 (2008), 4874 – 4894
30. Zhang Z., A law of Likelihood for composite hypotheses, ar
Xiv:0901.0463 (math. ST)
31. W.J.Westlake: Use of confidence intervals in analysis of
comparative biovalability trials, J. Pharm. Sci. , 61 (8), 1340 – 1, 1972
32. F.Wilcoxon: Individual comparisons by ranking methods, Biometrics
Bul.,180-83,1947
33. W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis
of variance, J. Am. Stat. Assoc.,47,583-621,1952
34. W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion
analysis of variance, J.Am.Stat.Assoc.,47,583-621,1952
35. Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley,
New York, 1973
248
BIBLIOGRAFIE

36. R.A.Fischer, Statistical Methods for Research Works, 13-th


Editions, Hafner, New York, 1958
37. C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs
with active metabolites, Biointernational 2005, Octomber 24th-26th, London
38. J. Grizzle, Two period change-over design and its use in clinical
trials, Biometric, 21, 467-480, 1965
39. C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30,
209-317, 1974
40. Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and
Lawrence Yu, Biopharmaceutics Applications in Drug Development, J.E.
Henney, JAMA 282: 1995, 1999
41. Salim Yusuf: Overview of Result of Randomized Clinical Trials in
Heart Disease. II. Unstable Angina, Heart Failure, Primary Prevention with
Aspirin and Risk Factor Modification, JAMA 260 (15), 2259-2263, 1988
42. James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not
Therapeutically Equivalence for the Treatment of Tachyarrhythmias, The
American Journal of Cardiology, vol. 85, may 1, 2000
43. Woolf B. On estimating the relationship between blood group and
disease, Human Genet., 19, 251-3, 1955
44. Aird I, Bentall HH, Roberts JAF: The relationship between cancer of
stomach and the ABO blood groups, Brit Med J, 1, 799, 1953
45. Mantel N., Haenszel W, Statistical aspects of the analysis of data
from retrospective studies of disease, JNCI 1959, 22:719-748
46. P.Silocks, An easy approad to the Robins – Breslow. Greendland
variance estimation, Epid. Perspectives & Innov. 2, 2005
(http:www.epiperspectives.com/content/2/110)
47. C.Mircioiu, Statistica aplicata in farmacie si studii clinice, Ed.
Universitara Carol Davila, Bucuresti, 2007

249
CUPRINS
I. ELEMENTE DE TEORIA PROBABILITATILOR
1.1. Campuri de probabilitate 1
1.1.1. Corp borelian 2
1.1.2. Spatii masurabile 3
1.1.3. Probabilitate 5
1.1.4. Probabilitate conditionata 7
1.1.5. Formula probabilitatii cauzelor (Bayes) 7

1.2. Variabile aleatoare 11


1.2.1. Definitie 11
1.2.2. Operatii cu variabile aleatoare 11
1.2.3. Functia de repartitie 12
1.2.4. Densitatea de repartitie 13
1.2.5. Valoarea medie 14
1.2.6. Dispersia 16
1.2.7. Inegalitatea lui Cebasev 18
1.2.8. Teorema lui Bernoulli (legea numerelor mari) 19

1.3. Distributii de probabilitate 21


1.3.1. Distributia normala 21
1.3.2. Distributia binomiala 23
1.3.3. Distributia Poisson 24
1.3.4. Aproximarea normala a distributiei binomiale 25
1.3.5. Repartitia χ2 Helmert - Pearson 25
1.3.6. Repartitia STUDENT 27
1.3.7. Repartiţia F (Behrens - Fisher – Snedecor) sau distribuţia 28
raportului a două dispersii

II. STATISTICA MATEMATICA SI BIOSTATISTICA


2.1. Teorema limita centrala (A.M.Leapunov) 29
2.2. Teorema lui Cebâşev 29
2.3. Metoda verosimilitatii maxime 30
2.4. Teoria selectiei 31
2.4.1. Populatii si selectii. Inferenta statistica 36
2.4.2. Media de selectie 38
2.4.3. Dispersia de selectie 39
2.4.4. Covarianta de selectie 39
2.4.5. Coeficientul de corelatie de selectie 40
2.4.6. Proprietati ale caracteristicilor de selectie 41

251
CUPRINS

2.5. Estimatii 44
2.5.1. Estimarea intervalului de incredere pentru medii 45
2.5.2. Estimarea intervalului de încredere 1 − α pentru diferenţei a 47
două medii
2.5.3. Estimarea intervalelor de încredere pentru dispersie 50
2.5.4. Estimarea intervalului de încredere raportul a două dispersii 50
2.5.5. Utilizarea intervalelor de încredere în studiile de comparare 51
a biodisponibilităţii medicamentelor

2.6. Verificarea ipotezelor statistice 53


2.6.1. Ipoteze asupra mediei 54
2.6.2. Ipoteze asupra diferenţelor a două medii 56
2.6.3. Estimarea dispersiei 58
2.6.3.1 Estimarea raportului a doua dispersii 58
2.6.3.2 Compararea mai multor dispersii: testul Bartlett, testul rapid 59
Cochran, testul Hartley
2.6.3.3 Utilizarea testului t in analiza comparativa a medicamentelor 60

2.7. Teste neparametrice 63


2.7.1. Media si dispersia unui esantion dintr-o populatie finita 64
2.7.2. Testul de rang Wilcoxon 67
2.7.3. Ajustarea pentru valori egale in testul Wilcoxon 70
2.7.4. Teste referitoare la perechi de observatii 71
2.7.4.1 Testul semnelor 71
2.7.4.2 Testul Wilcoxon pentru observatii perechi 73
2.7.4.3 Testul H 74
2.7.5. Alegerea intre testele laplaciene si testele neparametrice 76
2.7.6. Analiza de variatie pe doua cai a rangurilor. Testul 77
Friedman

2.8. Regresia liniara 79


2.8.1. Estimatii si ipoteze asupra coeficientului b 79
2.8.2. Estimarea dispersiei punctelor dreptei de regresie 84
2.8.3. Calculul intervalelor de încredere pentru dreapta de regresie 86
în cazul stabilităţii formelor farmaceutice
2.8.4. Studiul stabilităţii medicamentelor 88
2.8.5. Regresia ponderata 89
2.8.6. Analiza reziduala in testarea ipotezelor privind corelatia 95
2.8.7. Stabilirea dreptei de regresie in bioanalitica 100

252
CUPRINS

2.9. Metode statistice de analiza factorilor de variabilitate in 105


experimentul biologic (ANOVA)
2.9.1. Analiza functionala unifactoriala 106
2.9.1.1 Aplicarea ANOVA in testarea ipotezei privind depdendenta 109
liniara a datelor
2.9.1.2 Compararea parametrilor farmacocinetici ai unui medicament 110
dupa administrarea pe mai multe cai
2.9.1.3 Conditii necesare pentru aplicarea analizei dispersionale 112
2.9.2. Analiza dispersionala multifactoriala 114
2.9.2.1 Modelul variabilei aleatoare 116
2.9.2.2 Scindarea sumei patratelor abaterilor 117
2.9.2.3 Variatia unui parametru farmacocinetic atat in functie de calea 118
de administrare cat si in functie de numarul de administrari
2.9.2.4 Compararea biodisponibilitatii unei substante active administrate 120
in preparate diferite si in perioade diferite de tratament

2.10. Estimarea efectelor intr-un experiment standard cross – over 121


– prin teste t
2.10.1. Modelul statistic 121
2.10.2. Testarea efectului secventei de administrare 122
2.10.3. Efectul direct al medicamentului 125
2.10.4. Efectul perioadei 129

2.11. Estimarea efectelor prin ANOVA 131


2.11.1. Modelul statistic general 131
2.11.2. ANOVA in cazul unui studiu privind bioechivalenta a doua 134
medicamente, incrucisat, cu 2 perioade si 2 secvente
2.11.3. Calculul variabilitatii interindividuale 137
2.11.4. Calculul efectelor de secventa 138
2.11.5. Analiza efectelor fixe cu ajutorul dispersiilor 139

2.12. Legatura intre ANOVA si testul t in compararea efectelor 143


2.12.1. Compararea intre modelul statistic general si modelul 143
statistic specific „cross – over”
2.12.2. Testarea efectului secventei de administrare folosind metoda 143
ANOVA
2.12.3. Testarea efectului perioadei folosind ANOVA 144

253
CUPRINS
2.13. Estimarea bioechivalentei 147
2.13.1. Metode parametrice de estimare a bioechivalentei 147
2.13.1.1 Metoda intervalului de incredere 147
2.13.1.2 Metoda celor „doua testari unilaterale” Schuirmann 147
2.13.1.3 Transformarea logaritmica a datelor 148
2.13.2. Metode non-parametrice de estimare a bioechivalentei 149
2.13.3. Compararea rezultatelor metodelor parametrice si non – 151
parametrice in estimarea bioechivalentei unor forme
farmaceutice cu meloxicam
2.13.3.1 Estimarea egalitatii mediilor plasmatice folosind testul “non – 153
parametric” Wilcoxon
2.13.3.2 Estimarea bioechivalentei prin calculul “non – parametric” al 156
intervalelor de incredere
2.13.3.3 Estimarea bioechivalentei folosind testul non – parametric 159
Wilcoxon, pornind de la un model care ia in considerare si
efectele de perioada
2.13.3.4 Calculul parametric 163
2.13.4. Compararea rezultatelor 165

2.14. Teste statistice de discordanta 167


2.14.1. Constructia testelor de discordanta 168
2.14.2. Criteriul Dixon de respingere a outliers 175
2.14.3. Valori discordante fata de corelatia liniara 176
2.14.3.1 Drepte si puncte discordante 179
2.14.3.2 Voluntari discordanti in studii de bioechivalenta 180

2.15. Puterea testului. Calculul numarului de voluntari 185


2.15.1. Estimarea parametrilor. Calculul esantionului minim pentru 185
obtinerea unei estimari a mediei cu o precizie fixata
2.15.2. Testarea ipotezelor. Calculul numarului de voluntari in 186
functie de probabilitatile erorilor de tipul I si tipul II fixate
in prealabil
2.15.3. Testarea ipotezei privind media unui lot 187
2.15.4. Testarea pentru compararea mediilor a doua populatii 190
2.15.5. Compararea a doua proportii 194
2.15.6. Marimea esantionului pentru comparari de mai multe medii 194
prin analiza dispersionala (ANOVA)
2.15.7. Modelul cross – over. Ipoteze punctuale privind egalitati 195
2.15.8. Calculul comparativ al numarului de subiecti necesari in 201
testarea bioechivalentei terapeutice a medicamentelor
2.15.8.1 Calculul in testarea bioechivalentei 201
254
CUPRINS
2.15.8.2 Calculul in testarea echivalentei clinice 202
2.15.8.3 Cazul compararii efectelor clinice 203
2.15.8.4 Cazul aspirinei. 207
2.15.8.5 Calculul numarului de subiecti necesari demonstrarii 209
echivalentei terapeutice a doua medicamente care sunt
bioechivalente

2.16. Distributia binomiala 211


2.16.1. Compararea proportiilor cu testul exact Fisher 211
2.16.2. Tabele de contingenta R x C 217
2.16.3. Teste de independenta la clasificarea dupa doua criterii 221
2.16.4. Tabelele 2x2 corelate 223
2.16.5. Teste de omogenitate 225

2.17. Aplicatii in epidemiologie 227


2.17.1. Studii cohort 227
2.17.2. Studii case – report 227
2.17.3. Evaluarea prospectiva (studii cohort) si retrospectiva (case - 228
report) a riscului din cauza expunerii la un factor dat
2.17.4. Intervalul de incredere pentru riscul relativ estimat 230
retrospectiv (odds ratio) in studiile de control de caz
2.17.5. Calcularea marimilor esantionului pentru estimarea unui 231
risc relativ estimat intr-un studiu case – report, cu o precizie
data
2.17.6. Calcularea marimii esantioanelor pentru testarea ipotezelor 232
privind riscul relativ estimat retrospectiv (OR)
2.17.7. Originea conceptului OR (Odds Ratio) propusă de către 233
Woolf
2.17.8. Metoda Mantel-Haenszel de calcularea OR prin 235
combinarea mai multor experimente clinice

Anexe Tabele statistice pentru z 239


Tabele statistice pentru t 241
Tabele statistice pentru Fischer 243
Tabele statistice pentru χ 2 245

Bibliografie 247
Cuprins 251

255

S-ar putea să vă placă și