Documente Academic
Documente Profesional
Documente Cultură
Statistica Aplicata in Farmacie Si Studii Clinice Ed 2-1 PDF
Statistica Aplicata in Farmacie Si Studii Clinice Ed 2-1 PDF
STATISTICA APLICATA
IN
FARMACIE SI STUDII CLINICE
Editia a – II – a
STATISTICA APLICATA
IN
FARMACIE SI STUDII CLINICE
Editia a II - a
pentru
cursul de biostatistica
Facultatea de Farmacie, Universitatea de Medicina si Farmacie
“Carol Davila”, Bucuresti
1
Andrei Nicolaevici Kolmogorov (1903-1987), fost profesor la Universitatea din
Moscova, a avut contribuţii deosebite în analiza matematică, analiza funcţională şi teoria
1
I. Elemente de teoria probabilitatilor Campuri de probabilitate
1.1.1.1. Definiţie:
1.1.1.2. Consecinţă:
proprietăţile 1 şi 2.
1.1.1.3. Propoziţie:
1.1.1.4. Definiţie:
2
I. Elemente de teoria probabilitatilor Campuri de probabilitate
1.1.1.5. Definiţie:
1.1.2.1.1. Definiţie
O mulţime E împreună cu un corp borelian K formează un spaţiu
măsurabil (E,K). Elementele lui K se numesc mulţimi măsurabile.
1.1.2.2. Definiţie
Fiind date (E,K) si (F,L) spaţii măsurabile, o funcţie f: (E,K) → (F,L)
se numeşte funcţie măsurabilă dacă îndeplineşte condiţia:
∀ A, A ∈ L ⇒ f-1(A) ∈ K sau, altfel spus: f-1(L) ⊂ K
1.1.2.3. Proprietăţi
a) Dacă f şi g sunt măsurabile, atunci f g, f +g şi f*g sunt măsurabile.
3
I. Elemente de teoria probabilitatilor Campuri de probabilitate
1.1.2.4. Observaţie
Se poate face un paralelism între spaţiile topologice şi spaţiile
măsurabile, între funcţiile continue şi funcţiile măsurabile. Astfel, o funcţie
este continuă dacă preimaginea oricărei mulţimi deschise este o mulţime
deschisă iar măsurabilă este atunci când preimaginea oricărei mulţimi
măsurabile este măsurabilă. Deasemenea, dacă f şi g sunt două funcţii
continue, atunci f + g şi f*g sunt continue.
1.1.2.5. Definiţie
Se numeşte măsură orice funcţie pozitivă definită pe corpul
mulţimilor măsurabile, μ : K → R+ , “aditivă” pe orice familie ( Ai )i ∈ I
numărabilă de mulţimi măsurabile disjuncte:
( )
∀n, ∀m, An ∩ Am = Φ ⇒ μ ∪1 An = ∑1 μ ( An )
∞ ∞
1.1.2.6. Consecinţe
a) μ (Φ ) = 0
Într-adevăr, dacă luăm A1 = A , A2 = Φ ⇒
μ ( Φ ) = μ ( Φ ∪ Φ ) = 2μ ( Φ ) ⇒ μ ( Φ ) = 0
b) Fie un şir de mulţimi A1 ⊆ A2 ⊆ ... şi fie A = ∪ An , atunci μ ( An ) → μ ( A)
Demonstraţie:
Fie Bn = An + 1 \ An . Mulţimile Bn sunt disjuncte şi An = B1 ∪ B 2 ∪ ... ∪ Bn .
⎛ n ⎞ n
Din aditivitatea lui μ rezultă μ ( An ) = μ ⎜⎜ ∪ Bi ⎟⎟ = ∑ μ (Bi ) = sn
⎝ i =1 ⎠ i =1
( ) ( )
sn → s = μ ∪i =1 Bi = μ ∪n =1 An = μ ( A)
∞ ∞
A = ∪ An şi μ ( Ai ) < ∞ ⇒ μ ( An ) < μ ( A)
Altfel, An = {n, n + 1,...}, ∩A n = Φ dar μ ( An ) = ∞
1.1.2.7. Exemple
a) Fie μ definită după cum urmează:
• μ ( A) = ∞ dacă A este infinită şi
• μ ( A) = numărul elementelor din A , dacă A este finită.
Această măsură se numeşte în mod natural “măsura de numărare”.
b) Fie un punct exterior x0 ∈ E fixat. Definim:
4
I. Elemente de teoria probabilitatilor Campuri de probabilitate
• μ x ( A) = 1 dacă x0 ∈ A şi
0
• μ x ( A) = 0 dacă x0 ∉ A
0
1.1.3. Probabilitate
Vom defini probabilitatea ca o măsură particulară.
1.1.3.1. Definiţie:
Fiind dat un spaţiu măsurăbil (E, K ) . O funcţie P: K → [0,1] cu
proprietăţile:
a) P – măsură şi
b) P (E ) =1
se numeşte probabilitate.
Deci, probabilitatea ar fi o măsură “normată”.
1.1.3.2. Proprietăţi:
Pe baza proprietăţilor măsurii şi a faptului că P (E ) =1, se pot
demonstra cu uşurinţă următoarele proprietăţi:
1. A ⊃ B ⇒ P( A / B ) = P( A) − P(B )
2. (∀n ) , An ⊂ An + 1 ⇒ P(∪ An ) = lim n → ∞P( An )
3. (∀n ) , An ⊃ An + 1 ⇒ P(∩ An ) = lim n → ∞P( An )
4. P( A ∪ B ) = P( A) + P(B ) − P( A ∩ B )
( )
5. P ∪ An ≤ ∑ P( An ) , numită subaditivitate numărabilă
6. P(Φ ) = 0
7. P(CA) = 1 − P( A)
În contextul teoriei probabilităţilor, mulţimile măsurabile devin
evenimente, “spaţiul măsurabil” devine câmp de evenimente, iar E devine
evenimentul total.
1.1.3.3. Definiţie:
Un câmp de evenimente (E, K ) înzestrat cu probabilitatea P, se
numeşte câmp de probabilitate.
1.1.3.4. Definiţie:
Un eveniment care nu mai poate fi inclus în alt eveniment
5
I. Elemente de teoria probabilitatilor Campuri de probabilitate
A ∈ K , ∀B ∈ K , A ⊂ B sau A ∩ B = Φ
se numeşte eveniment elementar sau atom.
1.1.3.5. Observaţii
Prezentarea axiomelor teoriei probabilităţilor în contexul mai larg al
teoriei măsurii, dincolo de formalismul simplu şi rigoare, oferă şi avantajul
unor interpretări “fenomenologice” şi “picturale” pentru unele formule.
Astfel, dacă probabilitatea este o măsură, la fel ca aria pentru figurile plane
(Fig. 1), formula:
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
se poate citi ca:
aria ( A ∪ B ) = aria ( A) + aria ( B ) − aria ( A ∩ B )
ceea ce pare ca evident.
Fig. 1.
Definiţia clasică elementară a probabilităţii derivă în mod natural din
noţiunea de frecvenţă, despre care am vorbit mai sus.
Dacă un eveniment A se poate realiza în m feluri diferite dintr-un
număr total n de evoluţii posibile (e j ) j =1, n , egal probabile, atunci :
1 m
a) P ( e j ) =
şi b) P ( A ) =
n n
1.1.3.6. Exemplu
Exemplul clasic de câmp de probabilitate finit îl constituie
evenimentele ce pot apărea atunci când, dintr-o urnă în care se află bile albe
şi negre se extrag n bile. Dacă proporţia bilelor albe în urnă este p, şi deci a
celor negre este q = 1 − p , probabilitatea evenimentului A, ca din n bile
extrase, k să fie albe, conform definiţiei clasice definite mai sus, se
calculează imediat şi este:
P ( A) = Cnk p k q n −k
De exemplu, evenimentul ca din trei bile extrase, două să fie albe -
a - şi una să fie neagră - n - se poate descompune în felul următor :
A = ( a a n ) ∪ ( a n a )∪ ( n a a ) şi
6
I. Elemente de teoria probabilitatilor Campuri de probabilitate
P ( A) = P ( a a n ) + P ( a n a ) + P ( n a a ) = p 2 q + p 2 q + p 2 q = 3 p 2 q = C32 p 2 q3−2
P (X ∩ Aj )
Din definiţie avem PX(Aj) =
P (X )
P ( Aj )
P ( X ∩ Aj )
P (X ∩ Aj ) P ( Aj ) P( Aj )PAj ( X )
deci, PX(Aj) = = =
∑i P ( Ai∩ X)
( i∩ X)
P ( Ai ) ∑ P( Ai )PAI ( X )
∑i P A
P ( Ai )
8
I. Elemente de teoria probabilitatilor Campuri de probabilitate
probabilitatea, sau altfel spus ponderea lor, p(Ai). Deoarece numărul căilor
poate fi de puterea continuului, în locul sumelor apar integrale.
Sau, dacă s-ar produce o crimă, aposteriori, ne punem problema
ierarhizării suspiciunilor privind potenţialii criminali.
Problema nu este de loc “teoretică” dacă suntem de exemplu o
societate de asigurări sau dacă testul este un test de malignitate.
Bayer a fost un episcop care s-a preocupat de cauzele evenimentelor
din lumea aceasta şi legătura lor cu cauza finală – Dumnezeu.
Formula probabilităţii cauzelor ne arată cum se transformă
probabilităţile apriorice în probabilităţi aposteriorice, după apariţia
evenimentului X.
De exemplu, ştiind că un medicament se absoarbe în, şi se elimină
din sânge pe mai mult căi, cu diferite probabilităţi date de considerente
fizico-chimice şi fiziologice, în funcţie de rezultatul unor determinări a
concentraţiei ale acestora în sângele unui pacient, ne putem pune problema
stabilirii ponderilor efective ale acestor căi, în scopul “individualizării”
tratamentului.
1.1.5.2. Observaţie:
Putem deasemenea să considerăm cazul particular al desfacerii
evenimentului total în două evenimente A şi complementul său CA.
Formula lui Bayes devine în acest caz:
PA( X )P( A)
PX(A) =
PA( X )P( A) + PCA( X )P(CA)
1.1.5.3. Aplicaţie:
Dacă, de exemplu, P(B) este proporţia (probabilitatea) unei boli în
populaţie şi cunoscând proporţia în care un test diagnostic este pozitiv la
bolnavi PB(+) şi la sănătoşi PNB(+) putem calcula probabilitatea ca un
pacient la care rezultatul testului este pozitiv să fie bolnav:
PB ( + ) P ( B )
P+ ( B ) =
PB ( + ) P ( B ) + PNB ( + ) P ( NB )
unde:
PB ( + ) este probabilitatea ca un bolnav să fie catalogat pozitiv de
către test şi se numeşte “sensibilitatea” testului.
PNB ( − ) este probabilitatea ca un sănătos să fie catalogat negativ de
către test şi se numeşte “specificitatea” testului.
9
I. Elemente de teoria probabilitatilor Campuri de probabilitate
10
I. Elemente de teoria probabilitatilor Variabile aleatoare
1.2.VARIABILE ALEATOARE
1.2.1. Definiţii:
a) Se numeşte variabilă aleatoare (întâmplătoare sau statistică) o
funcţie reală f definită pe mulţimea K a evenimentelor, cu proprietatea că,
oricare ar fi numărul real a, mulţimea x ∈ K pentru care f ( x ) ≤ a este un
eveniment din K .
În termeni de teoria măsurii, o variabilă aleatoare este o funcţie
f : ( E , K , P ) → ( R, B ) , măsurabilă.
Practic vorbind avem definită probabilitatea ca variabila să aibă valori
mai mici decât orice număr dat a.
12
I. Elemente de teoria probabilitatilor Variabile aleatoare
1.2.3.1.Proprietăţi
Funcţia de repartiţie are următoarele proprietăţi:
a) a ≤ b ⇒ F ( a ) ≤ F ( b ) b) lim F ( a ) = 0
a →−∞
1.2.3.3. Exemplu :
Dacă ne punem problema probabilităţii ca temperatura în cameră să fie t
=20,347562 aceasta este evident zero şi de fapt problema nici nu are sens –
în măsura în care temperatura este o valoare medie în jurul căreia avem
fluctuaţii continue. Dacă ne punem problema ca temperatura să fie într-un
anumit interval noţiunea de funcţie de repartiţie capătă un conţinut concret.
P (ξ ( x ) 〈 a ) = F ( a ) = ∫ ρ ( t )dt şi respectiv:
a
−∞
−∞ −∞ b
13
I. Elemente de teoria probabilitatilor Variabile aleatoare
= ∑k ( ∑ P ( F ∩ G )) x + ∑ ( ∑
l
k l k
l k )
P ( Fk ∩ Gl ) xl
Dar, pe de altă parte, folosind proprietăţile intersecţiilor şi
reuniunilor de mulţimi, respectiv distributivitatea intersecţiei faţă de
reuniune şi a intersecţiei faţă de reuniune, şi faptul că ∪ l Gl = E avem
∑ P(F l
k ∩ Gl ) = P Fk ∩ ( (∪ G )) = P ( F )
l
l k
şi similar,
∑ P(Fk
k ∩ Gl ) = P ( Gl )
Deci,
M ( f + g ) = ∑ k P ( Fk )xk + ∑ l P ( Gl )xl = M ( f ) + M ( g )
14
I. Elemente de teoria probabilitatilor Variabile aleatoare
1.2.5.2. Definitie:
a) Noţiunea de medie se generalizează, definindu-se momentul de ordin k al
unei variabile aleatoare:
• M k ( f ) = ∑ xik pi , atunci când ξ este o variabilă aleatoare simplă şi
respectiv,
+∞
• Mk ( f ) = ∫ x k ρ ( x ) dx , atunci când ξ este o variabilă aleatoare
−∞
continuă.
b) Se numeşte moment centrat de ordin k al variabilei aleatoare f momentul
de ordinul k al abaterii sale faţă de medie.
M kc ( f ) = ∑ (xi − μ f ) p i
k
k
[x − M ( f )] ρ (x )dx
+∞
şi respectiv, μ kc = ∫ ,în cazul unei variabile aleatoare
−∞
continue.
Dispersia de selecţie, sau varianta unui şir de rezultate numerice ale
unui experiment este media aritmetică a pătratelor abaterilor acestor valori
faţă de media lor aritmetică X .
Dacă x1 , x2 ,..., xn sunt cele n valori ale seriei, dispersia de selecţie a
acestora, s X2 , este:
∑(x − X )
2
i
s X2 =
n
După cum vom vedea mai departe la statistică, o formulă mai utilă
∑(x − X )
2
i
pentru dispersia de selecţie este: s X2 =
n −1
Dispersia de selectie este indicatorul principal al împrăştierii datelor
unui experiment.
Dispersia unei variabile aleatoare este conceptul ce generalizează
dispersia de selecţie.
15
I. Elemente de teoria probabilitatilor Variabile aleatoare
1.2.6. Dispersia
Dispersia variabilei aleatoare X se notează cu D ( X ) sau σ 2 şi este, în
particular, momentul centrat de ordinul doi:
2
D ( X ) = σ 2 = M ⎡( X − M ( X ) ) ⎤ = ∫ ( x − M ( X ) ) ρ ( x ) dx , atunci
2 +∞
•
⎣ ⎦ −∞
când variabila aleatoare este continua, şi respectiv
σ 2 = M ⎡( X − M ( X ) ) ⎤ = ∑ ( xi − μ X ) pi , atunci când variabila
2 2
•
⎣ ⎦
aleatoare este discretă.
Rădăcina pătrată a dispersiei, σ, se numeşte abaterea medie pătratică a
variabilei X, iar sx abaterea standard.
1.2.6.1.Proprietăţi
a) Pentru orice variabilă aleatoare X şi orice constante a şi b
D ( aX + b ) = a 2 D ( X )
b) Dacă X, Y sunt două variabile aleatoare independente
D ( X + Y ) = D ( X ) + D (Y )
Demonstraţie:
Pentru orice două variabile aleatoare X şi Y , cu mediile μ X şi
respectiv μY , avem
D ( X + Y ) = M ( X + Y − μ X − μY ) = M ( X − μ X ) + M (Y − μY ) +
2 2 2
Demonstraţie:
16
I. Elemente de teoria probabilitatilor Variabile aleatoare
D ( X ) = ∑ ( xi − μ X ) pi = ∑ xi2 pi − 2∑ xi μ X pi + ∑ μ X2 pi =
2
= M ( f 2 ) − 2 μ X2 + μ X2 = M ( f 2 ) − ( M ( f ) )
2
1.2.6.2.Observaţie
Dacă numim M ( f 2 ) – media pătratului si ( M ( f ))
2
– pătratul
mediei formula capătă o formulare uşor de reţinut:”Dispersia este egală cu
media pătratului, minus pătratul mediei”.
Relaţia se mai poate scrie sub forma M ( X 2 ) = μ X2 + σ X2 şi am putea
s-o numim „teorema lui Pitagora în probabilitate”.
1.2.6.3.Exemplu
În modelul clasic al urnei cu bile pe care l-am prezentat mai sus,
probabilitatea evenimentului “din n bile extrase, k sunt albe” era
p k = C nk p k q n − k .
Media variabilei aleatore X care da numărul de bile albe din n bile
extrase va fi, prin definiţie,
M ( X ) = ∑ kCnk p k q n −k
Pentru a calcula această sumă considerăm următoarea identitate
( pt + q ) = ∑ Cnk p k t k q n−k , pe care o derivăm în raport cu t
n
(( pt + q ) )′ = ( ∑ C
n k
n p k t k q n − k )′
t = 1 ⇒ np = ∑ Cnk p k kq n −k
Am obţinut, deci, M ( X ) = np
Folosind aceiaşi identitate, dar derivând de două ori se arată că:
D ( X ) = npq .
Cunoaşterea mediei şi dispersiei unei variabile aleatoare dă o
indicaţie asupra intervalului în care se află valorile variabilei, cu cea mai
mare probabilitate. Mai exact, după cum arată teorema următoare, cu cât ne
îndepărtăm mai mult de valoarea medie, cu atât valorile respective sunt mai
puţin probabile ca valori ale variabilei date.
17
I. Elemente de teoria probabilitatilor Variabile aleatoare
Demonstraţie:
[
Pornim de la definiţia dispersiei σ 2 = M ( xi − m ) = ∑ ( xi − m ) p i
2 2
]
şi împărţim suma în doi termeni: unul corespunzător valorilor xi pentru care
xi − m ≥ ε şi unul corespunzător valorilor lui xi pentru care xi − m 〈ε .
σ 2 = ∑ ( xi − m ) pi = ∑ ε ( x − m) ∑ ε ( x − m)
2 2 2
i pi + i pi
xi − m 〈 xi − m ≥
18
I. Elemente de teoria probabilitatilor Variabile aleatoare
1.2.7.1.Exemplu:
Vom vedea mai departe că, în cazul în care variabila aleatoare are
suplimentar unele proprietăţi de regularitate, această probabilitate este chiar
mult mai mică.
Aceiaşi inegalitate ne permite înţelegerea legăturii între frecvenţa şi
probabilitate, legătura care exprimă însăşi fundamentarea statisticii pe teoria
probabilităţilor.
Să considerăm variabila aleatoare care dă numărul de bile albe într-o
extracţie de n bile din urnă. Pentru această variabilă avem următoarea
teoremă, care se generalizează în teoria probabilităţilor în forme care
depăşesc însă cadrul acestei lucrări.
19
I. Elemente de teoria probabilitatilor Variabile aleatoare
Demonstraţie:
⎛k ⎞
lim n→∞ P⎜⎜ − p ≥ ε ⎟⎟ = lim n→∞ P( k − np ≥ nε ) = lim n→∞ P( k − M (k ) ≥ nε )
⎝n ⎠
σ2
Dar, aplicând inegalitatea lui Cebâşev: P ( k − M (k ) ≥ nε ) ≤ şi deci
n 2ε 2
⎛k ⎞ σ2
lim n→∞ P⎜⎜ − p ≥ ε ⎟⎟ ≤ lim n→∞ 2 2 = 0
⎝n ⎠ n ε
Teorema lui Bernoulli afirmă numai că inegalitatea f n − p ≥ ε nu
are şansa să fie realizată sau că inegalitatea f n − p 〈 ε are şanse mari să fie
îndeplinită dacă n este suficient de mare
20
I. Elemente de teoria probabilitatilor Distributii de probabilitate
21
I. Elemente de teoria probabilitatilor Distributii de probabilitate
σ 2π ∫−∞
xe 2σ 2
dx =
σ 2π ∫ (x − m + m)e
−∞
2σ 2
dx =
2
σ ( x − m ) − 2 ⎜⎝
1 ⎛ x−m ⎞ u2
1 +∞ ⎟ 1 +∞ −
σ 2π ∫−∞ σ ∫
= e σ ⎠
dx + m = ue 2
σ 2 du + m = 0 + m = m
σ 2π −∞
( x − m )2 u2
( ) 1 1
−
+∞ +∞ 2 −
M X 2
= ∫ x 2
e 2σ 2
dx = ∫ (m + σ u ) e 2 σ du =
σ 2π − ∞ σ 2π − ∞
+ ∞⎛
u 2
u 2
u2 ⎞
1 − − −
= ∫−∞ ⎜⎜ m e 2 + 2mσ u e 2 + σ u e 2 ⎟⎟du =
2 2 2
2π ⎝ ⎠
⎛ 2 ⎞
2
u
1 +∞ −
= ⎜⎜ m 2π + σ ∫−∞ u e 2 du ⎟⎟
2 2
2π ⎝ ⎠
⎝ ⎠ ⎝ ⎠
u2
−
unde am integrat prin părţi, luând u = ϕ şi − ue = ψ ′ 2
Deci am obţinut M (X 2 ) =
1
2π
m 2 2π + σ 2 2π şi înlocuind în ( )
expresia lui D( X ) obţinem:
D( X ) =
1
2π
m 2 2π + σ 2 2π − m 2 = σ 2( )
Pornind de la proprietăţile operatorilor de medie şi dispersie
M ( X − m) = M ( X ) − m
D( X − m ) = D( X ) şi
22
I. Elemente de teoria probabilitatilor Distributii de probabilitate
⎛X⎞ 1
D⎜ ⎟ = 2 D ( X )
⎝a⎠ a
se obţine că, dacă o variabilă aleatoare este normal repartizată N (m,σ ) ,
X −m
variabila aleatoare redusă este repartizată N (0,1) , deci cu distribuţia
σ
de probabilitate
x2
−
ρ (x ) = e 2
x2
−
Funcţia de repartiţie asociată este funcţia Φ(t ) = ∫ e
t
2
dx numită
−∞
funcţia lui Laplace şi ale cărei valori se găsesc în tabelele din practic toate
cărţile de statistică şi probabilităţi.
23
I. Elemente de teoria probabilitatilor Distributii de probabilitate
λk e − λ λk λk −1
M ( X ) = ∑k ≥ 0 k =e −λ
∑ (k − 1)! = e λ ∑ (k − 1)! = e λ λ eλ = λ
k ≥1
−λ
k ≥1
−
k!
D( X ) = e − λ ∑ k ≥ 0
(k − λ )2 λk ⎛
= e − λ ⎜⎜ ∑ k ≥ 0
k 2λk
− 2λ ∑ k ≥ 0
kλk λk ⎞
+ λ2 ∑ k ≥ 0 ⎟⎟ =
k! ⎝ k! k! k! ⎠
⎛ λk ⎞ ⎡ λk λk ⎤
= e − λ ⎜⎜ ∑ k ≥1 [k (k − 1) + k ] − λ2eλ ⎟⎟ = e − λ ⎢∑ k ≥ 2 k (k − 1) + ∑ k ≥1 k ⎥ − λ2 =
⎝ k! ⎠ ⎣ k! k! ⎦
= e − λ (λ2eλ + λeλ ) − λ2 = λ
24
I. Elemente de teoria probabilitatilor Distributii de probabilitate
1.3.3.1. Exemplu:
Numărul evenimentelor adverse la un medicament dat este repartizat
Poisson.
Cel mai mult este utilizată distribuţia Poisson în fizica statistică.
⎣ ⎦
Dispersia va fi:
25
I. Elemente de teoria probabilitatilor Distributii de probabilitate
D ⎡⎣ χ 2 ( n ) ⎤⎦ = D ⎡ ∑1 ui2 ⎤ = ∑1 D ⎡⎣ui2 ⎤⎦ =
n n
⎣ ⎦
(
= nD ⎣⎡ui2 ⎦⎤ = n ⎡ M ( ui4 ) − M ( ui2 ) ⎤ = n ⎡⎣ M ( ui4 ) − 1⎤⎦ )
2
⎣⎢ ⎥⎦
4
[ ]
Pentru a obţine M u i se foloseşte regula integrării prin părţi:
u2 u2
+∞ +∞ 1 − 1 +∞ −
M ⎡⎣u ⎤⎦ = ∫ u ρ ( u ) du = ∫ u
4
i
4 4
e 2
du = ∫ u ue3 2
du =
−∞ −∞
2π 2π −∞
1 3 ⎛ − u2 ⎞ +∞ ⎛ −u ⎞
2 2
u2
1 +∞ 1 +∞ −
− ∫−∞ 3u ⎜⎜ −e 2 ⎟⎟ du = 3 ∫ du = 3M ⎡⎣u 2 ⎤⎦ = 3
2 2
u ⎜e
⎟⎟ −∞
ue 2
2π ⎜⎝ ⎠ 2π ⎝ ⎠ 2π −∞
Atunci,
[ ] [ ]
D u i2 = M u i4 − (M [u i ]) = 3 − (1) = 2
2 2
26
I. Elemente de teoria probabilitatilor Distributii de probabilitate
27
I. Elemente de teoria probabilitatilor Distributii de probabilitate
28
II. Statistica matematica si biostatistica Teorema limita centrala
ρ (n )
Dacă lim n → ∞ = 0 , atunci funcţia de repartiţie a variabilei
σ (n )
ξ1 + ξ 2 + ... + ξ n − (a1 + a2 + ... + an )
σ (n )
tinde, când n → ∞ , către funcţia Φ( x ) a lui Laplace.
x t2
1 −
Φ( x ) = ∫ e 2 dt
2π −∞
Teorema limită centrală este teorema fundamentală a teoriei erorilor.
Laplace, Gauss şi alţi matematicieni, studiind repartiţia erorilor, au ajuns la
concluzia că funcţia de repartiţie normală poate fi luată drept model teoretic
pentru cercetarea probabilistică a aproape tuturor fenomenelor naturii.
29
II. Statistica matematica si biostatistica Teorema limita centrala
⎛ ζ + ζ 2 + ... + ζ n ⎞
D⎜ 1 ⎟
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞ ⎝ n ⎠
P⎜ 1 − 〈ε ⎟ ≥ 1 −
⎜ n n ⎟ ε2
⎝ ⎠
Deci
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞ C
P⎜ 1 − 〈ε ⎟ ≥ 1 − 2
⎜ n n ⎟ nε
⎝ ⎠
Trecând la limita pentru n → ∞ obţinem
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞
lim n→∞ P ⎜ 1 − 〈ε ⎟ ≥ 1
⎜ n n ⎟
⎝ ⎠
şi cum probabilitatea nu poate depăşi 1,
⎛ ζ + ζ 2 + ... + ζ n M (ζ 1 ) + M (ζ 2 ) + ... + M (ζ n ) ⎞
lim n →∞ P ⎜ 1 − 〈ε ⎟ = 1
⎜ n n ⎟
⎝ ⎠
30
II. Statistica matematica si biostatistica Teorema limita centrala
Aplicatie:
Fie X 1 , X 2 ,..., X n variabile aleatoare independente (si identic
repartizate) binare cu
P ( X 1 = 1) = p ∈ Θ = ( 0 , 1) .
Cand ( X1 , X 2 ,..., X n ) = ( x1 , x2 ,..., xn ) este observata, functia de
verosimilitate este:
n n
( )
l ( p ) = ∏ p xi (1 − p ) = p n x (1 − p ) , unde x = ∑ xi .
1− xi n 1− x
i =1 i =1
32
II. Statistica matematica si biostatistica Teorema limita centrala
Aplicatie:
2σ 2 i
i =1 2 2
dat fiind ca, in acest caz,
( x − μ )2
1 −
fθ ( x ) =
2
e 2σ
σ 2π
Rezolvand din nou o problema standard de extrem (pentru functia de
2 variabile L ), gasim ca unicul punct de maxim al lui L , si deci unicul
EVM pentru θ = ( μ , σ 2 ) este dat de:
1 n 1 n
xi ; σm2 = ∑ xi − x ( )
2
μl = x =∑
n i =1 n i =1
Astfel gasim o proprietate specifica repartitiei normale: media si
abaterea medie patratica ale unui esantion sunt estimatori de verosimilitate
maxima (EVM-uri) pentru media si dispersia populatiei.
Aplicatie:
In multe teste de laborator se iau probe din apa unui rau pentru a se
vedea daca apa este buna pentru inot. In particular prezinta interes
concentratia in bacterii coliform a apei. Numarul de bacterii coliform este
determinat pentru fiecare din cele n probe din apa raului. S-a obtinut
rezultatele x1 , x2 ,..., xn . Problema care se pune este de estima pe μ , media
numarului de bacterii coliform in unitatea de volum a apei raului.
Presupunem ca bacteriile sunt dispersate la intamplare in apa raului
si ca localizarile bacteriilor sunt puncte aleatoare in spatiu. Atunci
probabilitatea de a gasi xi bacterii intr-o proba de volum unitate este data de
repartitia Poisson:
33
II. Statistica matematica si biostatistica Teorema limita centrala
μ x e− μ
i
P ( x, μ ) = ∏ f ( xi ) = n
i =1
∏ xj ! j =1
Avem:
ln P = ∑ xi ln μ − nμ
∂ ln P ( x, μ ) 1 ∂ 2 ln P ( x, μ ) 1
∂μ
=
μ
∑x i − n si
∂μ 2
=−
μ2
∑x
i
∂ ln P ( x, μ ) 1
Daca ∑x i 〉 0,
∂μ
= 0 are solutia unica μ =
n
∑ xi = x .
∂ ln P ( x, μ )
Daca ∑x i = 0 , ecuatia
∂μ
= 0 nu are solutie si maximul
l = 0 . Astfel, in fiecare
se realizeaza pe frontiera spatiului parametrilor: μ
caz, avem μ l = x.
Observam ca
M μ ( ) n
( )
l = M X = 1 M ( X ) = 1nμ = μ
∑ i
n
ceea ce arata ca μ = x este un estimator nedeplasat pentru μ .
34
II. Statistica matematica si biostatistica Teorema limita centrala
Observatie:
Definitie:
Fie {
X un esantion dintr-o populatie P ∈℘ = Pθ θ ∈ Θ ⊂ \ k , }
pentru care se considera urmatorul set de ipoteze :
H 0 : θ ∈ Θ0 vs. H A : θ ∈ Θ1
unde Θ0 ∪ Θ1 = Θ si Θ0 ∩ Θ1 = Φ .
1
Choi L., Caffo B., Rohde C., A survey of the likelihood approach to bioequivalence trials,
Statistics in Medicine, 27 (2008), 4874 - 4894
2
Zhang Z., A law of Likelihood for composite hypotheses, ar Xiv:0901.0463 (math. ST)
35
II. Statistica matematica si biostatistica Teorema limita centrala
2.4.1.1. Exemplu
Putem dori să tragem concluzii despre evoluţia rezistentei unei
tulpini de germeni patologeni la un medicament dat şi, în acest scop,
examinăm rezultatele antibiogramelor făcute într-un eşantion de spitale într-
o perioadă recentă (luniile de iarnă), comparată cu aceeaşi perioadă a anului
precedent. Deşi rezultatele obţinute se referă la spitale şi mai precis numai
la o parte din ele, concluziile le extindem la scara întregii populaţii.
2.4.1.2. Exemplu
Rezultatele privind absorbţia unui medicament după administrarea
orală prin determinarea nivelurilor din plasma ale medicamentului la un lot
de voluntari sănătoşi le considerăm ca rezultate probabile pentru întreaga
populaţie ce include şi potenţiali pacienţi.
Populaţia poate fi infinită sau finită, în ultimul caz, numărul
indivizilor populaţiei – N- se mai numeşte şi volumul populaţiei. În mod
36
II. Statistica matematica si biostatistica Teorema limita centrala
similar, numărul de indivizi sau valori din cadrul unei probe este denumit
volumul probei sau volumul eşantionului.
Valabilitatea concluziilor despre populaţie depinde de
“reprezentativitatea” probei. Pentru populaţii finite aceasta înseamnă că
fiecare membru al populaţiei are aceeaşi şansă să fie selectat, când spunem
că selecţia este o selecţie la întâmplare sau “selecţie aleatoare”. Desigur că
selecţia unor voluntari sănătoşi pentru determinarea parametrilor
farmacocinetici ai unui medicament nu este din acest punct de vedere o
selecţie reprezentativă. În cazurile în care avem motive să credem că
patologia căreia se adresează medicamentul nu afectează funcţiile
metabolice şi de excreţie, această aproximare este acceptată pentru motivul
că o selecţie corectă ar implica loturi mult mai mari cu cheltuieli şi timp de
lucru mult crescute.
În practică, în studiile de bioechivalenţă, pentru reducerea volumului
loturilor pe care se fac testările, se administrează amândouă medicamentele
la toţi membri lotului, în două perioade diferite. Fiecare component al
lotului primeşte unul din medicamente în prima perioadă şi celălalt în a
doua perioadă.
Deoarece perioada de administrare poate influenţa şi ea rezultatul
experimentului, alegerea indivizilor care vor primi în prima perioadă primul
medicament se face în mod aleator. În cazul când sunt mai multe perioade,
de exemplu I-IV, şi mai multe medicamente A, B, C, D se alcătuieşte un
tabel de felul urmator
Tabelul nr. 1:
I II III IV
A B D C
B C A D
C D B A
D A C B
aşa zisul pătrat “latin”, unde observăm că fiecare literă apare o singură dată
în fiecare linie şi în fiecare coloană. Se numeşte pătrat latin deoarece, cum
se va arata mai departe, în cazul în care mai intervine şi o altă variabilă, de
exemplu doza din fiecare medicament, se folosesc şi litere grecesti,
alcătuindu-se pătrate “greco-latine”.
Deasemenea, studiile de bioechivalenţă se fac tot pe voluntari
sănătoşi, pornind de la ipoteza că modificările de biodisponibilitate asociate
stărilor patologice sunt aceleaşi pentru cele două medicamente testate, ceea
ce, evident, este numai în parte adevărat.
În toate experimentele biologice, planificarea experimentului trebuie
făcută în aşa fel încât diferenţele în tratament să nu coincidă cu diferenţe în
37
II. Statistica matematica si biostatistica Teorema limita centrala
vârstă, sex, sau alţi parametri. Dacă, de exemplu, femeile din lot primesc
primul medicament şi bărbaţii al doilea, se spune ca diferenţele de sex sunt
“confundate” cu diferenţele de tratament. În acest caz nu se poate spune
dacă diferenţele obţinute se datorează tratamentului sau diferenţei de sex.
38
II. Statistica matematica si biostatistica Teorema limita centrala
1 ⎛ n 2
⎜ ∑1 i
2
⎞= 1
⎛
⎜ ( )
∑
n
x
2
⎞
⎟
∑
n 1 i
x − n X ⎟ ⎜ x 2
i − ⎟
n −1⎝ ⎠ n −1⎜ 1 n ⎟
⎝ ⎠
Dacă zi = kxi + a ⇒ sZ = k s X . 2 2 2
Într-adevăr
1
( ) 1
( )
2 2
∑ ∑
n n
sZ2 = z i − Z = kx i + a − k X − a = k 2 s X2
n −1 1
n −1 1
Se observă că aceasta se mai poate scrie şi sub altă formă, mai utilă
în sensul simplificărilor de calcul în anumite aplicaţii.
s XY =
1
n −1
∑ (n
x y − X ∑1 yi − Y ∑1 xi + n X Y =
1 i i
n n
)
=
1
∑
n −1 1
( n
xi yi − n X Y − n X Y + n X Y = )
( 1 ⎛⎜ n
) ∑ 1 i ∑1 i ⎟
y ⎞
n n
1 x
∑ ii ∑ ii
n
x y − n X Y = x y −
n −1 1 n −1⎜ 1 n ⎟
⎝ ⎠
s XY n
1
− 1
∑
n
1
xi − X yi − Y ( )( )
ρ ( x, y ) = = =
s X sY 1 1
( ) ( )
2 2
∑ xi − X n − 1 ∑1 yi − Y
n n
n −1 1
∑ ( x − X )( y − Y )
n
1 i i
=
∑ (x − X ) ∑ ( y −Y )
n 2 n 2
1 i 1 i
2.4.6.1. Propoziţie
Media mediei de selecţie este egală cu media populaţiei. M X = μ ( )
Demonstraţie:
M ( ∑ xi ) ∑ M ( xi ) nμ
M X =( ) n
=
n
=
n
=μ
2.4.6.2. Propoziţie
Media dispersiei de selecţie este egală cu dispersia populaţiei
M ( sX ) = σ 2
2
Demonstraţie:
40
II. Statistica matematica si biostatistica Teorema limita centrala
M ( s X2 ) = M ⎜
⎛ 1
⎝ n −1
∑
n
1
xi − X ( ) ⎞
2
⎟=
1
⎠ n −1
M (∑ x 2 − 2 X ∑1 xi + ∑1 x
1 i
n n n 2
)=
1
n −1 (
M ∑1 xi2 − 2n X + n X
n 2 2
) =−
1
n −1
M (∑ x − n X ) =
n
1
2
i
2
⎛
( ⎞
)
2
∑
n
1 ⎜ n 2 x i ⎟
M ⎜ ∑1 xi −
1
= ⎟
n −1 ⎜ n ⎟
⎝ ⎠
Dar, mai departe
M ( ∑ x ) = n (σ + μ )
n
1
2
i
2 2
M ( ∑ x ) = M ⎜ ∑ x + 2∑
n ⎛ 2 n n ⎞
i
2
i 1 xi x j ⎟ =
1
⎝ 1
i≠ j ⎠
n ( n − 1)
= ∑1 M ( xi2 ) + 2 M ( xi ) M ( x j ) =
n
2
= n (σ 2 + μ 2 ) + n ( n − 1) μ 2 = nσ 2 + n 2 μ 2
şi înlocuind în expresia lui M ( s X2 ) obţinem
n (σ 2 + μ 2 ) − σ 2 − n μ 2
M (s 2
X )= =σ2
n −1
2.4.6.3. Propoziţie
x−μ
Variabila aleatoare Z = tinde , când n → ∞ către o variabilă
σ
n
N (0,1)
Aceasta este o consecinţă a teoremei limită centrală şi este aplicabilă
atât variabilelor continue cât şi celor discrete.
Într-adevăr aplicând teorema lui Leapunov pentru variabilele
aleatoare x, , x2 ,..., xn obţinem că:
x1 + x2 + ... + xn − (μ1 + μ 2 + ... + μ n ) nX − nμ X −μ
= =
σ 2 + σ 2 + ... + σ 2 nσ 2 σ
n
tinde către o variabilă aleatoare N (0,1) .
41
II. Statistica matematica si biostatistica Teorema limita centrala
2.4.6.4. Propoziţie
Dacă variabila aleatoare X este normal distribuită, atunci variabila
s2
aleatoare V = (n − 1 ) X2 este repartizată χ 2 (n − 1)
σ
Demonstraţie:
V = (n − 1)
s X2
=
∑ (x
n
1 i −X ) = ∑ [(xn
1 i (
− μ)− X − μ )] 2
=
σ2 σ2 σ2
=
∑ (x1
n
i − μ ) − 2∑1 (xi − μ ) X − μ + ∑1 X − μ
2 n
( ) n
( ) 2
=
σ2
=
∑ (x1
n
i
2
(
− μ ) − 2 n X − nμ X − μ + n X − μ )( ) ( )
2
=
σ2
2
⎛ ⎞
=
∑ ( x
n
i − μ ) − n X − μ ( n⎛ x i − μ ⎞
= ∑1 ⎜
2 ⎜
⎜ ) ⎟
X −μ⎟
1
⎟ −
σ2 ⎝ σ ⎠ ⎜ σ ⎟
⎜ ⎟
⎝ n ⎠
x −μ
Dar variabila aleatoare i este repartizată N (0,1) deoarece
σ
⎛ x − μ ⎞ M ( xi ) − μ ⎛ x − μ ⎞ D( xi ) (X − μ )
M⎜ i ⎟= şi D⎜ i ⎟= = 1 , iar
σ
este
⎝ σ ⎠ σ ⎝ σ ⎠ σ2
n
repatizată tot N (0,1) în conformitate cu teorema limită centrală.
Deci, V este o sumă de n-1 pătrate de variabile de tip N (0,1) .
2.4.6.5. Propoziţie
Dacă x1 , x2 ,..., xn este o selecţie dintr-o populaţie normal distribuită,
atunci variabila aleatoare
X −μ
T = este repartizată Student cu n grade de libertate.
s
n
Demonstraţie:
42
II. Statistica matematica si biostatistica Teorema limita centrala
X −μ X −μ
σ σ
X −μ n n Z
= = =
∑ (x )
s s n 2
V
i −X
n σ 1
n −1
(n − 1)σ 2
∑ (x − X )
n 2
X −μ
este repartizată N (0,1) , iar
i
unde Z = V = 1
este
σ σ2
n
repartizată χ (n − 1) .
2
2.4.6.6. Propoziţie
Date fiind două selecţii aleatoare independente x11 , x12 ,..., x1n1 si
x 21 , x 22 ,..., x n2 din populaţii normal distribuite N (μ1 , σ 1 ) şi N (μ 2 , σ 2 ) ,
S12
σ 12
variabila aleatoare F= este repartizată Fisher – Snedecor
S 22
σ 22
F (n1 − 1, n2 − 1)
Demonstraţie: Avem într-adevar
∑ (x )
n1 2
S12 1 1i − X1
F=
σ 12
=
(n1 − 1)σ 12
S 22
∑ (x )
n2 2
1 2i − X2
σ 22 (n2 − 1)σ 22
iar număratorul şi numitorul sunt repartizate, conform propozitiei 2.3.5.4.,
χ 2 (n1 − 1) χ 2 (n2 − 1)
respectiv şi .
n1 − 1 n2 − 1
43
II. Statistica matematica si biostatistica Teorema limita centrala
2.5. Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în
general cunoscute. Valorile numerice obţinute se numesc estimaţii sau
estimatori. Se obţin estimaţii punctuale în cazul în care se folosesc datele
selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor de
încredere în cazul în care se determină un interval în care se află, cu o
anumită probabilitate valoarea estimată.
Un estimator al parametrului θ se va nota cu θˆ . O estimaţie este
()
nedeplasată dacă M θˆ = θ , adică media estimaţiei este egală chiar cu
valoarea teoretică a parametrului estimat.
( )
Conform proprietăţii 2.3.5.1, M X = μ adică media de selecţie
este un estimator nedeplasat al mediei, iar conform proprietăţii 2.3.5.2.,
M ( s 2 ) = σ 2 adică dispersia de selecţie este un estimator nedeplasat al
dispersiei.
Problema estimării intervalelor se reduce la găsirea unui interval de
încredere (θ L ,θ U ) cu un coeficient de încredere 1 − α astfel încât
P(θ L 〈θ 〈θU ) = 1 − α .
Este de dorit ca 1 − α să fie cât mai mare (de obicei este cuprins
între 0,9 şi 0,99) iar intervalul (θ L ,θ U ) să fie cât mai mic. În stabilirea
intervalelor se utilizează caracteristicile numerice cuantile. Se numesc
cuantile de ordin β valoarea x β a variabilei aleatoare x pentru care
F (x β ) = P (x 〈 x β ) = β adică valoarea variabilei aleatoare care are la stânga
ei aria β sub curba densităţii de probabilitate. Evident:
⎛ ⎞ α α
P⎜⎜ x 〈 xα ⎟⎟ = P⎛⎜ x 〈 x1− α ⎞⎟ = 1 −
⎝ 2 ⎠
2 ⎝ 2 ⎠ 2
⎛ ⎞ α α
P⎜⎜ xα 〈 x 〈 x1− α ⎟⎟ = 1 − − = 1 − α
⎝ 2 2
⎠ 2 2
Pentru a estima un interval se alege 1 − α , se citesc din tabelele
cuantilele, de exemplu x α şi xα şi se precizează intervalul. În prealabil, în
1−
2 2
funcţie de mărimea pentru care se caută intervalul se precizează cu care din
repartiţiile cunoscute trebuie lucrat.
44
II. Statistica matematica si biostatistica Teorema limita centrala
Din relaţiile
X −μ
−z 〈 Z 〈 z ⇒ −z 〈 〈 z ⇒
1−
α
2
1−
α
2
1−
α
2
σ 1−
α
2
n
σ σ
⇒ −z α * 〈 X −μ 〈 z α * ⇒
1−
2 n 1−
2 n
σ σ
−X − z α * 〈 −μ 〈 − X +z α *
1−
2 n 1−
2 n
rezultă
σ σ
X −z α 〈 μ 〈 X +z α
1−
2 n 1−
2 n
Aşadar intervalul căutat este
⎛ ⎞
(θ L ,θ U ) = ⎜⎜ X − z1−α σ , X + z1−α σ ⎟⎟
⎝ 2 n 2 n⎠
45
II. Statistica matematica si biostatistica Teorema limita centrala
σ
Mărimea E = z α poartă numele de eroare şi serveşte la calculul
1−
2 n
2
⎛z α ⎞
⎜ 1− ⎟
numărului de experienţe n = ⎜ 2 ⎟ atunci când este impusă eroarea şi se
⎜ E ⎟
⎝ ⎠
alege un coeficient 1 − α
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este
repartizată normal deoarece z este repartizată N (0,1) indiferent de repartiţia
variabilelor X 1 , X 2 ,..., X n (teorema limită centrală).
⎛ ⎞
⎛ ⎞ ⎜ X −μ ⎟
P⎜t α 〈 T 〈 t ⎟
α = P ⎜ t α 〈 〈 t α ⎟ = 1−α
⎝ n −1, 2 n −1,1−
⎠
2 ⎜ n −1, 2 sX n −1,1−
2 ⎟
⎜ ⎟
⎝ n ⎠
sX s
şi X − t α 〈 μ 〈 X +t α
n −1,1−
2 n n −1,1−
2 n
Ca urmare intervalul căutat este
46
II. Statistica matematica si biostatistica Teorema limita centrala
⎛ sX sX ⎞
(θ L ,θU ) = ⎜ X − tn−1,1−α , X +t α ⎟
⎝ 2 n n −1,1−
2 n⎠
sX
În acest caz eroarea este E = t α
n −1,1−
2 n
Dacă numărul de experienţe este n 〉 30 , se poate folosi aproximaţia
t α = z α
n −1,1− 1−
2 2
∑
n1
x1i
Estimatorii nedeplasaţi ai mediilor μ1 şi μ 2 sunt: X 1 = 1
si
n1
∑
n2
x2 i
X2 = 1
n2
Considerând variabila aleatoare X 1 − X 2 , ea este normal repartizată iar
estimaţia şi dispersia ei vor fi M ( X 1 − X 2 ) = M ( X 1 ) − M ( X 2 ) = μ1 − μ 2 şi
( ) ( ) ( )
D X1 − X 2 = D X1 + D X 2 =
σ 12
n1
+
σ 22
n2
unde am ţinut cont că x1i şi x 2i
sunt independente.
Mai departe, variabila aleatoare
Z=
( )
X 1 − X 2 − ( μ1 − μ2 )
=
(
X 1 − X 2 − ( μ1 − μ2 ) )
este repartizată N(0,1).
D X1 − X 2 ( ) σ 12 σ 22
+
n1 n2
47
II. Statistica matematica si biostatistica Teorema limita centrala
⎛ ⎞
Deoarece, P ⎜ zα 〈 Z 〈 z α
1−
⎟ = 1 − α şi z α = − z1−α rezulta
⎝ 2 2 ⎠ 2 2
σ 12 σ 22 σ 12 σ 22
(X 1 )
− X2 − z +
n1 n2
1−
α 〈 μ1 − μ2 〈 X 1 − X 2 + z α
1−
+
n1 n2
( )
2 2
s 2p =
n1 − 1
s12 +
n2 − 1 ( n − 1) s12 + ( n2 − 1) s22 =
s22 = 1
( n1 − 1) + ( n2 − 1) ( n1 − 1) + ( n2 − 1) n1 + n2 − 2
∑ (x ) + ∑ (x )
n1 2 n2 2
1 1i − X1 1 2i − X2
=
n1 + n2 − 2
ca un estimator nedeplasat pentru σ 2 .
Avem într-adevăr,
( n1 − 1) M ( s12 ) + ( n2 − 1) M ( s22 ) ( n1 − 1) σ 12 + ( n2 − 1) σ 22 2
M ( sp ) =
2
= =σ
n1 + n2 − 2 n1 + n2 − 2
48
II. Statistica matematica si biostatistica Teorema limita centrala
(X 1 )
− X 2 − (μ1 − μ2 )
σX 1−X2
Se observă că T = este raportul între o variabila
sp 1 1
+
σX 1−X2
n1 n2
aleatoare repartizată N(0,1) şi deoarece
sp 1 1 sp 1 1 sp s 2p
+ = + = = =
σX n1 n2 1 1 n1 n2 σ σ2
1−X2 σ +
n1 n2
2 2
⎛ x1i − X 1 ⎞ ⎛ x − X2 ⎞
∑ ⎟ + ∑ n2 ⎜ 2i
n1
⎜ ⎟
∑ (x )
− X 1 + ∑1 2 x2i − X 2 ( ) ⎜ σ ⎟ ⎜ σ ⎟
n1 2 n 2
1 1
1 1i
= ⎝ ⎠ ⎝ ⎠
(n1 + n2 − 2)σ 2 n1 + n2 − 2
sp 1 1 χ 2 (n1 + n 2 − 2 )
variabila + este de tipul
σX 1−X2
n1 n2 n1 + n 2 − 2
2 2
⎛ x − X1 ⎞ ⎛ x − X2 ⎞
Dar ∑1 ⎜⎜ 1i
n1
⎟ este repartizat χ 2 (n1 − 1) iar ∑ n2 ⎜ 2i ⎟ este
⎟ 1 ⎜ ⎟
⎝ σ ⎠ ⎝ σ ⎠
repartizat χ (n2 − 1) , deci T este repartizat T (n1 + n2 − 2) şi
2
⎛ ⎞ α α
P⎜⎜ t α 〈T 〈 t
⎟
α ⎟ = 1− − = 1−α
⎝ n1 + n 2 − 2 ,
2
n1 + n 2 − 2 ,1−
2 ⎠
2 2
Deoarece repartiţia Student este simetrică t α = −t α rezultă că
n1 + n2 − 2 , n1 + n2 − 2 ,1−
2 2
1 1 1 1
X1 − X 2 − t α sp + 〈 μ1 − μ 2 〈 X 1 − X 2 − t α sp +
n1 + n 2 − 2,1−
2
n1 n2 n1 + n 2 − 2 ,1−
2
n1 n2
Deci,
⎛ 1 1 1 1 ⎞⎟
(Θ1 , Θ 2 ) = ⎜⎜ X 1 − X 2 − tn + n − 2,1− α s p + , X1 − X 2 + t s +
n1 n2 ⎟⎠
α p
⎝ 1 2
2
n1 n2 n + n 2 − 2 ,1−
21
1 1
cu eroarea E = t α sp + .
n1 + n2 − 2 ,1−
2
n1 n2
49
II. Statistica matematica si biostatistica Teorema limita centrala
50
II. Statistica matematica si biostatistica Teorema limita centrala
Pornind de la faptul ca T =
( )
X R − X T − ( μ R − μT )
este repartizată
1 1
sp +
nR nT
T ( nR + nT − 2 ) se deduce un interval de încredere cu probabilitatea 1 − α
pentru μT − μ R
XT − X R −t α 〈 μT − μ R 〈 X T − X R + t α
1− 1−
2 2
1 1
unde am notat s = s p + .
nR nT
După cum se va arăta mai departe, această estimare este puţin utilă
în caz că s p reprezintă practic intervariabilitatea, iar interschimbabilitatea
care necesită bioechivalenţă trebuie să se bazeze pe intravariabilitate.
3
W.J.Westlake: Use of confidence intervals in analysis of comparative biovalability trials,
J. Pharm. Sci. , 61 (8), 1340 – 1, 1972
51
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile
aleatoare. Ele se referă fie la parametrii repartiţiei, fie la legea propriu zisa
de repartiţie.
Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care
constau în examinarea selecţiilor obţinute pentru o variabilă aleatoare şi a
unor funcţii de elementele selecţiilor.
Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se
notează H0. Testarea necesită şi formularea unei ipoteze complementare,
numită ipoteză alternativă şi notată HA. Dacă se acceptă H0, în mod normal
se respinge HA şi invers.
Din acest motiv, ipotezele H0 si HA se aleg să fie complementare.
Dacă testul priveşte valoarea unui parametru θ , de exemplu
H 0 : θ = θ 0 şi H A : θ = θ 1 se poate întâmpla ca toţi ceilalţi parametri ce
caracterizează distribuţiile să fie cunoscuţi şi, după acceptarea uneia din cele
două ipoteze, distribuţiile ρ ( x,θ 0 ) şi ρ (x,θ 1 ) devin complet definite. În
acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu
sunt cunoscuţi complet, ipotezele se numesc “ipoteze compuse”. De
exemplu, dacă distribuţia este normală şi parametrul cautat este μ , iar
dispersia este necunoscută, suntem în cazul unei ipoteze compuse.
53
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
⎛ ∑n xi ⎞ ∑ D ( x ) = nσ
n 2 2
σ2
În aceste condiţii se obţine D ⎜ 1 ⎟= =
2 1 i
⎜ n ⎟ n2 n2 n
⎝ ⎠
54
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
Z 〈− z α
1−
2
μ = μ0 μ〉μ0 Z 〉 z1−α
μ = μ0 μ 〈μ 0 Z 〈− z1−α
2.6.1.2.Dispersia necunoscută
În acest caz se înlocuieşte în formula anterioară σ cu estimaţia sa
X −μ
s X şi se ţine cont că variabila aleatoare T = este repartizată Student
sX
n
cu n-1 grade de libertate.
55
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
Z=
( )
X 1 − X − ( μ1 − μ 2 )
=
(
X 1 − X 2 − ( μ1 − μ 2 ) )
este, dupa cum s-a
(
D X1 − X 2 ) σ 12 σ 22
+
n1 n2
aratat anterior, repartizată N(0,1).
n1 + n2 − 2 n1 + n2 − 2
p
56
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
57
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
este
σ2
repartizată χ 2 (n − 1) .
58
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
v=
(n − 1)s 2 =
∑ (x
n
1 i −X ) = ∑ [(x − μ ) − (X − μ )]
2 n
1 i
2
=
σ2 σ2 σ2
=
∑ (x
n
1 i
2
( )(
− μ ) − 2 X − μ n X − nμ + n X − μ) ( )
2
=
σ2
2
⎛ ⎞
=
∑
n
(
1 i
x − μ )2
− n X (
− μ )
n⎛ xi − μ ⎞
= ∑1 ⎜
2
⎟ −
⎜
⎜ X −μ⎟
⎟
σ2 ⎝ σ ⎠ ⎜ σ ⎟
⎜ ⎟
⎝ n ⎠
x −μ ⎛ x − μ ⎞ E ( xi ) − μ
Dar i este repartizat N(0,1) căci E ⎜ i ⎟= = 0 şi
σ ⎝ σ ⎠ σ
⎛x −μ⎞
D2⎜ i ⎟ =1
⎝ σ ⎠
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).
(
2,303 k ln s 2 − ∑ k i ln s i2 = ln ) (s ) 2 k
∑ (s ) 2 ki
m
1 i
si2 =
1 n
∑ (
n − 1 j =1
)2
xij − xi si s max
2
= max 1≤i ≤ k s i2
60
II. Statistica matematica si biostatistica Verificarea ipotezelor statistice
61
II. Statistica matematica si biostatistica Teste neparametrice
63
II. Statistica matematica si biostatistica Teste neparametrice
=
N
1 N 2
∑1
1
(
xi − 2 ∑1 xi =
N
N 2
)
⎛1 1 ⎞ N 2 N −1 N 2 2
= ⎜ − 2 ⎟∑1 xi2 − 2 ∑ xi x j = 2 ∑1
xi − 2 ∑x x i j
⎝N N ⎠ N i≠ j N N i≠ j
1
probă are aceeaşi probabilitate de a fi selectată, n .
CN
1 n
Să considerăm media selecţiei j: X j = ∑ x ji şi să considerăm
n i =1
( )
variabila aleatoare X = X j j =1, C Nn
64
II. Statistica matematica si biostatistica Teste neparametrice
( )
C Nn C Nn
1
E X = ∑ X j pj = n ∑X j =
j =1 CN j =1
⎡1
( x + x + ... + x + x ) +
1
(x1 + x2 + ... + xn −1 + xn +1 ) + ⎤⎥
1 ⎢n 1 2 n −1 n
n
= n ⎢ ⎥
CN ⎢ 1 ⎥
(x
⎢⎣ n N − n +1
+ xN − n + 2 + ... + xN )
⎥⎦
Acum să considerăm de câte ori intră în sumă orice xi particular, să
spunem x1 . Probele care conţin x1 se obţin prin selectarea a (n-1) alte
elemente din populaţia disponibilă de (N-1) elemente şi, aceasta se poate
face în C Nn −−11 moduri. Vor fi deci C Nn −−11 probe conţinând x1 şi la fel se aplică
pentru fiecare xi .
C Nn =
N!
=
N (N − 1)! = N C n −1
n!( N − n )! n (n − 1)!( N − n )! n
N −1
În consecinţă
( ) 1 ⎛1 ⎞ 1 N
(3) E X = n ⎜ C Nn −−11 ∑1 xi ⎟ = ∑1 xi = μ
CN ⎝ n
N
⎠ N
ceea ce înseamnă că media mediei probei este egală cu media populaţiei.
Pentru calcularea dispersiei folosim identitatea
( ) − ( E ( X ))
( )
2 2
(4) D X = E X
Să considerăm E (X ) = ∑ X p
C Nn C Nn
1
∑X
2 2
2
j j = n j
j =1 CN j =1
Mai departe
C Nn 2 2
⎡1 ⎤ ⎡1 ⎤
∑ X = ⎢ ( x1 + x2 + ... + xn −1 + xn )⎥ + ... + ⎢ ( xN − n +1 + xN − n + 2 + ... + xN )⎥
2
j
j =1 ⎣n ⎦ ⎣n ⎦
Când ridicăm la pătrat fiecare termen, fiecare xi va deveni x i2 şi,
după cum vedem, fiecare xi apare de C Nn −−11 ori. Astfel
65
II. Statistica matematica si biostatistica Teste neparametrice
(6)
C Nn
1
∑X
2
j =
1 ⎡ 1 n −1 2
n ⎢ 2
CN ⎣ n
( 2
) ⎤
C N −1 x1 + x22 + ... + xN2 + 2 CNn −−22 ( x1 x2 + ... + xN −1 xN )⎥
CNn j =1 n ⎦
Pentru a înlocui în (4) punem E X ( ( )) 2
în forma:
(7)
2
(E (X )) ⎡1 ⎤
= ⎢ ( x1 + x 2 + ... + x N −1 + x N )⎥ =
2
⎣N ⎦
x + x 2 + ... + x n 2( x1 x 2 + ... + x N −1 x N )
2 2 2
= 1 +
N2 N2
Substituind (6) şi (7) în (4) , obţinem:
( ) ⎛ 1 1 1 ⎞
(
D X = ⎜⎜ n 2 C Nn −−11 − 2 ⎟⎟ x12 + x 22 + ... + x N2 + )
⎝ CN n N ⎠
(8)
⎛ 1 2 2 ⎞
+ ⎜⎜ n 2 C Nn −−22 − 2 ⎟⎟( x1 x 2 + ... + x N −1 x N )
⎝ CN n N ⎠
Coeficientul lui (x12 + x 22 + ... + x N2 ) se poate scrie ca
1 1 n −1 1 1 1 n −1 1 1 1 N −n
n 2
C N −1 − 2 = 2
C N −1 − 2 = − 2 = 2
=
CN n N n −1 N n N nN N nN
C N −1
n
N − n N −1
=
n ( N − 1) N 2
şi coeficientul lui (x1 x 2 + ... + x N −1 x N ) este
1 2 n−2 2 2(n − 1) 2 2 N −n
C N −2 − 2 = − 2 =− 2
N (N − 1) n 2
N nN ( N − 1) N N n( N − 1)
C Nn −−22
n(n − 1)
Apoi substituind aceste rezultate în (8), obţinem:
σ2 N −n σ2 ⎛ n −1 ⎞
(10) D X = ( ) n N −1
= ⎜1 −
n ⎝ N −1 ⎠
⎟
66
II. Statistica matematica si biostatistica Teste neparametrice
67
II. Statistica matematica si biostatistica Teste neparametrice
σ 2 = D( X ) = E (X 2 ) − (E ( X ))2 = ∑1 xi2 − 2 ∑1 xi =
1 N
N N
1 N 2
( )
(∑ i ) 1 N ( N + 1)(2 N + 1) 1 ⎛ N ( N + 1) ⎞
2
1 1 2 N 2 −1
∑
N 2 N
= i − = − 2⎜ ⎟ =
N 1
N2 1
N 6 N ⎝ 2 ⎠ 12
68
II. Statistica matematica si biostatistica Teste neparametrice
n1 + n2 + 1
R−
Z= 2
( 1 2 + 1) n2
n + n
12n1
Se mai utilizeaza si alta forma a formulei. Se amplifica cu n1 , se
obtine Rn1 = R si
n1 ( n1 + n2 + 1)
R−
Z= 2
( n1 + n2 + 1) n1n2
12
Kruskal si Wallis 2 au observat ca aproximaţia este îmbunătăţită când
valoarea α este mai mare de 0,02 prin aducerea lui R mai aproape de media
1
lui cu .
2n
În literatura medicală şi biologică testul se mai numeşte Mann –
Whitney şi se utilizează notaţiile n = n1 şi N − n = n2 ( n1 ≤ n2 ).
Când cel puţin unul din numerele n1 şi n 2 sunt mai mici decât 10,
distribuţia de probabilitate a sumei rangurilor pozitive R se poate calcula
direct. Intervalele de încredere cu diverse probabilităţi (0,95; 0,99; etc.)
pentru R se găsesc în tabele.
25
In exemplul nostru n = 4, N = 11, R = 25, R = = 6,25 şi
4
N +1 11 + 1
R− 6, 25 −
2 2 0, 25
Z= = = = 0,19
( N + 1)( N − n ) (11 + 1)(11 − 4 ) 7
12n 12* 4 4
Valoarea obţinută ne asigură că nu apare o acumulare a EDTA la
orice nivel de risc α din cele uzual utilizate.
Dacă facem corecţia pentru continuitate
2
W.H.Kruskal, W.Allen Wallis: Use of ranks in one-criterion analysis of variance, J. Am.
Stat. Assoc.,47,583-621,1952
69
II. Statistica matematica si biostatistica Teste neparametrice
N +1 1 11 + 1 1
R−
+ 6, 25 − +
Z= 2 2 n = 2 8 = 0,375 = 0, 285
( N + 1)( N − n ) (11 + 1)(11 − 4 ) 7
12n 12* 4 4
concluzia nu se schimba.
( k + 1) ⎤ =
2
⎡
( m + 1) + ( m + 2 ) + ... + ( m + k )
2 2 2
− k ⎢m + ⎥
⎣ 2 ⎦
k ( k + 1)
2
km + 2 (1 + 2 + ... + k ) m + (1 + 2 + ... + k ) − km − km ( k + 1) −
2 2 2 2 2
=
4
k ( k + 1) k ( k + 1)( 2k + 1) k ( k + 1)
2
=2 m+ − k ( k + 1) m − =
2 6 4
k ( k + 1) ( k − 1) k ( k + 1) = T
= ( 4k + 2 − 3k − 3) =
12 12 12
Suma rangurilor rămâne neschimbată. Astfel:
( ) 1 ⎛ N (N + 1)(2 N + 1) T ⎞ 1 ⎡ N ( N + 1) ⎤
2
1 N 1 2
σ 2 = ∑1 xi2 − 2 ∑1 xi = ⎜
N
− ⎟− 2 ⎢ ⎥ =
N N N⎝ 6 12 ⎠ N ⎣ 2 ⎦
2 N ( N + 1)(2 N + 1) − T − 3 N ( N + 1)
2
= =
12 N
=
N ( N + 1)(4 N + 2 − 3 N − 3) − T N N 2 − 1 − T
=
( )
12 N 12 N
N ( N − 1) − T N − n
2
şi D R = ( ) 12nN N −1
70
II. Statistica matematica si biostatistica Teste neparametrice
2.7.4.1.Testul semnelor
2
n.
Distribuţia de grup ρ (x, y ) poate fi diferită în fiecare încercare, însă de
1
fiecare dată P ( z i = 1) = şi astfel distribuţia lui ∑1 z i va fi neschimbată.
n
71
II. Statistica matematica si biostatistica Teste neparametrice
′
Alternativa ipotezei nule este ca în locul lui xi să avem xi = xi − d i ,
ceea ce înseamnă că fiecare xi descreşte cu o cantitate d i , unde d i 〉 0 . În
acest caz ρ ( x′, y ) nu va mai fi simetric, ci deplasat spre stânga şi
′ ′ 1
P( z i 〉 0 ) = P⎛⎜ y i − xi 〉 0 ⎞⎟ = P⎛⎜ y i 〉 xi ⎞⎟〉 .
⎝ ⎠ ⎝ ⎠ 2
Astfel, P( z i 〉 0) nu va mai fi în mod necesar constantă şi distribuţia lui
∑z
n
1 i
nu va mai fi o distribuţie binomială.
Testul semnelor, dă pentru probabilitatea a k diferenţe pozitive
i n −i
⎛ n k 1⎞ n i⎛1⎞ ⎛ 1⎞ 1 n
P⎜ ∑1 zi ≥ , p = ⎟ = ∑ ziCn ⎜ ⎟ ⎜1 − ⎟ = n ∑ Cni =
⎝ n 2 ⎠ i =k ⎝2⎠ ⎝ 2⎠ 2 i=k
1 n n −i 1 n−k j
= ∑ n 2n ∑
2n i = k
C =
j =0
Cn
zi 0 1 1 1
Avem
⎛ 4 3 1 ⎞ 1 4− 4 1 1
P⎜ ∑ z i 〉 , p = ⎟ = 4 ∑ C 4j = 4 C 40 = 4 = 0,06
⎝ 1 4 2 ⎠ 2 j =0 2 2
ceea ce înseamnă că putem accepta ipoteza nulă privind egalitatea
constantei de eliminare în prima zi cu cea din ziua a treia.
Pentru esantioane mai mari de 20 se poate folosi aproximarea formala a
distributiei binomiale:
1 1
P− −
Z= 2 2n
1 1
n* *
2 2
72
II. Statistica matematica si biostatistica Teste neparametrice
1 1 1 N 1 N ( N + 1)
Dar E (d i ) = 1 ∗ + 0 ∗ = şi E (s ) = ∑1 i =
2 2 2 2 4
( )
⎛ N ⎞
E ( s 2 ) = E ∑1 idi = E ⎜ ∑1 i 2 di2 + 2∑ ijdi d j ⎟ =
N 2
⎝ i≠ j ⎠
= ∑1 i 2 E ( di2 ) + 2∑ ijE ( di d j )
N
i≠ j
Însă E (d i2 ) = 12 ∗
1 1 1
+ 0 2 ∗ = si
2 2 2
E (d i d j ) = 0 ∗ 0 ∗ + 0 ∗ 1 * + 1 * 0 * + 1 * 1 * =
1 1 1 1 1
4 4 4 4 4
În consecinţă
E (s 2 ) = ∑1 i 2 + ∑ 2ij = ∑1 i 2 + ⎡ ∑1 i − ∑1 i 2 ⎤
1 N
2
1
4 i≠ j
1 N
2
1
4⎣⎢
N 2
( ) N
⎥⎦
Acum putem calcula dispersia lui s
1 N 2 1 ⎡⎛ N ⎞ ⎤ 1 ⎛ N ⎞2
2
( )
N
D(s ) = E s − (E (s )) = ∑1 i + ⎢⎜ ∑ i ⎟ − ∑ i ⎥ − ⎜ ∑ i ⎟ =
2 2 2
2 4 ⎢⎣⎝ 1 ⎠ 1 ⎥⎦ 4 ⎝ 1 ⎠
1 N N ( N + 1)(2 N + 1)
= ∑ i2 =
4 1 24
73
II. Statistica matematica si biostatistica Teste neparametrice
Voluntar CE IA BL PM
Prima zi 33,3 25,1 22,8 32,4
a-3-a zi 25,4 31,2 28,4 39,2
Diferenţa -7,9 +6,1 +5,6 +6,8
di 0 1 1 1
Rangul -4 2 1 3 S=3+2+1=6
3
W.H.Kruskal, W.A.Wallis; Use of ranks in the one – criterion analysis of variance,
J.Am.Stat.Assoc.,47,583-621,1952
74
II. Statistica matematica si biostatistica Teste neparametrice
Raportul
Ri − E Ri ( ) va fi repartizat N (0,1) , conform teoremei limita
D2 (R )i
centrala.
( R − R) ( ) ( )
2 2 2
K
N − ni K 12n R − R 12∑ ni Ri − R
H =∑ =∑
i i i
⋅ =
i =1 ( N + 1)( N − ni ) N i =1 N ( N + 1) N ( N + 1)
12ni
deci, deoarece sumam suma patratelor diferentelor intre mediile grupurilor
si media totala, testul este in esenta un fel de ANOVA pe o cale si se aplica
si atunci cand datele nu sunt normal repartizate, cu dispersii egale.
Am folosit,
JG 2 Ri2
( )
2
∑i i ∑ i i ∑ ii ∑ n − NR =
2 2
n R − R = n R − 2 R R n + N R =
i
( N + 1)
2
R2
=∑ i −N
ni 4
In final H se mai poate scrie :
12 Ri2
H=
N ( N + 1)
∑ n − 3 ( N + 1)
i
75
II. Statistica matematica si biostatistica Teste neparametrice
⎢ N +1 ⎥ 11 + 1
Ri − ⎢ 5− ⎥
H = ∑⎢ 2 ⎥ ⎛⎜1 − ni ⎞⎟ = ⎢ 2 ⎥ ⎛⎜1 − ⎞⎟ +
4
⎢
⎢
(N + 1)(N − ni ) ⎥⎥ ⎝ N ⎠ ⎢ (11 + 1)(11 − 4) ⎥ ⎝ 11 ⎠
⎢ ⎥
⎢⎣ 12ni ⎥⎦ ⎣ 12 * 4 ⎦
2 2
⎡ 11 + 1 ⎤ ⎡ 11 + 1 ⎤
⎢ 7− ⎥ ⎢ 6,25 − ⎥
+⎢ 2 ⎥ ⎛⎜1 − 3 ⎞⎟ + ⎢ 2 ⎥ ⎛⎜1 − ⎞⎟ =
4
⎢ (11 + 1)(11 − 3) ⎥ ⎝ 11 ⎠ ⎢ (11 + 1)(11 − 4) ⎥ ⎝ 11 ⎠
⎢ ⎥ ⎢ ⎥
⎣ 12 * 3 ⎦ ⎣ 12 * 4 ⎦
4 7 3 8 6,25 * 4 7 9,5
= + + = = 0,86
7 11 8 11 7 11 11
Dat fiindcă χ 22;0, 05 = 0,103 valoarea obţinută pentru test aparţine
zonei de acceptare, ipoteza ca grupurile sunt selectate din aceiaşi populaţie
este acceptată.
Tabelul nr. 6
subiect Valoarea masurata a dozei
A B C
1 1 2 3
2 2 1 3
3 1 2 3
4 1 3 2
5 1 3 2
Ri 6 11 13
4
Hollander, Wolfe DA; Non parametric statistical methods, J.Wiley, New York, 1973
77
II. Statistica matematica si biostatistica Teste neparametrice
78
II. Statistica matematica si biostatistica Regresia liniara
fig. 1.
Panta şi interceptul definesc dreapta: pentru oricare A şi B date,
dreapta este definită. În exemplul elementar a două puncte date, o
aproximare statistică pentru a defini dreapta nu este necesară.
Dacă reprezentarea grafică a două mărimi ce sunt observate simultan
sugerează o dependenţă liniară, ajungem la problema determinării dreptei ce
descrie “cel mai bine” această dependenţă. Cazurile din farmacie cele mai
frecvente in acest sens privesc chimia analitica, unde semnalul este
proportional, intre anumite limite, cu concentratia, legea Lambert-Beer
fiind cel mai cunoscut exemplu. In acelasi timp, se incearca sa se simplifice
lucrurile prin « liniarizare » in studiile de stabilitate ale medicamentelor. In
terapie, o intrebare obligatorie la care trebuie sa raspunda prezentarea
oricarui medicamente se refera la “liniaritatea farmacocineticii”.
După cum s-a discutat la capitolul privind extremele funcţiilor de
mai multe variabile, o soluţie a acestei probleme o constituie “dreapta prin
cele mai mici pătrate”, dreapta pentru care suma pătratelor distantelor de la
ea la punctele experimentale este minimă. Această soluţie consideră
punctele ca fiind “exacte”. Problema capătă cu totul altă înfăţişare atunci
79
II. Statistica matematica si biostatistica Regresia liniara
25 120
100
20
80
15
60
10 40
5 20
0
0
0 5 10 15 -20 0 5 10 15
Fig. 2 Dreapta prin cele mai mici patrate care aproximeaza dependenta intre variabile.
a. dependenta este efectiv liniara dar datele sunt afectate de erori,
b. Datele sunt afectate de erori si dependenta este mai mult parabolica decat liniara
80
II. Statistica matematica si biostatistica Regresia liniara
corespunde legii reale care guverneaza fenomenul, “cel mai bine” nefiind
de fapt bine.
Aceste premise sunt descrise în:
82
II. Statistica matematica si biostatistica Regresia liniara
( ) ( )
∑ xi − x y i = ∑ xi − x y i − y ∑ xi − x = ∑ xi − x y i − y ( ) ( )( )
Similar, după cum se poate uşor verifica, avem:
n ∑ xi2 − (∑ xi ) = n ∑ xi − x
2
( )
2
E (b ) =
( ) (
∑ xi − x E yi − y = ∑ xi − x (α + β xi ) = ) ( )
( ) ( )
2 2
∑ xi − x ∑ xi − x
1
∑ ( x − x) + β ∑( x − x) x ∑x ( ∑ xi )
2
2
i −
=α
i i i
= 0+β n =β
∑ ( x − x) ∑ ( x − x) ∑( )
2 2 2
i i xi − x
Dispersiile lui a şi b pot fi obţinute direct, deoarece sunt funcţii
liniare de yi , care valori sunt presupuse independente şi distribuite normal,
cu dispersia σ 2 :
D(b ) = D ⎢ ⎥ =
(
⎡ ∑ x − x y ⎤ ∑ x − x 2 D( y ) )=
σ2 ( )
))
i i
(
i i
2
⎢⎣ ∑ xi − x ⎥⎦ (
∑ xi − x
2 2
) ∑ xi − x ( ( )2
(∑ xi )2 (∑ xi )2
∑x − + 2
⎛1 x
2
⎞ 2 i
=σ ⎜
2
+ ⎟ = σ 2 n n2 =
⎜n
⎝ (
2 ⎟
∑ xi − x ⎠ )
n ∑ xi − x
2
( )
2
∑ xi σ2 ∑ xi
2
= = D(b )
(
n ∑ x −x 2
i
n )
Deci, S a =
∑x 2
i
Sb2
n
83
II. Statistica matematica si biostatistica Regresia liniara
arăta că:
⎛ SS ⎞
E⎜ E ⎟ = σ 2
⎝n−2⎠
Pentru a demonstra aceasta relaţie plecăm de la definiţia sumei erorilor
SS E = ∑ [ y i − (a + bxi )] =
2
[( ) (
= ∑ y i − y + y − a − bxi )] = ∑ [(y − y ) + (a + b x − a − bx )] =
2
i i
2
∑ (x − x )(y − y )
şi putem înlocui ∑ (x − x )(y − y ) = b ∑ (x − x ) .
2
Dar b = i i
∑ (x − x )
2 i i i
i
Deci avem SS = ∑ (y − y ) − b ∑ (x − x ) = A − B
2 2 2
E i i
Calculăm separat E ( A) şi E (B ) .
[
E ( A) = E ∑ y i − y ( ) ] = E (∑ y
2 2
i − ny
2
) = E (∑ y ) − nE (y )2
i
2
()
E y = α + β x şi D y = () σ2
n
obţinem
⎡ σ2⎤
( )
2
E ( A ) = ∑ ⎡(α + β xi ) + σ 2 ⎤ − n ⎢ α + β X
2
+ =
⎣ ⎦ ⎣ n ⎥⎦
= ∑ ⎡(α + β xi ) − α + β X ( ) ⎤⎥⎦ =
2 2
⎢⎣
84
II. Statistica matematica si biostatistica Regresia liniara
⎡ σ2⎤
( )
2
= ∑ ⎡(α + β xi ) + σ 2 ⎤ − n ⎢ α + β X
2
+ ⎥=
⎣ ⎦ ⎣ n ⎦
= ∑ ⎡(α + β xi ) − α + β X ( ) ⎤⎥⎦ =
2 2
⎢⎣
( )(
= ∑ α + β xi + α + β X α + β xi − α − β X = )
= β ∑ ( x − X ) ( 2α + β ( x + X ) ) = β ⎡ 2α ∑ ( x − X ) + β ( x + X ) ⎤ =
i ⎣ i ⎦ i i
= β ∑( x − X ) = β (∑ x − n X ) = β ∑( x − X ) =
2 2 2
2 2 2 2 2
i i i
nσ 2
( ) ( )
2 2
= nσ 2 − + β 2 ∑ xi − x = ( n − 1) σ 2 + β 2 ∑ xi − x
n
Mai departe,
( ) ( )
E (B ) = ∑ x i − x E b 2 = ∑ x i − x
2
( ) [D(b) + (E (b)) ] =
2 2
2⎛ ⎞
(
= ∑ xi − x ⎜
σ2
)
⎜ ∑ (x − X )2
+ β 2⎟
⎟
⎝ i ⎠
şi deci,
SS E
3. Variabila aleatoare este repatizată χ 2 (n − 2) .
σ 2
⎢ ⎥
2
⎢⎣ ∑ xi − x ⎥⎦ ( )
85
II. Statistica matematica si biostatistica Regresia liniara
∑ ( y i − Yi )
2
SS E
estimatorul numit “ dispersia de selecţie”: S b = n−2 = n−2 2 .
∑ xi − x
2
∑ xi − x ( ) ( )
Variabila aleatoare
b−β
b−β σb Z
T= 1
= 1
=
⎡ ⎤ 2 ⎡ SS ⎤ 2 χ 2 n−2
SS E E
⎢ ⎥ ⎢
(
⎢⎣ (n − 2 )∑ xi − x ⎥⎦
2
) ⎣ (n − 2 )σ 2 ⎥⎦ n−2
86
II. Statistica matematica si biostatistica Regresia liniara
⎡ x0 − x ⎤ ( )
2
SS E 2 ⎢1 ⎥.
Estimând valoarea lui σ prin s = 2
avem s y0 = s
2 2
+
n−2 ⎢n
∑ xi − x ⎥⎥⎦ ( )
2
⎢⎣
y − (α + βx0 )
Variabila aleatoare T = 0 este repartizată Student cu
s y0
n − 2 grade de libertate şi permite calculul intervalelor de încredere pentru
α + βx0 .
⎛ ⎛ − 2
⎞ ⎛ − 2
⎞ ⎞
⎜ ⎜x− x⎟ ⎜x− x⎟ ⎟
1 1
⎜ 0 α ,n − 2 ( Y . x ) n α ,n − 2 ( S Y . x )
⎜ y −t S + ⎝ ⎠ ,y +t + ⎝ ⎠ ⎟
⎛ − 2
⎞
0
n − 2 ⎟
⎜
⎜ ∑ ⎜⎝ x − x ⎟⎠ ∑ ⎜⎝ x − x ⎞⎟⎠
⎛ ⎟
⎟
⎝ ⎠
Dispersia sY0 depinde de distanţa între x 0 şi x , iar limitele de
incredere ale lui Y pentru valori specifice ale lui x depind de dispersie,
numarul gradelor de libertate, numarul de puncte utilizate pentru
determinarea dreptei si valoarea sa este minimă atunci când x0 = x . În acest
caz, y0 = Y şi s y 0 = s y .
Facem observaţia că dispersia determinată în punctul y 0 este
dispersia datorată regresiei. Valorile experimentale nu sunt însă valori ale
( )
regresiei y 0 = Y + b x0 − x , estimate de drepta de regresie. În acest caz,
valoarea individuală determinată diferă faţă de valoarea Y0 printr-o eroare ε,
a cărei dispersie este egală cu σ 2 , variabilitatea datelor individuale faţă de
valorile corespunzătoare regresie Y.
Ca urmare, valorile individuale vor avea dispersia:
σ 2
=σ +2 σ2
+σ 2 (x − x )
0
2
∑ (x − x )
y0 2
n
i
⎡ ⎤
( )
2
2 ⎢ 1 x − x
ceea ce , pentru valorile de selecţie devine s y0 = s 1 + +
2 0
⎥.
⎢ n
∑ xi − x ⎥⎥⎦ ( )
2
⎢⎣
87
II. Statistica matematica si biostatistica Regresia liniara
88
II. Statistica matematica si biostatistica Regresia liniara
− ⎡ ⎛ − 2
⎞ ⎛ − 2
⎞ ⎤
⎢
( X − g X ) ± [t ( S y ) / b] (1 − g ) / N + ⎜ X − X ⎟ / ∑ ⎜ X − X ⎟ ⎥
⎢⎣ ⎝ ⎠ ⎝ ⎠ ⎥⎦
1− g
unde g =
( )
t 2 S y2
2
⎛ −
⎞
b ∑⎜ X − X ⎟
2
⎝ ⎠
Aceasta procedura de estimare a lui X pentru o valoare data a lui Y
se numeste adesea “predictie inversa”.
89
II. Statistica matematica si biostatistica Regresia liniara
90
II. Statistica matematica si biostatistica Regresia liniara
51
50
49
48
47
46
45
44
0 2 4 6 8 10 12 14 16 18 20
timp (luni)
Aplicarea metodei dreptei celor mai mici pătrate este cel justificată
în situaţiile în care există un model teoretic care să arate că scăderea în
concetraţie este lineară în raport cu timpul (în acest exemplu, un proces de
ordin zero).
Cinetica scăderii concetraţiei substanţei active în timpul depozitării
în cazul formelor dozate solide este complexă şi un modelul este greu de
conceput. În cazul de faţă, se presupune că concetraţia şi timpul sunt în
relaţie lineară:
C ( t ) = C0 − kt
unde
• C(t) = concentraţia la timpul t
• C0 = concentraţia la timpul 0 (interceptul Y, A)
91
II. Statistica matematica si biostatistica Regresia liniara
• k = constanta
• t = timpul de depozitare
Având ca obiectiv estimarea perioadei de valabilitate a
medicamentului, cea mai uşoară metodă de analiză a acestor date este
estimarea pantei şi interceptului dreptei celor mai mici pătrate.(La o primă
vedere putem estima panta şi interceptul “din ochi” (metodă grafică).
Când facem calculele celor mai mici pătrate, reţinem că fiecare
valoare a timpului (X) este asociată cu trei valori ale concentraţiei
medicamentului (y). Dacă calculăm C0 şi K, fiecare valoare de timp este
numărată de trei ori şi N este egal cu 18.
Avem:
∑ X = ( 0 + 0 + 0) + (1 + 1 + 1) + .... + (18 + 18 + 18) = 144
∑X 2
= ( 02 + 0 2 + 0 2 ) + (12 + 12 + 12 ) + .... + (182 + 182 + 182 ) = 1782
X=
( 0 + 0 + 0 ) + (1 + 1 + 1) + .... + (18 + 18 + 18) = 8
18
∑ y = ( 51 + 51 + 53) +.... + ( 47 + 45 + 49 ) = 894
∑ y = ( 51
2 2
+ 512 + 532 ) +.... + ( 47 2 + 452 + 492 ) = 44476
51 + 51 + 53 + ... + 47 + 45 + 49
y= = 50
18
∑ Xy = ( 0*51 + 0*51 + 0*53) +.... + (18*47 + 18* 45 + 18*49 ) = 6984
∑( X − X )
2
= 3* ⎡( 0 − 8 ) + ... + (18 − 8 ) ⎤ = 630
2 2
⎣ ⎦
∑( y − y)
2
= ( 51 − 50 ) + ( 51 − 50 ) + ( 53 − 50 ) + ... + ( 49 − 50 ) = 74
2 2 2 2
Avem:
n∑ Xy − ∑ X ∑ y 18*6984 − 144*894
b= = = −0, 267 mg / luna
n∑ X 2 − ( ∑ X ) 18*1782 − 1442
2
894
a = y −b* X = − ( −0, 267 ) *8 = 51,80
18
Ecuaţia dreptei de regresie este:
C ( t ) = 51,80 − 0, 267 * t
92
II. Statistica matematica si biostatistica Regresia liniara
SSE ∑ ( y − yith ) ∑( y − y) ( )
2 2
− b2 ∑ X − X
exp 2
i i
= = =
n−2 n−2 n−2
(∑ y)
2
( )
2
∑y 2
−
n
− b2 ∑ X − X
= =
n−2
44476 − 8942 /18 − ( −0, 267 ) *630
2
= = 1,1825
18 − 2
93
II. Statistica matematica si biostatistica Regresia liniara
(t − t ) (C )
2 2
t −t Cd Cd − C d −C
t C
0 6 36 100 100 0 0
3 3 9 98.9 99 0.1 0.01
6 0 0 98.1 98 -0.1 0.01
9 3 9 96.8 97 -0.2 0.04
12 6 36 96.2 96 0.2 0.04
total=90 Total=0.1
unde:
C = concentratia in tiamina (mg/tableta)
Cd = concentratia calculata din dreapta de regresie
t = timpul
Dispersia se obţine astfel:
0 + 0, 01 + 0, 01 + 0, 04 + 0, 04 SSE
s2 = = 0, 03 , adică s = = 0,18
5−3 n−2
tα ,n − 2 = t0,1;5− 2 = t0,1;3 = 2,35 (avem 3 grade de libertate)
Ts = s * tα ,n − 2 = 0,18* 2,35 = 0, 423
(t − t )
2
1
C ( t ) = C0 − k0t − Ts 1 + +
∑ (t − t )
2
n
94
II. Statistica matematica si biostatistica Regresia liniara
y0 − (α + βx0 )
Variabila aleatoare T = este repartizată Student cu n-
s y0
2 grade de libertate şi permite calculul intervalelor de încredere pentru
α + βx0 .
⎛ ⎛ −
⎞
2
⎛ −
⎞
2 ⎞
⎜ ⎜ x − x⎟ ⎜ x − x⎟ ⎟
⎜ ⎟
⎜ y 0 − t α , n − 2 (S Y . x ) α , n − 2 (S Y . x )
1 1
+ ⎝ ⎠ , y +t
2 0 + ⎝ ⎠
2 ⎟
⎜ N ⎛ −
⎞ N ⎛ −
⎞ ⎟
⎜ ⎜x − x⎟ ⎜x − x⎟ ⎟
⎝ ⎝ ⎠ ⎝ ⎠ ⎠
unde SY . x = s = 0, 03 ; 1/n=1/5=0.2
Se obţine un interval de încredere de forma:
(t − t )
2
95
II. Statistica matematica si biostatistica Regresia liniara
Daca modelul liniar si presupunerile in analiza prin cele mai mici patrate
sunt valabile, reziduurile ar trebui sa fie aproximativ normal distribuite si n-
ar trebui sa apara nici o tendinta.
96
II. Statistica matematica si biostatistica Regresia liniara
Valori reziduale
Valori reziduale logaritmate
10 10
9 9
8 8
7
7
Valoare reziduala
Valori reziduale
6
6
5
5
4
4
3
3
2
2
1
1
0
0 50 100 0
Concentratia 1 2 Concentratia
3 (ln)
4 5
un xi dat :
97
II. Statistica matematica si biostatistica Regresia liniara
98
II. Statistica matematica si biostatistica Regresia liniara
1 ⎛ x − x ⎞⎛ a + bxi − a − b x ⎞ 1 b∑ xi − x ( )
2
r=
N
∑ ⎜⎜ iS ⎟⎟⎜⎜ S
⎟=
⎟ N SxSy
⎝ x ⎠⎝ y ⎠
∑ (a + bx ) (
b 2 ∑ xi − x )
2 2
i − a − bx
dar, S 2
y = = = b 2 S x2
N N
Deci, inlocuind mai sus
1 ⎛ x − x ⎞⎛ a + bxi − a − b x ⎞ 1 b∑ xi − x ( )
2
r=
N
∑ ⎜⎜ iS ⎟⎟⎜⎜ S
⎟=
⎟ N SxSy
⎝ x ⎠⎝ y ⎠
r=
1 b∑ xi − x ( S2
= x2 = 1
)2
N S x bS x Sx
Cand punctele nu sunt pe dreapta, panta dreptei prin cele mai mici
patrate b este:
b=
( )( ) ( )(
∑ xi − x y i − y = ∑ xi − x y i − y = ∑ xi − x y i − y S y = r S y ) ( )( )
∑ x −x ( 2
i
S x2) SxSy Sx Sx
Sy
Deci, b = r
Sx
99
II. Statistica matematica si biostatistica Regresia liniara
b=
∑ Xy
∑X2
100
II. Statistica matematica si biostatistica Regresia liniara
Piroxicam
R 0.9999
2.0
1.5
1.0
0.5
0.0
0 2 4 6 8 10 12
Conc (µg/mL)
101
II. Statistica matematica si biostatistica Regresia liniara
Tabelul nr. 7
Limita inferioara de cuantificare Limita superioara de cuantificare
Conc Acc Conc Acc
Conc A/SI exp Acc initial Conc A/SI exp Acc initial
0.1 0.0240 0.083 83.3 90.014 0.1 0.0267 0.164 164.1 90.01
0.25 0.0818 0.259 103.4 102.841 0.25 0.0818 0.318 127.1 102.84
0.5 0.1570 0.487 97.4 97.070 0.5 0.1570 0.527 105.5 97.07
1 0.3396 1.041 104.1 103.991 1 0.3396 1.037 103.7 103.99
2.5 0.7903 2.409 96.4 96.321 2.5 0.7903 2.294 91.8 96.32
5 1.6711 5.083 101.7 101.643 5 1.6711 4.752 95.0 101.643
10 3.2840 9.978 99.8 99.786 10 3.6124 10.168 101.7 99.786
Concluzii
103
II. Statistica matematica si biostatistica Regresia liniara
104
II. Statistica matematica si biostatistica ANOVA
H 0 : μ1 = μ 2 = μ 3 = μ 4
105
II. Statistica matematica si biostatistica ANOVA
106
II. Statistica matematica si biostatistica ANOVA
( )
n ni
SS T = ∑∑ xij − X (1)
i j =1
∑∑ x ij
∑nX
k
∑x
unde X = media mare = = 1 i
=
i
i j
şi X i este media
∑n i ∑n
k
1 i
N
grupului i.
Fixând grupul i putem scrie
∑ (x ) = ∑ [(x ) ( )]
ni ni
2 2
ij −X ij − Xi + Xi − X =
j j =1
( ) + ∑ (X ) ( )( )
ni ni ni
= ∑ xij − X i + 2∑ xij − X i X i − X
2 2
i −X
j j j
( ⎛ ni
) ⎞
2 X i − X ⎜⎜ ∑ xij − X i ⎟⎟ = 2 X i − X ni X i − ni X i = 0 ( )( )
⎝ j ⎠
şi (1) devine
( ) + ∑∑ (x )
k k ni
SST = ∑ ni X i − X
2 2
ij − Xi = SS B + SSW (2)
i i j
ni − 1
i
i, j i i
≈ σ 2 χ 2 (∑ (ni − 1)) = σ 2 χ 2 ( N − k )
SSW
Deci, sW2 =
∑ (ni − 1)
107
II. Statistica matematica si biostatistica ANOVA
SS B
− S B2
Analog, s B ≈ σ χ (k − 1) şi deci raportul F =
2 2 2 k 1 = 2 este
SSW SW
N −k
distribuit F ( k − 1, N − k ) .
∑ n (X )
k 2
i i −X
SS B
Se observă că de fapt = i = sx2 reprezintă
k −1 k −1
dispersia de selecţie ponderată a mediilor de grup faţă de marea medie.
Abaterile mediilor grupurilor faţă de media generală depind atât de
hazardul măsuratorilor cât şi de factori ce ţin de însăsi natura grupurilor.
Abaterile în interiorul grupurilor sunt independente de aceşti factori,
deoarece fiecare valoare măsurată este raportată la însăşi media grupului
respectiv. Ele reprezintă fluctuaţii aleatoare.
Variabilitatea în interiorul grupurilor reprezintă diferenţa între
variabilitatea totală şi variabilitatea între grupuri.
Pentru simplificarea calculelor în aplicaţiile practice s-au introdus
k ni k ni
notaţiile ∑∑ x
i j
ij = ∑ x şi ∑∑ x
i j
2
ij = ∑ x 2 şi formulele precedente se
SST = ∑ (x − X ) = ∑ x − 2 X ∑ x + N X = ∑ x − 2
2 2
(∑ x ) + N (∑ x ) 2 2 ij
2
ij
2
=
ij ij ij ij 2
N N
= ∑x −
(∑ x ) = x − (∑ x ) 2 2
N
∑ N
2
ij
ij 2
2 2 2
⎛ ni ⎞ ⎛ ⎞ ⎛ ni ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟ ⎜ ∑ xij ⎟
k
(
SS B = ∑ ni X i − X )2 k ⎜
=∑ ⎝ j =1
⎟
⎠ −
⎜
⎝ i j
⎟
⎠ = ∑1
⎜
k ⎝ j =1
⎟
⎠ (∑
− k
x)
2
∑1 i
k
∑ ni
1 1 ni n ni
108
II. Statistica matematica si biostatistica ANOVA
a) Testarea linearitatii :
Pornind de la cele prezentate in capitolul privind regresia liniara,
SS
observam ca SS eroare are N − I grade de libertate si deci MS eroare = eroare
N −I
avem ca E (MS eroare ) = σ e
2
σ y2
Dar, E (b 2 ) = D (b ) + [E (b )] = + [E (b )]
2 2
∑ (x )
2
i −x
Sy σx
Folosind relatia b = r ⇒ E (b ) = ρ si
Sx σy
⎛ σ y2 σ y2 ⎞⎟
E (MS linear ) = ∑ xi − x ⎜( ) + ρ2 =
⎜
⎝ ∑ xi − x ( )2
σ x2 ⎟
⎠
∑ (x ) 2
− x ρ 2σ y2
= σ y2 + = σ y2 + Nρ 2σ y2
i
σ 2
x
109
II. Statistica matematica si biostatistica ANOVA
ni 3 3 3 N=9
ni − 1 2 2 2
∑ (n i − 1) = 6
125 68 121
xi
110
II. Statistica matematica si biostatistica ANOVA
SST = ∑ (x − X ) = ∑ x −
(∑ x ) 2 2
2
= 113580 −
9422
= 14984
ij
N 9
2 2
⎛ ni ⎞ ⎛ ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟
k ⎜ ⎟ ⎜ ⎟
( ) = ∑⎝ ⎠ −⎝ i j ⎠ =
k
SS B = ∑ ni X i − X
2 j =1
k
∑ ni
i =1 1 ni
1
2 2 2 2
375 204 363 942
= + + − = 46875 + 13872 + 43923 − 98596 = 6074
3 3 3 9
ni 3 3 3 2 N=11
ni − 1 2 2 2 1
∑ (n i − 1) = 7
125 68 121 66
xi
SST = ∑ (x − X ) = ∑ x −
(∑ x ) 2 2
2
= 122449 −
10752
= 17392
ij
N 11
111
II. Statistica matematica si biostatistica ANOVA
2 2
⎛ ni ⎞ ⎛ ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟
k ⎜ ⎟ ⎜ ⎟
( ) = ∑⎝ ⎠ −⎝ i j ⎠ =
k
SS B = ∑ ni X i − X
2 j =1
k
∑ ni
i =1 1 ni
1
2 2 2 2 2
375 204 363 133 1075
= + + + − =
3 3 3 2 11
= 46875 + 13872 + 43923 + 8844 − 105056 = 8428
X i = μ + αi +
∑ ε ij = μ + α i + ε i deoarece α i şi μ sunt constante.
n
k kn
α i variază de la un grup la altul iar μ este acelaşi pentru întreaga populaţie.
( )
Mai departe xij − X i = ( μ + α i + ε ij ) − μ + α i + ε i = ε ij − ε i şi dispersia în
∑ (x − X ) = ∑ (ε )
2 2
− εi
2
=
ij i ij
interiorul grupului va fi: s iar media ei este
ni − 1 ni − 1
i
E (s ) = E
2
⎛
⎜ ∑ (
xij − X i ⎞⎟
2
=E
) ⎛
⎜ ∑ (
ε ij − ε i ⎞⎟
2
)
= σ e2 (din faptul că aşa cum s-a
i ⎜ ni − 1 ⎟ ⎜ ni − 1 ⎟
⎝ ⎠ ⎝ ⎠
arătat mai înainte E (s x ) = σ , s x fiind un estimator nedeplasat al
2 2 2
dispersiei).
Sumând pentru toate grupurile se obţine
⎛ ∑ ( ni − 1) Si2 ⎞ ∑ ( ni − 1) E ( Si ) N − k 2
2
E ( sw ) = E ⎜
2
⎟⎟ = = σ = σ e2
⎜ N −k N −k N −i
⎝ ⎠
Deci s w2 este un estimator nedeplasat al lui σ 2 indiferent dacă ipoteza
H 0 este adevărată sau nu.
Dacă n1 = n2 = ... = nk = n
⎛⎜ X − X ⎞⎟ = n ⎡ α − α 2 + ⎛⎜ ε − ε ⎞⎟ ⎤ ( )
2 2
SS B 1
sB2 = =
k −1 k −1
∑ i ⎝ i ⎠ k − 1 ⎢∑ i
n ∑⎝ i ⎠ ⎥
⎣ ⎦
∑ (ε − ε )
2
σ e2
= nsε2 şi E ( nsε2 ) = n
= σ e2
i
n
k −1 i
n
În ceea ce priveşte α avem două cazuri în funcţie de cum a fost ales:
a) α este o variabila aleatoare N (0, σ α2 ) , atunci s B2 = nsα2 + s e2 si
( )
E s B2 = nσ α2 + σ e2
113
II. Statistica matematica si biostatistica ANOVA
Tabelul nr. 10 :
Medicament
1 2 … k
1 X11 X12 X1k
x1.
Perioada Tratament
unde x. j reprezintă media valorilor din coloana i, iar xi. reprezintă media
valorilor din linia j.
In experimentele clinice analiza dispersionala pe 2 cai este asociata
unui tip special de experiment numit “experiment cu blocuri complet
randomizate”. Modelul acestui tip de experiment a fost dezvoltat in 1925 de
catre R.A.Fischer 1 care a cercetat productivitatea mai multor soiuri de grau,
numite de el tratamente, semanate in mai multe blocuri omogene formate
din mai multe loturi, loturi ce difereau intre ele prin compozitia solului.
Distribuirea tratamentelor s-a facut aleator pe loturi in cadrul
blocurilor. In acest fel fiecare bloc include toate tratamentele. Distributia
aleatoare se face in fiecarui bloc.
Obiectivul studiului este de a separa efectele reziduale aleatoare de
efectele de bloc. Eficacitatea studiilor depinde de omogenitatea blocurilor.
Aceste conditii, suplimentare conditiilor de distributie normala si de
egalitate a dispersiilor, sunt greu de asigurat intotdeauna drept pentru care
trebuiesc stabilite limitele abaterilor in functie de obiectivele studiului.
1
R.A.Fischer, Statistical Methods for Research Works, 13-th Editions, Hafner, New York,
1958
115
II. Statistica matematica si biostatistica ANOVA
Propafenona
2
C. Mircioiu, V.A.Voicu, Difficulties in applying BE rules. Drugs with active metabolites,
Biointernational 2005, Octomber 24th-26th, London
116
II. Statistica matematica si biostatistica ANOVA
Hidroxi-propafenona
2
[( ) ( ) (
SS T = ∑ ∑ (xij − x ) = ∑ ∑ x L − x + xC − x + x − x L − xC + x )]2
=
∑ ∑ (x − x ) + ∑ ∑ (x − x ) + ∑ ∑ (x − x − x + x )
2 2 2
L C ij L C = SS L + SS C + SS R
Produsele mixte nu s-au mai trecut deoarece sunt nule.
Am scindat aşadar variabilitatea totală într-o componentă dată de
linii, o componentă dată de coloane şi o componentă reziduală.
Corespunzător rezultatelor prezentate la analiza unifactorială, aici se
poate arăta că:
E (SS T ) = (nC n L − 1)σ 2 + n L ∑ α i2 + nC ∑ β j2
E (SS L ) = (nC − 1)σ 2 + n L ∑ α i2
E (SS C ) = (n L − 1)σ 2 + nC ∑ β j2
E (SS R ) = (nC − 1)(nL − 1)σ 2
117
II. Statistica matematica si biostatistica ANOVA
ni 3 3 3 2 N=11
ni − 1 2 2 2 1
∑ (n i − 1) = 7
xi 125 68 121 66
(∑ x )2
SS T = ∑ x 2
− = 17392
N
Mai departe considerăm două grupuri: voluntarii cărora medicamentul li s-a
administrat o dată şi voluntarii care au primit 5 doze.
118
II. Statistica matematica si biostatistica ANOVA
= ∑ (x − x ) = ∑ x −
2 1075 2
SS T i
2
= 17392 = 122449 −
N 11
Un alt factor care poate influenţa concentraţia în sânge este calea de
administrare.
2 2
⎛ ni ⎞ ⎛ ⎞
⎜ ∑ xij ⎟ ⎜ ∑∑ xij ⎟
⎜ ⎟ ⎜ ⎟
( ) ⎝ ⎠ ⎝ ⎠ =
k k
SS B (cale ) = ∑ ni xi − X =∑
2 j =1 i j
− k
∑ ni
i =1 1 ni
1
2 2 2 2
375 204 133 1075
= + + − =
3 3 2 11
46875 + 13872 + 43923 + 8844 − 105056 = 8428
363 2 (375 + 204 + 133)
2
SS B (nr.doze ) = + − 105056 = 2235
3 8
SSW = SS T − SS B (cale ) − SS B (nr.doze ) = 17392 − 8428 − 2235 = 6792
În acest fel am obţinut următoarele rezultate:
Tabelul nr. 12
Sursa de variaţie GL SS Rapotul F
Între căile de administrare 3 8428 f(3,6)=1,24
Între numarul de doze 1 2235 f(1,6)=0,32
Variaţia intragrupuri 6 6792
Variaţia totală 10 17392
şi comparând cu valorile din tabelele de repartiţie Fisher se constată că
poate fi acceptată ipoteza că toate grupurile cercetate aparţin aceleiaşi
populaţii statistice. Deci, nici calea de administrare şi nici numărul de doze
nu influenţează rata eliminării.
119
II. Statistica matematica si biostatistica ANOVA
SS T = ∑ x 2
− = 33162,1
N
9 (∑ linie ) (∑ x ) 2 2
SS B ( pacienti ) = ∑ − = 29834,1
i =1 3 N
3 (∑ medicament ) (∑ x )2 2
SS B (medicament ) = ∑ − = 1116,5
i =1 9 N
(∑ x )
( perioada ) = ∑
+ ∑ II 2 + ∑ III 2
2 2
I
SS B = 264,3 −
9 N
SSW = SS T − SS B ( pacienti ) − SS B (medicament ) − SS B ( perioada ) = 1947,2
Pe aceasta cale obţinem:
Sursa de variaţie DF Suma pătratelor Media Raportul F
Între pacienţi 8 29834,1 3729,3
Între medicamente 2 116,1 558,3 3,15
Între perioade 2 264,3 132,1 0,75
Variaţia intragrupuri 14 1947,2 177
Total 26 33162,1
Deoarece f 2,14;0,99 = 3,74 nu există diferenţe semnificative între cele
două medicamente după administrare unică sau administrări multiple.
120
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
PI PII
Secv. RT 9 9+1
Secv. TR 9 9+2
122
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
PI PII
Secv. RT 10 9,5+1
Secv. TR 9,5 10+1
() ( ⎛1
) 1⎞ ⎛1 1⎞
D Cˆ = 2 2σ s2 + σ e2 ⎜⎜ + ⎟⎟ = σ u2 ⎜⎜ + ⎟⎟ .
⎝ n1 n2 ⎠ ⎝ n1 n2 ⎠
123
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
()
Dispersia D Cˆ poate fi estimată prin înlocuirea lui σ u2 cu σˆ u2 = Su2
dispersia de selecţie totală pentru subiecţii din cele două secvenţe:
() 2⎛ 1 1⎞
( )
2 nk
1
∑∑
2
ˆ ⎜ ⎟
D C = σˆ u ⎜ + ⎟ unde σˆ u = 2
U ik − U .k
⎝ n1 n2 ⎠ n1 + n2 − 2 k =1 i =1
Mai departe, (n1 + n2 − 2 )σˆ u2 este distribuit σ u2 χ 2 (n1 + n 2 − 2 ) unde
χ 2 (n1 + n2 − 2) este o variabilă distribuită χ 2 cu n1 + n2 − 2 grade de
libertate, independentă de Ĉ . Astfel, în ipoteza H0 ,
Cˆ X − XT +R
Tc = = R +T are o repartiţie Student cu n1 + n2 − 2
1 1 1 1
σˆ u + σˆ u +
n1 n2 n1 n2
grade de libertate. Ca urmare, vom respinge ipoteza nulă
H 0 : CT = C R în favoarea ipotezei alternative H a : CT ≠ C R la un nivel α
de semnificaţie, dacă Tc 〉 t⎛ α ⎞
.
⎜ , n1 + n 2 − 2 ⎟
⎝2 ⎠
1
J. Grizzle, Two period change-over design and its use in clinical trials, Biometric, 21,
467-480, 1965
124
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
( ) (C − CT ) = F − C
E d .1 − d .2 = (FT − FR ) + R unde C = CT − C R .
2 2
Ca urmare, dacă CT ≠ C R nu avem un estimator nedeplasat pentru F
din datele pentru amândouă perioadele. Dacă însă CT = C R , atunci
1
[( ) ( )]
Fˆ = d .1 − d .2 = Y.21 − Y.11 − Y.22 − Y.12 = YT − YR
2
125
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
1 ⎛ n1 n2
⎞ 1 ⎛ n1 n2
⎞
unde Y = *
⎜⎜ ∑ Yi11 + ∑ Yi 22 ⎟⎟ şi YT* = ⎜⎜ ∑ Yi 21 + ∑ Yi12 ⎟⎟
n1 + n2 n1 + n2 ⎝ i =1
R
⎝ i =1 i =1 ⎠ i =1 ⎠
Când C R = CT , se obţine
( )
E YR* =
1
n1 + n 2
[(n1 + n2 )μ + (n1 + n2 )FR + n1 P1 + n2 P2 ] şi
E (Y )
1
*
= [(n1 + n2 )μ + (n1 + n2 )FT + n1 P2 + n2 P1 ] .
n1 + n 2
T
( )
Deci, E YT* − YR* = (FT − FR ) +
1
n1 + n 2
[(n2 − n1 )P1 + (n1 − n2 )P2 ]
Ca urmare, diferenţa între mediile celor două formulări F̂ * , nu este
un estimator nedeplasat pentru F decât atunci când n1 = n2 .
Remarcam faptul ca in practica, din auza ca o parte din subiecti
parasesc experimentul clinic inainte ca acesta sa se termina, cazul
n1 = n2 este foarte rar. In ciuda acestui fapt unele softuri uzuale ignora
aceste fapte ceea ce, dupa cum se va arata mai departe, poate duce la alterari
semnificative ale rezultatelor.
Diferenţa între mediile “least – square” pentru cele două
formulari, F̂ , este normal distribuită, cu media F şi dispersia
() ⎛1 1⎞
D Fˆ = σ d2 ⎜⎜ + ⎟⎟ .
⎝ n1 n2 ⎠
Deoarece {d i1 } , i = 1, n1 si {d i 2 } , i = 1, n 2 sunt două selecţii
independente din populaţii normale cu dispersii egale (atunci când nu avem
126
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
efecte carry – over inegale) un test pentru efectul direct poate fi obţinut pe
baza statisticii t – pereche.
Fˆ
Td =
1 1
σˆ d +
n1 n2
unde σˆ d2 este dispersia de selecţie pentru diferenţa între perioade, şi este un
estimator nedeplasat al lui σ d2
( )
2 nk
1
∑∑
2
σˆ d2 = d ik − d .k
n1 + n2 − 2 k =1 i =1
Deoarece (n1 + n 2 − 2 )σˆ d2 este distribuit σ d2 χ 2 (n1 + n 2 − 2 ) , Td este
distribuit t cu n1 + n2 − 2 grade de libertate. Un interval de încredere
(1 − α ) *100% pentru F este următorul:
⎛α ⎞ 1 1
Fˆ ± t ⎜ , n1 + n2 − 2 ⎟σˆ d +
⎝2 ⎠ n1 n2
Prezenţa efectului direct al medicamentului poate fi examinată prin
testarea ipotezelor: H 0 : FT = FR si H 1 : FT ≠ FR . Respingem H 0 dacă
Td 〉 t ⎛ α ⎞
.
⎜ , n1 + n2 − 2 ⎟
⎝2 ⎠
127
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
Dispersia lui F̂
C
este D
C
( ) = (σ⎛1 1⎞
+ σ e2 )⎜⎜ + ⎟⎟ . Observăm
Fˆ
⎝ n1 n2 ⎠
2
s
( ) () ⎛ σ ⎞⎛ 1 1 ⎞
2
deasemenea că D F − D Fˆ = ⎜⎜ σ s2 + e ⎟⎟⎜⎜ + ⎟⎟ . Deci, pierderea de
ˆ
C
⎝ 2 ⎠⎝ n1 n2 ⎠
precizie ca urmare a folosirii numai a datelor din prima perioadă este de
minim 50% atunci când σ s2 = 0 .
Din acest motiv, în practică, este foarte importantă perioada de
spălare pentru a dispărea efectele reziduale până la a două administrare.
În prezenţa efectelor carry – over inegale, se poate verifica ipoteza
privind inegalitatea efectelor şi se poate construi şi un interval de încredere
(1 − α ) *100% pentru F folosind datele din prima perioadă.
Un estimator nedeplasat pentru D ( ) este D( ) = S ⎛⎜⎜⎝ n1 + n1 ⎞⎟⎟⎠
Fˆ
C
Fˆ
C
2
f
1 2
( ).
2
1 nk
∑∑ Yi1k − Y.1k
2
unde S 2f =
n1 + n2 − 2 k =1 i =1
Observăm ca S 2f este un estimator nedeplasat pentru σ s2 + σ e2 , dar
nu avem estimări individuale pentru σ s2 si σ e2 pornind numai de la datele
din prima perioadă.
Intervalul de încredere (1 − α ) *100% pentru F în prezenţa efectelor
Fˆ 1 1
carry – over inegale va fi ± t⎛ α ⎞
Sf + .
C ⎜ , n1 + n2 − 2 ⎟ n1 n2
⎝2 ⎠
Fˆ
C
〉t ⎛ α ⎞
.
1 1 ⎜ ,n1 + n2 − 2 ⎟
Sf + ⎝2 ⎠
n1 n 2
În practică, în prezenţa efectelor carry – over inegale, datele din
prima perioadă sunt folosite efectiv pentru a testa bioechivalenţa, dar nu
trebuie să uităm următoarele consecinţe ale acestei proceduri:
1) Puterea de detecţie a diferenţelor semnificative clinic este micşorată
datorită creşterii dispersiei şi,
128
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
2.10.4.Efectul perioadei
şi
σ e2
D(Oik ) = σ d2 =
2
Fie O.1 şi O.2 mediile de selecţie ale diferenţelor în secvenţele 1 şi 2. Avem
⎧ d pentru k = 1 ⎫
O.k = ⎨ .1 ⎬
⎩d .2 pentru k = 2⎭
Un estimator nedeplasat pentru efectul perioadei P poate fi obţinut ca
1
[( ) (
Pˆ = O.1 − O.2 = Y.21 − Y.11 − Y.12 − Y.22
2
)]
Deoarece CT + C R = 0 , P̂ este un estimator de dispersie minimă
pentru P, indiferent de prezenţa efectelor carry – over inegale.
Un interval de încredere (1 − α ) *100% pentru P este
1 1
Pˆ ± t ⎛ α ⎞
σˆ d + .
⎜ , n1 + n2 − 2 ⎟ n1 n2
⎝2 ⎠
129
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
Pl
T0 = .
1 1
σˆ d +
n1 n2
Interferenţa statistică pentru efectele carry – over, directe şi de
perioada sunt prezentate, în rezumat, în tabelul urmator
Tabel nr. 15: Teste statistice pentru efectele fixe într-un experiment 2*2
cross – over.
C l ±t C
.2 .1
C σ + Tc =
(Y ) (
⎛α ⎞ u
+ Y.21 − Y.12 + Y.22 ⎜ , n1 + n2 − 2 ⎟ n1 n2 1 1
σu +
Carry
⎝2 ⎠
.11
over
n1 n2
Nu l = d −d =
F 1 1 l
F
l ±t σ + Td =
Efect direct
.1 .2
F ⎛α ⎞ d
1 1
1⎡
( ) (
⎜ , n1 + n2 − 2 ⎟ n1 n2
Y.21 − Y.11 − Y.22 − ⎝2 ⎠ σd +
2⎣ n1 n2
Da l
F l
F 1 1 l
F
Efect indirect
= Y.12 − Y.11 ±t Sf +
C C ⎛⎜⎝ α2 ,n1 + n2 − 2 ⎞⎟⎠ n1 n2 Tf = C
1 1
Sf +
n1 n2
- l = O −O =
P 1 1 l
P
.1 .2 l ±t
P σd + To =
⎛α ⎞
1 1
1⎡
( ) (
Perioada
⎜ , n1 + n2 − 2 ⎟ n1 n2
Y.21 − Y.11 + Y.12 − ⎝2 ⎠ σd +
2⎣ n1 n2
130
II. Statistica matematica si biostatistica
Estimarea efectelor intr-un experiment standard cross-over – prin teste t
131
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
j
∑ γ jk =∑ γ jk =0
k
⎧ H A : α k = 0 unde 1 ≤ k ≤ K
⎪
H0 : ⎨ H B : β j = 0 unde 1 ≤ j ≤ J
⎪ H : γ = 0 unde 1 ≤ j ≤ J si 1 ≤ k ≤ K
⎩ AB jk
Y• j • = ∑∑ Yijk şi cu Y • j • = 1
IK ∑∑ Y ijk
i k i k
(
= ∑ Y•• k − Y••• ) + ∑ (Y − Y ) + ∑ (Y
2
• j• •••
2
• jk − Y• j • − Y•• k + Y••• )
2
+
∑ (Y ) 2
− Y• jk = S A2 + S B2 + S AB
ijk
2
+ S R2
Termenii acestei diferenţe corespund respectiv efectelor principale,
interacţiunilor şi unei fluctuaţii aleatoare.
Deoarece indicele i se refera la subiectii experimentului Yijk − Y• jk ( )
,diferenta intre valoarea subiectului i si media subiectilor din perioada j si
secventa k, reprezinta o „intervariabilitate”. In biologie aceasta este foarte
132
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
mare si ipoteza unor subiecti „identici” este departe de realitate sau se poate
lua in calcul in cazul unor studii pe populatii foarte mari.
Pentru modelul echilibrat, dat fiind modelul statistic, sumele
obtinute sunt estimari respectiv pentru parametrii cercetati de noi:
(
α̂ k = Y•• k − Y••• ; ) βˆ j = Y• j • − Y••• ( )
γˆ jk = (Y• jk − Y• j • − Y•• k + Y••• ; ) μˆ = Y...
Statistica F pentru verificarea ipotezelor H A , H B , H AB are la
numărător respectiv mediile sumelor de pătrate S A2 , S B2 , S AB
2
, iar la numitor
întotdeauna media sumei pătratelor rezidualelor S R2 . Gradele de libertate
sunt respectiv (ν A ,ν R ) , (ν B ,ν R ) , (ν AB ,ν R ) unde:
ν A = K − 1 , ν B = J − 1 , ν AB = (J − 1)(K − 1) si ν R = JK (I − 1)
Sinteza formulelor de calcul este dată în tabelul urmator.
Testarea ipotezelor privind actiunea factorilor asupra rezultatelor
studiului incrucisat.
Grade de Media sumei
Varia Suma pătratelor
libertate pătratelor Statistica F
ţia (SS)
(df) (MS=SS/df)
S A2
( )
2
S = IJ ∑ Y ••k − Y •••
2
MS A = MS A
A νA = K −1 A
νA
FA =
k MS R
S B2
( )
2
S = IK ∑ Y • j • − Y •••
2
MS B = MS B
B νB = J −1 B
νB
FB =
j MS R
2
SAB = 2
S AB
MS AB =
Interacţiuni
ν AB = MS AB
(J −1)(K −1) (
I ∑∑ Y • jk − Y • j• −Y ••k + Y ••• ) 2 ν AB FAB =
MS R
j k
AB
S R2
MS R =
νR =
( )
2
SR2 = ∑∑∑ Yijk − Y • jk
Rezidual
νR
JK (I − 1) i j k
R
( )
2
ν S = IJK − 1 SST = ∑∑∑ Yijk − Y •••
Total
i j k
133
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
Modelul Biostatistic
Se consideră două medicamente, unul de testat (T) şi unul de
referinţă (R), administrate unui lot de voluntari sănătoşi în două secvenţe
(RT) şi (TR) şi două perioade (I şi II). Fiecare subiect este asignat aleator fie
secvenţei 1 (RT), fie secvenţei 2 (TR). Subiecţii în cadrul secvenţei RT (TR)
primesc medicamentul R (T) în prima perioadă şi medicamentul T (R) în
cea de a doua perioadă. Perioadele de administrare sunt, de obicei, separate
printr-o perioadă de „spalare ” de cel puţin de trei ori timpul de înjumătăţire
al substanţei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalenţa dintre cele
două medicamente („formulations” în literatura engleză).
Pentru aceasta se aplica modelul de analiză statistica prezentat
anterior:
Yijk = μ +αk + β j +γ jk +εijk
Rezultatele experimentului sunt variabile aleatoare Yijk pe care le
considerăm având următoarea structură:
Yijk = μ + Cj−1,k + Pj + Fjk +εijk + Sik
unde μ este media totala, i este indicele pentru subiect, i = 1, nk , j este
indicele pentru perioadă şi k este indicele pentru secvenţa. F jk este efectul
direct, fix, al medicamentului (formulării) administrat în perioada j, în
secvenţa k (Observaţie: efectul este de fapt cantitatea de medicament
măsurată sau un parametrul farmacocinetic calculat pornind de la aceasta).
C j −1,k este efectul carry – over (fix) al medicamentului administrat în
perioada j-1, de exemplu concentratia medicamentului ramas in organism
in perioada II din administrarea in perioada I.
Considerăm că, datorită existenţei unui interval de timp “de spălare”
suficient intre administrari, efectul carry – over nu depăşeşte perioada
consecutiva celei in care a fost administrat medicamentul.
eijk reprezintă eroarea aleatoare în măsurarea valorilor individuale pentru
fiecare subiect.
134
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
unde
FR (FT) reprezintă efectul direct al administrării medicamentului R (T);
P1 (P2) reprezintă efectul administrării în perioada I (II);
CR (CT) reprezintă efectul rezidual („carry-over”) al administrării
medicamentului R (T).
135
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
Tabelul nr. 18. Descompunerea sumei patratelor erorilor in sume corespunzatoare factorilor fixi si
SSTotal =
∑ (Y ) ∑ (Y ) ∑ (Y ) ∑(Y ) ∑ (Y )
2 2 2 2 2
− Y••• = − Y••• + − Y••• + − Y• jk
ijk •• k • j•
• jk − Y• j• − Y••k + Y••• + ijk
SSα SS β SS γ
SS within =
∑ (Y ) ∑ (Y ) ∑ (Y ) ∑((Y ) ( ))
2 2 2 2
ijk − Yi•k = • j• − Y••• + • jk − Y• j • − Y•• k + Y••• + ijk − Y• jk − Yi•k − Y••k
SS P SS drug SS int ra
SS between =
∑ (Y ) ∑ (Y ) ∑(Y )
2 2 2
i •k − Y••• = •• k − Y••• + i•k − Y••k
SS carry SS int er
interactiunile intre acestia
136
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
k i
Ridicand la patrat se obtine
SSint er =
⎛ 2⎞ ⎛ Y 2⎞
= 2∑ ⎜ ∑ Yi •k − 2Y••k ∑ Yi•k + nk Y••k ⎟ = 2∑ ⎜ ∑ Yi•k − 2Y••k ∑ i•k + nk Y••k ⎟ =
2 2
k ⎝ i i ⎠ k ⎝ i i 2 ⎠
⎛ Y 2⎞ ⎛ 2⎞
= 2∑ ⎜ ∑ Yi •k − 2Y••k ••k + nk Y••k ⎟ = 2∑ ⎜ ∑ Yi•k − 2Y••k * nk * Y••k + nk Y••k ⎟ =
2 2
k ⎝ i 2 ⎠ k ⎝ i ⎠
Yi•k 2 Y 2
= ∑∑ − 2∑ nk ••k 2
k i 2 k ( 2nk )
Yi•k Y
Mai departe, deoarece prin definitie, Y i •k =
; Y ••k = ••k se
2 2nk
obtine formula „farmaceutica” a sumei patratelor intersubiecti:
Yi.2k Y..2k
SS int er = ∑ −∑
k ,i 2 k 2n k
137
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
( ) ( )
2 2
SSCarry = 2n1 Y ••1 − Y ••• + 2n2 Y ••2 − Y •••
2n1n22 2n12 n2
(Y ) (Y ) 2n1n2
( )
2 2 2
= ••1 − Y ••2 + •• 2 − Y ••1 = Y ••2 − Y ••1
( n1 + n2 ) ( n1 + n2 ) n1 + n2
2 2
2n1n2
{ ( ) ( )}
2
= 1 ⎡ Y •12 + Y •22 − Y •11 + Y •21 ⎤
n1 + n2 2 ⎣ ⎦
CT − CR
⎧1
Media parantezei ⎨ ⎡ Y •12 + Y •22 − Y •11 + Y •21
⎩2 ⎣
( ) ( )⎤⎦ ⎫⎬⎭ este
2
conform demonstratiei ce urmeaza:
Yijk = μ + Sik + Pj + F jk + C j −1, k + ε ijk
Calculand mediile corespunzatoare lui Y•11 , Y•12 , Y•21 si Y•22 vom
obtine:
( )
E Y•11 = μ + P1 + FR ( )
E Y•21 = μ + P2 + FT + CR
E (Y ) = μ + P + F
•12 1 T E (Y ) = μ + P + F + C
•22 2 R T
E (Y + Y ) = 2 μ + C
•12 •22 T E (Y + Y ) = 2μ + C
•11 •21 R
⎛ ⎧1
De unde rezulta ca: E ⎜ ⎨ ⎡ Y •12 + Y •22
⎝⎩2 ⎣
( ) − (Y + Y )⎦⎤ ⎭⎫⎬ ⎠⎞⎟ = C −2 C
•11 •21
T R
138
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
Deci, efectul ce apare din diferenta intre secvente este in fapt legat
de diferenta intre efectele rezidule din cele doua secvente.
SS Carry şi SS Inter au respectiv ν Carry = 1 şi ν Inter = n1 + n2 − 2 grade de
libertate.
∑ (x ) = ∑x
2
−x 2
−
i
Aplicand succesiv formula i i se obtine
n
dupa cum urmeaza.
2
⎡
( ⎤
⎢ ∑ Y ijk − Y • jk ⎥ )
∑ ((Y ) ( )) = ∑ (Y ) −∑ ⎣ j ⎦
2 2
SS int ra = ijk − Y • jk − Y i • k − Y • • k ijk − Y • jk =
2
2
⎛ ⎞
⎜ ∑ Y ijk ⎟
⎝ i ⎠ − (
Yi • k − Y•• k )
2
Y •2jk Y i •2k Y •2• k
= ∑ Yijk2 − ∑ nk
∑
k ,i 2
= ∑ Yijk2 − ∑ nk
−∑
2
+ ∑ 2nk
139
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
Sursa de df SS MS F
variatie
Inter - subiecti
Secventa (carry ν Carry = 1 SS Carry MS Carry = FCarry =
- over
SS Carry MS Carry
= =
ν Carry MS int er
Reziduale ν Inter = n1 + n2 − 2 SS Inter MS int er = Fint er =
SS Inter MS int er
= =
ν Inter MS int ra
Intra - subiecti
Efectul direct al νF =1 SS F MS F = SS F
FF =
medicamentului νF *
= MS F
MS int ra
Perioada νP =1 SS P MS P = SS P
FP =
νP
= MS P
MS int ra
Reziduale ν Intra = n1 + n2 − 2 SS Intra MS Intra =
SS Intra
=
ν Intra
Total ν Total = 2(n1 + n2 ) − 1 SS Total
*
Formula este validă doar dacă efectul carry-over este nul.
Observatii
140
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
141
II. Statistica matematica si biostatistica
Estimarea efectelor prin ANOVA
142
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor
2
⎛ ⎞
( )2
MS carry = SS carry = 2n1 Y••1 − Y••• + 2n 2 Y••2 − Y•••( )
2 n Y + n 2 Y••2
= 2n1 ⎜⎜ Y••1 − 1 ••1
n1 + n 2
⎟
⎟
⎝ ⎠
⎛ n Y + n2 Y••2
+ 2n2 ⎜⎜ Y••2 − 1 ••1
2
(
⎞ 2n1 n 22 Y••1 − Y••2
⎟ =
)
2
+
(
2 n 2 n 12 Y • • 2 − Y • • 1 )
2
n1 + n2 ⎟ (n1 + n2 )2 (n 1 + n2 )
2
⎝ ⎠
2
⎛ ⎞
⎜ ⎟
( ) = 2(Y 1 − Y1 ) ( )
2
2 n1 n 2 2 ⎜ 2 Y − Y••1 ⎟
= Y ••2 − Y ••1 ••2 ••1
= ⎜ ••2 ⎟ =
n1 + n 2 ⎜ 1 1 ⎟
+ +
n1 n2 ⎜ n n ⎟
⎝ 1 2 ⎠
143
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor
2
⎡ ⎤
2 ⎢ ⎥
U •1 − U •2 ⎥
2n1n2 ⎧1 ⎡
( ) ( ) ⎤ ⎫⎬ = 2n1n2 U •1 − U •2 ( ) ⎢
2
⎨ ⎣ Y•12 + Y•22 − Y•11 + Y•21 ⎦ ⎭ n1 + n2
=2
⎢ 1 1 ⎥
n1 + n2 ⎩2
⎢ + ⎥
⎢⎣ n1 n2 ⎥⎦
2 2
⎛ ⎞ ⎛ ⎞
⎜ ⎟ ⎜ ⎟
MScarry U − U •2 ⎟ * 1 = ⎜ U •1 − U •2
Deci, = 2 ⎜ •1 ⎟
MSint er ⎜ 1 1 ⎟ 2σˆ u2 ⎜ 1 1 ⎟
⎜⎜ + ⎟⎟ ⎜⎜ σˆ u + ⎟⎟
⎝ n1 n2 ⎠ ⎝ n1 n2 ⎠
( ) = ∑∑ n (Y )
2 2
SSP = ∑∑∑ Y • j • − Y ••• k • j• − Y •••
k j i k j
(
= ( n1 + n2 ) ⎡ Y •1• − Y ••• ) + (Y )
− Y ••• ⎤
2 2
•2•
⎢⎣ ⎥⎦
⎣ { ( ⎦ ⎣ )
2
= ( n1 + n2 ) ⎡ n1n+2n2 Y •1• − Y •2• ⎤ + ⎡ n1n+1n2 Y •2• − Y •1• ⎤
⎦ ( )
2
}
n12 + n22
( )
2
= Y •2• − Y •1•
n1 + n2
Observatie:
MS β
Observam ca nu mai duce la acelasi rezultat ca in testul t efectuat
MS int ra
pentru variabilele O•1 si O•2 .
144
II. Statistica matematica si biostatistica
Legatura intre ANOVA si testul t in compararea efectelor
Concluzii:
146
II. Statistica matematica si biostatistica Estimarea bioechivalentei
1
C.Metzler, Bioavailabity: a problem of equivalence, Biometrics, 30, 209-317, 1974
147
II. Statistica matematica si biostatistica Estimarea bioechivalentei
TI =
( )
YT − YR − θ I
〉 t(α , n1 + n2 − 2 ) si TS =
( )
YT − YR − θ S
〈 − t (α , n1 + n2 − 2 )
1 1 1 1
σˆ d + σˆ d +
n1 n2 n1 n2
MSE
σl d =
2
(MSE = Mean Square Error din ANOVA),
2
RMSE
deci σl d = (RMSE = Root Mean Square Error)
2
Observam ca procedeul celor doua teste t unilaterale este echivalent
cu metoda clasica de testare a includerii intervalului de incredere pentru
μT − μ R cu probabilitatea (1 − 2α ) *100% in intervalul de acceptare.
148
II. Statistica matematica si biostatistica Estimarea bioechivalentei
⎛μ ⎞
mediilor netransformate ln⎜⎜ T ⎟⎟ .
⎝ μR ⎠
Intr-adevar, fie E ( X T ) = μT , E(X R ) = μ R , E (ln X T ) = μ T∗ si
D(ln X T ) = D(ln X R ) = σ 2
Avem:
μT = E ( X T ) = E ( eln X T
) ≅ E ⎛⎜⎝1 + ln X T +
1
2
( ln X T ) ⎞⎟ =
2
⎠
σ2
= 1 + μT∗ + E ( ln X T ) = 1 + μT∗ + (σ 2 + μT∗ 2 ) = e μT +
1 2 1 ∗
2 2 2
μ R∗ σ2
Similar obtinem: μ R = e +
2
σ μ T∗
2
e +
μT 2 si cum σ este de asteptat sa fie
2
Ca urmare ln = ln
μR μ σ2 ∗2
e R
+
2
μ R∗ μ T∗
foarte mic in raport cu e si e , avem :
∗
μT e μT
ln ≅ ln μ ∗ = μT∗ − μ R∗
μR e R
149
II. Statistica matematica si biostatistica Estimarea bioechivalentei
2
Hollander M, Wolfe D A, Non-parametric Statistical Methods,Wiley, New York, 1973
3
Steinijens V W, Diletti E, Statistical Analysis of Bioavailability Studies: Parametric and
Non-parametric Confidence Intervals, Eur. J. Clin. Pharmacol 24, 127-136,1983
150
II. Statistica matematica si biostatistica Estimarea bioechivalentei
4
A.Medvedovici, F.Albu, C.Georgita, C.Mircioiu, V.David, A non-extracting procedure
for the determination of meloxicam in plasma samples by HPLC-diode array
detection,Arzneimittel Forschung/Drug Research,.55 (6), 326-331 (2005).
152
II. Statistica matematica si biostatistica Estimarea bioechivalentei
Tabel 20
Studiem mai intai diferentele dintre AUC pentru medicamentul testat si
referinta.
Subject 1 3 5 6 7 8 10 11 12
AUC-R 36720,9 64049,3 47631,2 3493,65 24162,6 21132,1 21583,9 40403,4 24822,5
AUC-T 44936 65279,3 50453,6 12607,7 42293 25032,7 39923,9 77950,8 34553,1
AUCT − AUC R 8215 1230 2822 9114 18130 3901 18340 37547 9731
Subject 13 15 16 17 18 19 20 21 23
AUC-R 24918,4 21321,7 29062,7 25463,2 17423,4 48653,8 19775,6 31387,9 23702,3
AUC-T 25216,9 40641,6 37064,5 37006,7 19996,4 38427,8 30947,5 24931,7 35726,4
AUCT − AUC R 299 19320 8002 11544 2573 -10226 11172 -6456 12024
Tabel 21
Valorile egale (diferenta este zero) sunt inlaturate din calculele urmatoare.
Diferenta egala cu zero nu contribuie cu noi informatii privind diferenta
dintre tratamente. Vom ordona crescator aceste diferente netinandu-se cont
de semn (Tabel 22).
Subject 13 3 18 5 8 21 16 1 6
AUCT − AUC R 299 1230 2573 2822 3901 -6456 8002 8215 9114
Rang 1 2 3 4 5 6 7 8 9
Subject 12 19 20 17 23 7 10 15 11
AUCT − AUC R 9731 -10226 11172 11544 12024 18130 18340 19320 37547
Rang 10 11 12 13 14 15 16 17 18
153
II. Statistica matematica si biostatistica Estimarea bioechivalentei
Subject 13 3 18 5 8 21 16 1 6
AUCT − AUC R 299 1230 2573 2822 3901 -6456 8002 8215 9114
Rang + semn 1 2 3 4 5 -6 7 8 9
Subject 12 19 20 17 23 7 10 15 11
AUCT − AUC R 9731 -10226 11172 11544 12024 18130 18340 19320 37547
Tabel 23
Astfel, subiectul 21 care avea inainte rangul 6 va capata rangul -6
deoarece diferenta pentru acest subiect este negativa. Acelasi lucru se va
intampla si cu subiectul 19 care va capata rangul -11.
Vom calcula suma rangurilor pozitive si suma rangurilor negative:
R+ = 1 + 2 + 3 + 4 + 5 + 7 + 8 + 9 + 10 + 12 + 13 + 14 + 15 + 16 + 17 + 18 = 154
si R− = 6 + 11 = 17
In tabelul de mai jos sunt prezentate valorile “critice” ale celor doua
sume de ranguri necesare pentru nivelul de semnificatie 5%, respectiv 1%,
pentru N valori (N se considera numarul de perechi excluzand perechile a
caror diferenta este 0). Cea mai mica suma a rangurilor trebuie sa fie cel
mult egala cu cea din tabelul de mai jos (tabel 24)pentru a considera cele
doua grupuri de rezultate ca fiind diferite la nivelul de incredere specificat.
Numarul de α = 0,05 α = 0,01
subiecti N
6 0 -
7 2 -
8 3 0
9 5 1
10 8 3
11 10 5
12 13 7
13 17 10
14 21 13
15 25 16
16 30 19
17 35 23
18 40 28
19 46 32
20 52 37
154
II. Statistica matematica si biostatistica Estimarea bioechivalentei
155
II. Statistica matematica si biostatistica Estimarea bioechivalentei
Subiect 1 3 5 6 7 8 10 11 12
C max R 923 1739 770 173 795 698 918 707 1381
C max T 1289 1856 728 639 1726 1028 1626 799 1206
T/R 1,39 1,06 0,94 3,69 2,17 1,47 1,77 1,95 1,50
Subiect 13 15 16 17 18 19 20 21 23
C max R 927 641 643 879 787 1795 865 1030 1401
C max T 1048 1241 968 1132 981 1654 1590 809 1768
T/R 1,13 1,93 1,50 1,28 1,24 0,92 1,83 0,78 1,26
Tabel 25
156
II. Statistica matematica si biostatistica Estimarea bioechivalentei
157
III. Statistica matematica si biostatistica Estimarea bioechivalentei
158
III. Statistica matematica si biostatistica Estimarea bioechivalentei
H 02 : θ U∗ ≥ 0 vs H A 2 : θ U∗ 〈 0 unde θ U∗ = θ − θ U
In vederea testarii ipotezelor enuntate consideram combinatia
(“contrastul”):
⎧d − θ h ; h = L,U pentru subiectii din sec venta 1
bhik = ⎨ ik ,
⎩ d ik ; pentru subiectii din sec venta 2
unde:
• i = 1, nk , k = 1,2 , reprezinta numarul de subiecti in cele doua
secvente
P − P1
• d ik = 2 este jumatate dintre diferentele intre cea de-a II a
2
perioada si prima perioada
• h = L sau U dupa cum ne referim la compararea cu limita inferioara
sau cea superioara a intervalului de acceptare a bioechivalentei
159
III. Statistica matematica si biostatistica Estimarea bioechivalentei
i =1 i =1
n (n + 1) n (n + 1)
variabilele aleatoare WL = RL − 1 1 si WU = RU − 1 1 .
2 2
n(n + 1)
Inlocuirea sumei rangurilor R cu R − este “testul Mann –
2
Whitney” care insa este in esenta acelasi test.
n1 (n1 + n2 + 1) n1 (n1 + 1) n1 n2
E (W L ) = E (WU ) = − =
2 2 2
si
n1 n2 (n1 + n2 + 1)
D(W L ) = D(WU ) =
12
Tragem concluzia ca produsele sunt bioechivalente atunci cand
amandoua ipotezele H 01 si H 02 sunt respinse.
Deci, relatia: WU ≤ w(α ) si WL 〉 w(1 − α )
unde valorile w(α ) se gasesc in tabele, iar valorile complementare se
calculeaza cu formula: w(1 − α ) = n1 n2 − w(α ) , implica biochivalenta celor
doua produse.
160
III. Statistica matematica si biostatistica Estimarea bioechivalentei
D (W L ) = D (WU ) = n1 n 2 (n1 + n 2 + 1 − Q ) ,
1
12
1
( )
k
unde Q = ∑ rν − rν .
3
(n1 + n2 )(n1 + n2 − 1) ν =1
Cand numarul de valori este suficient de mare (de exemplu, mai
mare de 40) se poate folosi aproximatia normala:
n1 (n1 + n2 + 1)
RL −
WL − E (WL ) 2
ZL = = si
D(WL )
n1 n2 (n1 + n2 + 1)
1
12
n1 (n1 + n2 + 1)
RU −
WU − E (WU ) 2
ZU = =
D(WU )
n1 n2 (n1 + n2 + 1)
1
12
Vom compara AUCtot pentru studiul de bioechivalenta privind
produsul MELOXICAM testat(T) si referinta (R) efectuat pe 18 subiecti.
Subiecti 1 6 7 10 11 15 19 20 21
secv 1 RT RT RT RT RT RT RT RT RT
P1 36721 3494 24163 21584 40403 21322 48654 19776 31387
Subiecti 3 5 8 12 13 16 17 18 23
secv 2 TR TR TR TR TR TR TR TR TR
P1 65279 50454 25033 34553 25217 37065 37007 19996 35726
P2 − P1
Vom calcula d ik = = jumatate dintre diferentele intre cea de-
2
a II a perioada si prima perioada
Calculam
161
III. Statistica matematica si biostatistica Estimarea bioechivalentei
AUCR =
∑ AUC R
=
n1 + n2
36721 + 3494 + ... + 31387 + 64049 + 47631 + ... + 23702
= = 44900
9+9
Determinam: − θ L = θ U = 0,2 * AUC R = 8980
Deci,
bL11 = d11 − θ L = 4108 + 8980 = 13088 ,…..,
bL 91 = d 91 − θ L = −3228 + 8980 = 5752
bU 11 = d11 − θ U = 4108 − 8980 = −4872 ,…,
bU 91 = d 91 − θ U = −3228 − 8980 = −12208
bL12 = bU 12 = d12 = −615 , ……., bL 92 = bU 92 = d 92 = −6012
Ordonam descrescator valorile absolute ale lui bLik , respectiv bUik si
vom determina rangurile corespunzatoare R(bLik ) , respectiv R(bUik ) .
RL = ∑ R(bLi1 ) = 7 + 6 + 4 + 3 + 1 + 2 + 13 + 5 + 10 = 51
n1
i =1
n1 (n1 + 1) 9 *10
WL = RL − = 51 − =6
2 2
RU = ∑ R(bUi1 ) = 6 + 8 + 18 + 16 + 3 + 14 + 1 + 10 + 2 = 78
n1
i =1
n1 (n1 + 1) 9 * 10
WU = RU − = 78 − = 33
2 2
162
III. Statistica matematica si biostatistica Estimarea bioechivalentei
2.13.3.4.Calculul parametric
--------------------------------------------------------------------------------
BIOEQUIVALENCE TESTS FOR
Level R and level T
Reference Confidence Interval: [ 0.8, 1.25]
Geomean Ratio (Test/Reference) = 1.20758
90% standard confidence interval
(around the ratio:[test form]/[ref form])=[ 0.87528, 1.666]
t(0.05 - 16df) = 1.7459
164
III. Statistica matematica si biostatistica Estimarea bioechivalentei
2.13.4.Compararea rezultatelor
Este de observat ca testele neparametrice, la fel ca cele parametrice
indica faptul ca cele doua produse nu sunt bioechivalente. Aceasta deoarece
intr-adevar la aproape toti subiectii avem:
AUC totR 〈 AUC tot
T
21 23 21 23
C m a x (n g / m L )
200000 1000
100000 500
0 0
R T R T
TreatmentName TreatmentName
Fig. 10Valorile AUCtot pereche pentru R si T Fig. 11Valorile Cmax pereche pentru R si T
165
III. Statistica matematica si biostatistica Estimarea bioechivalentei
166
II. Statistica matematica si biostatistica Teste statistice de discordanta
168
II. Statistica matematica si biostatistica Teste statistice de discordanta
∑(x − x )
2
i n , n −1
i =1
,
∑( x − x)
n 2
i
i =1
n−2
∑x i
unde x n ,n −1 = i =1
poate fi folosit pentru testarea a două valori aberante
n−2
superioare xn şi xn-1 dintr-o populaţie normal distribuită.
169
II. Statistica matematica si biostatistica Teste statistice de discordanta
7. Statistici W.
Aceste teste se bazează pe rapotul dintre pătratul unei combinaţii liniare a
tuturor datelor şi suma pătratelor abaterilor faţă de medie.
W =
(∑ wi xi )
2
∑ xi − x
2
( )
(ponderile w , calculate in functie de parametrii selectiei , se gasesc in
tabele).
O situaţie specială apare atunci când avem un grup de valori
anormale superior sau inferior şi când testele enumerate mai sus nu pot pune
în evidenţă aberaţii datorită unui efect de mascare. De aceea s-au conceput
teste pentru evaluarea mai multor valori aberante simultan (proceduri bloc).
Alte teste examinează valorile extreme secvenţial. În fapt acestea
examinează în principal valoarea aberantă maximă pe baza unui test deviaţie
/ dispersie şi dacă xn se devedeşte valoare aberantă el se repetă operaţia
pentru xn-1 pe proba redusă. Procedura se continuă până când se găseşte o
valoare neaberantă.
Aplicarea unui test sau altul ne poate duce la concluzii in general
diferite, in final decizia privind declararea unei valori ca discordante tinand
de analiza fenomenului.
Exemplu: 1, 5, 11, 4, 2, 6, 3
O prima masura de precautie pe care trebuie sa o luam este aceea de
a verifica faptul ca distributia datelor nu se modifica radical prin
schimbarea unitatilor de masura, deci la schimbari liniare sau la schimbarea
de la o distributie normala la una exponentiala.
170
II. Statistica matematica si biostatistica Teste statistice de discordanta
Fig. nr. 6
Motivul pentru care o prima sau ultima valoare pot fi considerate ca
discordante este acela ca aceste valori apar a fi foarte separate de de restul
datelor , in raport cu imprastierea datelor din selectie.
Aceasta ne duce in mod natural la ideia unei statistici bazata pe
raportul A/D unde A este abaterea valorii extreme fata de restul datelor iar
D este o masura a dispersiei datelor .
Pe post de A putem lua de exemplu diferenta intre valoarea extrema
si urmatoarea valoare, cea mai apropiata de ea x7 − x6 , sau distanta intre
aceasta si restul datelor considerate ca un grup x7 − M , unde M este media
celorlalte 6 valori.
Pentru D putem considera fie lungimea intervalului de valori
x 6 − x1 , sau distanta intre urmatoarele doua valori x6 − x5 care este cu mult
mai mic decat x7 − x6 , sau dispersia primelor 6 valori
Consideraţiile de mai sus sugerează următoarele statistici pentru
testarea valorilor extreme:
x −x 5 x −x 5
y ( 6, 7 ; 1, 6 ) = 7 6 = = 1 ; y ( 6, 7 ; 5, 6 ) = 7 6 = = 5
x6 − x1 5 x6 − x5 1
x7 − x′ 11 − 3,5
T′ = = = 2,14
s′ 3,5
xs − xr
Statisticile sunt de forma y ( r , s ; p, q ) =
xq − x p
Am putea lua de exemplu, la numitor în prima statistică întregul
domeniu de variaţie al valorilor
x −x 5
y ( 6, 7 ;1, 6 ) = 7 6 = = 0,5
x7 − x1 10
171
II. Statistica matematica si biostatistica Teste statistice de discordanta
x5 − x′ x −x
iar în loc de T ′ = sa folosim T = 5 , dar statisticile rămân în
s′ s
esenţă aceleaşi.
Consideram spre exemplu valorile concentratiilor maxime ale
MELUOL , un metabolit activ al nicergolinei la 24 de voluntari sanatosi.
Pentru a lua o decizie cat mai corecta, vom examina atat valorile
individuale, cat si raportul valorilor pentru un acelasi voluntar.
Mai mult decat atat, pentru a avea si o imagine a acestor valori si a
raportului dintre ele, considera reprezentarile valorilor pentru medicamentul
de referinta (R ) si pentru cel testat ( T ) precum si a raporturilor T/R si a
„dependentei” T ( R ) ( care, daca valorile s-ar corela perfect, ar trebui sa
fie o dreapta).
172
II. Statistica matematica si biostatistica Teste statistice de discordanta
Fig. nr. 7
T(R)
CMAX,T (ng/ml)
70.00
CMAX,R (ng/ml)
60.00
60.00
R2 =0.7497
50.00
50.00
40.00
40.00
30.00
30.00
20.00
20.00
10.00
10.00
0.00
0.00
0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00
0 5 10 15 20 25 30
Fig. nr. 8
T 60
R
T/ R
70
300
60 50
250
50
40
200
40
30
150
30
100
20
20
50
10 10
0 1 3 5 7 9 11 13 15 17 19 21 23
1 3 5 7 9 11 13 15 17 19 21 23 0
1 3 5 7 9 11 13 15 17 19 21 23
173
II. Statistica matematica si biostatistica Teste statistice de discordanta
174
II. Statistica matematica si biostatistica Teste statistice de discordanta
175
II. Statistica matematica si biostatistica Teste statistice de discordanta
176
II. Statistica matematica si biostatistica Teste statistice de discordanta
177
II. Statistica matematica si biostatistica Teste statistice de discordanta
178
II. Statistica matematica si biostatistica Teste statistice de discordanta
10
1
0 5 10 15 20 25 30
time ( hours)
Fig. 12
Datele de la 4 h la 8 h se inscriu pe o dreapta , iar datele de la 8 h la
24 h pe o alta dreapta. Deci avem un timp de injumatatire de distributie si un
timp de injumatatire de eliminare. O analiza pur si simplu statistica ar duce
la concluzia ca ultimele doua puncte reprezinta valori discordante.
Compararea datelor privind farmacocinetica nicergolinei la mai multi
voluntari duce la concluzia ca nu este vorba de o supraestimare a
concentratiilor la ultimele doua puncte ci efectiv avem doua faze de
eliminare din sange.
Din alt unghi privind lucrurile, intr-un grup de subiecti caracterizati
printr-o eliminare monoexponentiala si deci, in reprezentarea logaritmica cu
inscrierea punctelor dincolo de tmax pe o dreapta, pot aparea unul sau mai
multi voluntari cu eliminare biexponentiala. In fapt este posibil ca toti
179
II. Statistica matematica si biostatistica Teste statistice de discordanta
IX
600 X
XI
XII
XIII
XIV
300 XV
XVI
XVII
XVIII
XIX
XX
0 XXI
96 144 XXII
XXIII
time (hour) XXIV
Figura 13.
180
II. Statistica matematica si biostatistica Teste statistice de discordanta
300
T
R
concentration (ng/ml)
200
100
0
96 144
time (hour)
Figura 14
De fapt, dupa cum este prezentat in capitolul privind evaluarea
statistica a bioechivalentei, ceea ce importa cu mult mai mult, este
intravariabilitatea, variabilitatea unui subiect fata de sine insusi, in cele doua
perioade ale experimentului.
Dupa cum se vede in figura 15, cei doi “ouliers” in ceea ce priveste
intravariabilitatea au si o variatie semnificativa intre cele doua perioade,
deci eliminarea lor poate fi luata in consideratie.
In acest caz insa, curbele din figura 14 vor deveni si mai apropiate si
nu se va schimba decizia privind bioechivalenta.
1000
concentration (ng/ml)
500
Figura 15
181
II. Statistica matematica si biostatistica Teste statistice de discordanta
1.6
Concentration (ug/ml)
0.8
R
T
0
0 12
time (h)
Figura 16.
Dupa cum se vede din figura 17, cele doua curbe difera foarte mult.
Medicamentele sunt foarte apropiate in ceea ce priveste mediile lor, dar
difera foarte mult la acelasi individ in perioade diferite, ceea ce reprezinta o
intravariabilitate mare, caracteristica clasei “conazolilor” (ketoconazol,
fluconazol, itraconazol etc.).
182
II. Statistica matematica si biostatistica Teste statistice de discordanta
Figura 17.
Aparent acelasi caz ar fi si in figura 18. Spunem ca aparent, deoarece
in cazul acidului mefenamic diferentele intre formularile farmaceutice sunt
foarte frecvente si este vorba efectiv de bio-inechivalenta.
Mean plasma levels of mefenamic acid
7
3.5
R
T
0
0 4 8 12 16 20 24
Time (hours)
Figura nr. 18
In concluzie, problema eliminarii unor puncte, sau a unor curbe, sau
a multimii curbelor pentru un subiect dat, nu este in principal o problema
de statistica ci una tinand de analiza fenomenului studiat, de variabilele ce-l
determina si de modelul teoretic urmat.
183
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
μ1 − μ 2 − −
− − σ 12 σ 22 (σ
2
+ σ 22 )
Y1−Y 2 (Y 1 − Y 2 ) ± z α + n = zα2 1
2
n n 2
E2
p p̂ pˆ qˆ
pˆ qˆ n = z α2 *
pˆ ± z α
n 2
E2
2
p1 − p 2 pˆ 1 − pˆ 2 pˆ 1 − pˆ 2 ±
n = zα2 *
( pˆ1qˆ1 + pˆ 2 qˆ2 )
pˆ 1 (1 − pˆ 1 ) pˆ 2 (1 − pˆ 2 ) 2
E2
± zα +
2
n n
185
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
186
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
187
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
si de aici
σ 2 [zα + z β ]2
n=
Δ2
Acest rezultat este adevarat si pentru cazul cand ipoteza alternativa este
H a : μ < μ0 .
Pentru a testa ipoteza bilaterala
H 0 : μ = μ0
vs. H a : μ = μ 0 − Δ sau H a : μ = μ 0 + Δ
H 0 este respinsa in zona critica, adica pentru
x − μ0 x − μ0
〉z sau 〈−z .
σ 1−
α
2
σ 1−
α
2
n n
Deci
⎛ ⎞
⎜ x−μ x − μ0 ⎟
1− β = P ⎜ 0
〈 zα sau 〉 z α μ = μ1 ⎟ =
⎜ σ 2
σ 1−
2 ⎟
⎜ ⎟
⎝ n n ⎠
⎛ σ σ ⎞
P ⎜ x 〈 μ0 + zα * sau x 〉 μ0 + z α * μ = μ1 ⎟ =
1−
⎝ 2 n 2 n ⎠
⎛ ⎞
⎜ x−μ μ −μ x − μ1 μ0 − μ1 ⎟
= P⎜ 1
〈 0 1
+ zα sau 〉 +z α ⎟
⎜ σ σ 2
σ σ 1−
2 ⎟
⎜ ⎟
⎝ n n n n ⎠
x − μ1
Deoarece media adevarata este μ1 , este repartizat N (0,1) . Prin
σ
n
urmare
⎛ ⎞ ⎛ ⎞
⎜ ⎟ ⎜ ⎟
μ − μ1 ⎟ + 1 − Φ⎜ μ 0 − μ1 + z
1 − β = Φ⎜ 0 + zα ⎟
⎜ σ ⎟ ⎜ σ 1−
α
⎟
⎜ 2
⎟ ⎜ 2
⎟
⎝ n ⎠ ⎝ n ⎠
188
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
⎛ ⎞
μ − μ1 ⎜ ⎟
Pentru 0 〈 − 0.5 se poate considera ca Φ⎜ μ 0 − μ1 + z ⎟ ≅ 0 , si deci
σ ⎜ σ α
⎟
⎜
2
⎟
n ⎝ n ⎠
⎛ ⎞
⎜ ⎟
μ − μ1
β = Φ⎜ 0 +z α ⎟
⎜ σ 1− ⎟
⎜ 2
⎟
⎝ n ⎠
Conform definitiei avem Φ (z β ) = β , z α = − zα si ca urmare
1−
2 2
μ − μ1 σ μ − μ1
zβ = 0 − z α si = 0 .
σ 2 n z α + z β
2
n
Scotand pe n din ecuatie obtinem:
2
⎛ ⎞
σ ⎜⎜ z α + z β ⎟⎟
2
n= ⎝ 2 ⎠
(μ 0 − μ1 ) 2
n= ⎝ 2 ⎠
( Δ% )
2
189
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
P − E ( P) P − p0
= ≈Z
D( P) p0 q0
n
⎧ ⎫
⎪ p− p ⎪ ⎧ ⎫⎪
⎪ ⎪ ⎪ p0 qo
β =⎨ 0
〉 zα p = p1 ⎬ = ⎨ p〉 p 0 + zα p = p1 ⎬ =
⎪ p0 qo ⎪ ⎪⎩ n ⎪⎭
⎪⎩ n ⎪⎭
⎧ ⎫
⎪p− p p − p p 0 q o ⎪⎪
⎪
=⎨ 1
〉 0 1
− zα ⎬
⎪ p1 q1 p1 q1 p1 q1 ⎪
⎪⎩ n n ⎪⎭
Δ p0 q0
zβ = − zα
p1 q1 p1 q1
n
p0 q0 Δ
z β + zα = n
p1 q1 p1 q1
In concluzie rezulta pentru n :
2
⎛ zβ p1 q 1 + z α p0 q 0 ⎞⎟
⎜ =n
⎜ Δ ⎟
⎝ ⎠
191
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
2 2
⎡ ⎤ ⎡ ⎤
(σ + σ ) ⎢ z α + z β ⎥
2
1
2
2 2σ 2 ⎢ z α + z β ⎥
n= ⎣ 2 ⎦ = ⎣ 2 ⎦
Δ 2
Δ 2
n=
[ ]
(σ 12 + σ 22 ) zα + z β
2
Δ2
De retinut ca atunci cand dispersia populatiei este necunoscuta,
alegerea marimii lotului nu este o problema usoara.
De exemplu, in testarea ipotezei nule in expresia
H0 : μ = μ 0
vs. H a : μ > μ 0
−
Y − ( μ 0 + Δ)
cand valoarea adevarata este μ = μ 0 + Δ , statistica urmeaza o
s/ n
distributie t necentrata cu parametrul de ne-centrare δ = Δ / σ .
192
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
193
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
p + p2
unde p = 1 .
2
Reamintim ca:
⎛ SSA ⎞ n k 2 ⎛ SSE ⎞
E ( MSA) = E ⎜ ⎟ = σ 2
+ ∑ τ i si E ( MSE ) = E ⎜⎜ ⎟⎟ = σ 2
⎝ k −1⎠ k − 1 i =1 ⎝ k (n − 1) ⎠
195
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
Placebo pentru k = j
T( j ,k ) =
Medicamentul testat pentru k ≠ j, k = 1, 2; j = 1, 2
si eijk eroarea in masuratori.
Pentru modelul (4) se presupune ca {S ik } sunt distribuite
independent si identic cu media zero si dispersia σ S2 si {eijk } sunt distribuite
independent cu media zero si dispersia σ 2 . Se presupune ca {S ik } si {eijk }
sunt independente intre ele. Sa testam urmatoarele ipoteze:
H 0 : μT = μ P
vs H a : μT ≠ μ P (5)
Consideram diferentele intre perioade pentru fiecare voluntar in
interiorul fiecarei secvente definite:
1
d ik = (Yi 2 k − Yi1k ),
2
unde i = 1,2, …, n k , k = 1, 2.
Un test pentru ipotezele (5) poate fi un test t bilateral dupa cum
urmeaza:
− −
Y T − YP
Td = ,
1 1
σˆ d +
n1 n2
− 1 − − − 1 − −
unde YT = (Y . 21 + Y . 12 ) , YP = (Y . 11 + Y . 22 ) si
2 2
2 nk
1 − − 1 nk − 1 nk
σˆ d = ∑∑ (d ik − d . k ) , Y . jk = n ∑
n1 + n2 − 2 k =1 i =1
2
Yijk , d . k = ∑ d ik
nk i =1
k i =1
196
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
197
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
H 01 : μ T − μ R = − Δ vs. H a1 : μ T − μ R = 0
⎛ ⎞
⎜ x+Δ
1 − β = P ( respinge H 0 H a ade var ata ) = P 〉 t1−α ,2 n − 2 μT = μ R ⎟ =
⎜ ⎟
⎜ σˆ d 2 ⎟
⎝ n ⎠
⎛ ⎞
⎜ Δ
μT = μ R ⎟⎟
x
= P⎜ 〉 t1−α ,2 n − 2 −
⎜ σˆ d 2 σˆ d 2 n ⎟
⎝ n ⎠
⎛ ⎞
⎜ Δ
μT = μ R ⎟⎟
x
1− β = 1− P ⎜ 〈 t1−α ,2 n − 2 −
⎜ σˆ d 2 σˆ d n 2 ⎟
⎝ n ⎠
Δ
tβ ,2 n − 2 = t1−α ,2 n − 2 −
σ d 2n
Δ
= t1−α ,2 n − 2 − tβ ,2 n − 2 = t1−α ,2 n − 2 + t1− β ,2 n − 2
σd n
ˆ 2
2 σˆ
2
n = 2 ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * d2
Δ
In fapt noi am notat
X = X T − X R si σ 2 = σ d 2 ,
σ2
dar dupa cum s-a arata anterior,
σ =2 e
2 , deci
d
198
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
2 σ
2
1
n = ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * 2e
2 Δ
σe
μ2 CV = *100
Impartind termenii raportului cu si tinand cont ca μ
se obtine pentru numarul de subiecti in fiecare secventa:
2
1
n = ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * '2
2 CV
2 Δ ,
Δ
Δ ' = *100
unde μ
Δ ' = 0, 2
Pentru cazul bioechivalentei si pentru intreg experimental,
2
n = ( t1−α ,2 n − 2 + t1− β ,2 n − 2 ) * 2
2 CV
20
Pornind de la grupul 2 de ipoteze se obtine
H 01 : μ T − μ R = Δ
H 02 : μ T − μ R = 0
1 − β = P(respinge H 0 H a ade var ata )
⎛ ⎞
⎜ ⎟
⎜ X −Δ
1− β = P 〈 t2 n − 2,α μT − μ R = 0 ⎟ =
⎜ σˆ ⎟
⎜ 2 ⎟
⎝ n ⎠
⎛ ⎞
⎜ ⎟
X Δ
= P⎜ 〈 +t2 n − 2,α μT − μ R = 0 ⎟
⎜ σˆ σˆ ⎟
⎜ 2 2 ⎟
⎝ n n ⎠
199
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
μT − μ R = θ 0
De regula pentru produsele bioechivalente θ0 este mai mic decat
7% din μ R .
Consideram din nou o ipoteza simplificata:
H 02 : μ T − μ R = Δ vs H a 2 : μT − μ R = θ 0 si notam
X = XT − X R
si vom folosi statistica
X T − X R − ( μT − μ R ) X − θ0
T2 n − 2 = =
σ d 1/ n + 1/ n σd 2/ n
Calculam dupa acelasi procedeu ca mai sus numarul n de subiecti
necesari pantru a asigura o putere data :
1 − β = Φ (θ ) = P ( respinge H 0 H a ade var ata ) =
⎛ X −Δ ⎞
= P⎜ 〉 t α μT − μ R = θ0 ⎟ =
⎜ σˆ 2 n 1− , 2 n − 2 ⎟
⎝ 2 ⎠
⎛ X − θ0 Δ − θ0 ⎞
= P⎜ 〉 +t α μT − μ R = θ0 ⎟
⎜ σˆ 2 n σˆ 2 n 1− , 2 n − 2 ⎟
⎝ 2 ⎠
⎛ Δ − θ0 ⎞
β = P ⎜ T2 n −2 ≤ +t α μT − μ R = θ 0 ⎟
⎜ σˆ 2 n 1− 2 , 2 n − 2 ⎟
⎝ ⎠
Δ − θ0
Deci σˆ 2 n + t1−α ,2 n −2 = tβ ,2 n −2
2
2
⎛ ⎞ σˆ 2
de unde n = 2 ⎜ tα ,2 n − 2 + tβ ,2 n − 2 ⎟ *
⎠ (Δ −θ )
2
⎝ 2
Observam ca puterea depinde de θ , iar numarul de subiecti necesar
pentru detectarea unei diferente semnificative clinic data este cu atat mai
mare cu cat cele doua medicamente sunt mai apropiate.
200
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
1
Sam H. Haidar, Hyojong (Hue) Kwon, Robert Lionberger and Lawrence Yu,
Biopharmaceutics Applications in Drug Development, J.E. Henney, JAMA 282: 1995,
1999
201
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
σ ⎛⎜ z + z ⎞⎟
2
σ ⎛⎜ z + z ⎞⎟ 2
n= ⎝ ⎠ = ⎝ α
2 ⎠β α
2
β
(μ − μ ) 0
Δ 1
2 2
202
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
2
⎛ ⎞
σ 2 ⎜⎜ z α + z β ⎟⎟
⎝ ⎠ 0 . 2 2 (1 . 64 + 1 . 28 ) 2
n = 2
= ≈ 9
Δ2 0 .2 2
⎧ H 0 : p1 − p 2 = 0
⎨
⎩ H a : p1 − p 2 = Δ
Cunoscandu-se puterea testului π = 1 − β vom determina marimea
esantionului.
Conform definitiei puterea testului este:
π = 1 − β = 1 − P(accepta H 0 H a ade var ata ) = P(respinge H 0 H a ade var ata )
Deci,
⎛ ⎞
⎜ ⎟
⎜ pˆ 1 − pˆ 2 ⎟
1 − β = P⎜ 〉z α p1 − p 2 = Δ ⎟ =
⎜ ⎛1 1 ⎞ 1−
2 ⎟
⎜⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟⎟
⎝ ⎝ n1 n2 ⎠ ⎠
⎛ ⎛1 1 ⎞ ⎞
= P⎜ pˆ 1 − pˆ 2 〉 z α pˆ qˆ ⎜⎜ + ⎟⎟ p1 − p 2 = Δ ⎟
⎜ 1−
⎝ n1 n2 ⎠ ⎟
⎝ 2 ⎠
Vom scadea Δ din ambii membri ai inecuatiei precedente si vom obtine:
⎛ ⎛1 1 ⎞ ⎞
1 − β = P⎜ pˆ 1 − pˆ 2 − Δ 〉 z α pˆ qˆ ⎜⎜ + ⎟⎟ − Δ p1 − p 2 = Δ ⎟ =
⎜ 1−
⎝ n1 n2 ⎠ ⎟
⎝ 2 ⎠
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ pˆ − pˆ − Δ ⎝ n1 n2 ⎠ Δ ⎟
= P⎜ 1 2
〉z α − p1 − p 2 = Δ ⎟
⎜ pˆ 1 qˆ1 pˆ 2 qˆ 2 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜ n + 2
+ + ⎟⎟
n2 n1 n2 n1 n2
⎝ 1
⎠
Dar,
pˆ 1 − pˆ 2 − Δ
Z= ∈ N (0,1) si obtinem:
pˆ 1 qˆ1 pˆ 2 qˆ 2
+
n1 n2
204
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
1 − β = P⎜ Z 〉 z α − p1 − p 2 = Δ ⎟
⎜ 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
1 − P⎜ Z 〉 z α − p1 − p 2 = Δ ⎟ = 1 − (1 − β ) = β
⎜ 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
Deci,
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
1 − P⎜ Z 〉 z α − p1 − p 2 = Δ ⎟ =
⎜ 1− pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
⎛ ⎛1 1 ⎞ ⎞
⎜ pˆ qˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n2 ⎠ Δ ⎟
= P⎜ Z 〈 − z α − p1 − p 2 = Δ ⎟ = β
⎜ pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2 ⎟
⎜⎜
2
+ + ⎟⎟
n1 n2 n1 n2
⎝ ⎠
Dar,
P(Z 〈 z β p1 − p 2 = Δ ) = β , deci
⎛1 1 ⎞
pˆ qˆ ⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠ Δ
zβ = −zα −
pˆ 1 qˆ1 pˆ 2 qˆ 2 pˆ 1 qˆ1 pˆ 2 qˆ 2
2
+ +
n1 n2 n1 n2
205
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
206
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
2
⎛ ⎞
⎜ z α 2 pˆ qˆ + z β pˆ 1 qˆ1 + pˆ 2 qˆ 2 ⎟
⎜ ⎟
In cazul in care n1 = n2 ⇒ k = 1 si n = ⎝ 2 ⎠
Δ2
p1 + p 2
unde p = .
2
2
Salim Yusuf: Overview of Result of Randomized Clinical Trials in Heart Disease. II.
Unstable Angina, Heart Failure, Primary Prevention with Aspirin and Risk Factor
Modification, JAMA 260 (15), 2259-2263, 1988
207
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
α=0,05 si β=0,1
30% ⎯20⎯→
⎯%
24%
30% + 24% 54%
p1 = 0,30 , p 2 = 0,24 si p = = = 27% ⇒ p = 0,27
2 2
Δ = 0,30 − 0,24 = 0,06
2
⎛ 1.96 2 * 0.27 * 0.73 + 1,28 0,3 * 0,7 + 0.24 * 0,76 ⎞
n = ⎜⎜ ⎟ ≅ 1.150
⎟
⎝ 0 , 06 ⎠
Rezultatul se înmulţeşte cu doi pentru că testul se efectuează pe
două loturi identice.
Deci avem nevoie de 2300 subiecti impartiti in 2 loturi. Numarul de
morti prin infarct este de 30% din cei ce nu iau medicamentul (lotul martor)
30
1150 * ≅ 350
100
Rezultatul calculelelor pentru alte combinatii de “rata
evenimentului” si “reducerea riscului” sunt date in tabelul de mai jos.
Procentul de mortalitate %
Reducerea riscului % 10 15 20 30 40
10% 1800 1700 1600 1400 1200
20% 430 400 390 350 300
30% 180 170 165 150 130
40% 100 90 87 80 70
50% 60 55 53 50 45
Test bilateral în care α=0,05; P=0,09.
Avem la dispozitie doua exprimari, amandoua corecte in masura
explicarii clare privind modul de calcul al scaderii. Astfel daca mortalitatea
scade de la 10% la 5% avem o scadere cu 2% in valoare absoluta si cu 20%
relativ la valoarea de referinta.
Atunci cand calculam numarul de subiecti necesari pentru a fi inclusi
in studiu noi evaluam doua ipoteze privind mediile populatiei:
H 0 : μ = μ 0 si H A : μ = μ 0 + Δ
deci diferenta este una absoluta.
Daca insa plasam efectul intr-un cadru mai larg de comparare a
diverselor efecte – in diverse boli, ideea ca orice tratament nu modifica un
marker biologic cu mai mult de 30% din valoarea sa, este un rezultat mult
mai general, global aplicabil multimii markerilor, este semnificativ pentru
boala in sine care este caracterizata de o multime mare de parametri
masurabili sau nu.
208
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
−16%
in cazul aspirinei 80% avem 10% ⎯⎯ ⎯→ 8,4%
pˆ 1 = 0,08 ⇒ qˆ1 = 1 − pˆ 1 = 0,92
pˆ 2 = 0,084 ⇒ qˆ 2 = 1 − pˆ 2 = 0,916
pˆ + pˆ 2
pˆ = 1 = 0,082 ⇒ qˆ = 1 − pˆ = 0,918
2
În acest caz
2
⎛ 1.96 2 * 0.082 * 0.918 + 1,28 0,08 * 0,92 + 0.084 * 0,916 ⎞
n ≥ ⎜⎜ ⎟ ⇒
⎟
⎝ 0, 004 ⎠
n ≥ 98776 in fiecare grup, deci un total de circa 197552 de pacienti cu
infarct, de urmarit un an.
Concluzii
209
II. Statistica matematica si biostatistica
Puterea testului. Calculul numarului de voluntari
3
James A. Reiffel, Peter R. Kowey, Generic Antiarrythmics Are Not Therapeutically
Equivalence for the Treatment of Tachyarrhythmias, The American Journal of Cardiology,
vol. 85, may 1, 2000
210
II. Statistica matematica si biostatistica Distributia binomiala
Tabelul nr. 27
k1 n1 − k1 n1
k2 n2 − k2 n2
k1 + k2 n1 + n2 − ( k1 + k2 ) n1 + n2
unde:
- k1 si k2 numarul succeselor
- n1 − k1 si n2 − k2 numarul esecurilor
- n1 , n2 numarul de incercari si k1 + k2 fixate
211
II. Statistica matematica si biostatistica Distributia binomiala
k +k k 1 +k 2 n 1 + n 2 −( k 1 + k 2 )
P( E2 ) = Cn 11+ n 22 p (1 − p)
( k1 + k2 )! ⎡⎣ n1 + n2 − ( k1 + k2 )⎤⎦ !
k k
Cn 11 Cn 22 n1 !n2 !
PE 2 ( E1 ) = = ⋅
k +k
Cn 11+ n 22 k1 !k2 !(n1 − k1 )!(n2 − k2 )! ( n1 + n2 )!
A a b a+b
B c d c+d
a+c b+d
212
II. Statistica matematica si biostatistica Distributia binomiala
Exemplu.
Din studii anterioare se stia ca proportia de reactii adverse, in special
dureri de cap, la voluntarii sanatosi dupa administrarea isosorbit mononitrat
(ISMN) este de circa 30%.
S-a testat o noua formulare T comparativ cu formularea de referinta
in ceea ce priveste biodisponibilitatea. Protocolul experimentului clinic a
cerut, pe langa compararea biodisponibilitatii, si inregistrarea efectelor
adverse. Experimentul a fost de tip incrucisat, pe 24 voluntari din care, in
prima perioada 12 au primit medicamentul de referinta (R) si 12
medicamentul testat (T). Doi voluntari dintre cei care au primit referinta au
abandonat experimentul. In final numarul voluntarilor cu dureri de cap a
fost de 3 pentru R si 5 pentru T. Deci punand datele in tabelul 2x2 se obtine:
213
II. Statistica matematica si biostatistica Distributia binomiala
⎛ 2 10 12 ⎞
⎜ ⎟ 8!14!12!10! 1
P ⎜ 6 4 10 ⎟ = ⋅ = 0, 04
⎜ 8 14 22 ⎟ 22! 2!6!4!10!
⎝ ⎠
⎛ 1 11 12 ⎞
⎜ ⎟ 1
P ⎜ 7 3 10 ⎟ = c ⋅ = 0, 0045 si
⎜ 8 14 22 ⎟ 1!7!11!3!
⎝ ⎠
⎛ 0 12 12 ⎞
⎜ ⎟ 1
P ⎜ 8 2 10 ⎟ = c ⋅ =0
⎜ 8 14 22 ⎟ 0!8!12!2!
⎝ ⎠
⎛ 5⎞
Deci P ⎜ p ≥ ⎟ = (1,173 + 0, 04 + 0, 0041 + 0 ) > 0,10 . P = 0,213.
⎝ 10 ⎠
Deci, in ipoteza ca cele doua medicamente nu difera in ceea ce
priveste probabilitatea aparitiei efectelor adverse in proportie mai mare de
5
este 0,213.
10
Ca urmare nu putem respinge ipoteza ca minimul de efecte adverse
este mai mare in medicamentul testat decat in cel de referinta doar din
intamplare.
Este de mentionat o restrictie importanta a testului Fisher si anume
aceea ca numarul total de “cazuri” de un anumit tip este constant (in cazul
nostru am ales in consecinta numai combinatiile pentru care numarul total
de subiecti prezentand efecte adverse a fost egal cu 8 asa cum s-a obtinut in
experiment ). De altfel, raportat la un experiment anterior acesta ar fi trebuit
sa fie 6-7. Desi aceasta restrictie este bine cunoscuta ca incorecta, testul
Fisher se aplica in toata lumea fara precautii in ceea ce priveste
verosimilitatea asimilarii practic a tuturor sumelor marginale “constante”.
In continuare sa comparam rezultatul cu rezultatul obtinut din
compararea proportiilor experimentale folosind aproximarea normala.
Pentru a verifica ipotezele
H 0 : p1 = p2 = p
cu α = 0,10, calculam
H A : p1 > p2
214
II. Statistica matematica si biostatistica Distributia binomiala
⎛ 1 1 ⎞
p1 − p2 − ⎜ + ⎟
Z= ⎝ 2n1 2n2 ⎠ , unde pˆ = n1 p1 + n2 p 2 = k1 + k 2 = 3 + 5 = 4
⎛1 1⎞ n1 + n2 n1 + n2 12 + 10 11
pˆ (1 − pˆ ) ⎜ + ⎟
⎝ n1 n2 ⎠
5 3 ⎛ 1 1 ⎞
− −⎜ + ⎟
10 12 ⎝ 20 24 ⎠
Z= = 0, 77
4 7⎛ 1 1⎞
⋅ ⎜ + ⎟
11 11 ⎝ 10 12 ⎠
3 (4,36) 9 (7,64) 12
5 (3,64) 5 (6,36) 10
8 14 22
si mai departe:
215
II. Statistica matematica si biostatistica Distributia binomiala
( Oi − Ei ) ( 3 − 4,36 ) ( 9 − 7, 64 ) ( 5 − 3, 64 ) ( 5 − 6,36 )
2 2 2 2 2
χ =∑
2
= + + + = 1, 46
Ei 4,36 7, 64 3, 64 6,36
Oi = valorile observate
Ei = valorile asteptate (expectation)
216
II. Statistica matematica si biostatistica Distributia binomiala
217
II. Statistica matematica si biostatistica Distributia binomiala
χ 2
( R −1)( C −1) =∑
Ei
unde O sunt valorile observate iar E sunt valorile asteptate (“Expected”).
Pentru calculul valorilor asteptate va trebui sa completam tabelul cu
totalul pe fiecare linie si coloana. Consideram pentru inceput un tabel 2x2
obtinut din tabelul29 prin considerarea numai a doua raspunsuri : “lipsa
efect” si “vindecat”
218
II. Statistica matematica si biostatistica Distributia binomiala
In aceste conditii ∑ Ei
este prin definitie repartizata χ 2
k1 + k 2
iar o estimare naturală a lui p este p = si respectiv
n1 + n2
( n + n ) − ( k1 + k2 )
p= 1 2
n1 + n2
35
In particular cu datele din tabelul 2 vom avea p = 90/125=0.72si = 0.28
125
E(k1)= 60x90/125=43.2 E(k2)= 65x90/125=46.8
E( n1 − k1 )=60x35/125=16.8 E( n2 − k2 )= 65x35/125=18.2
Formam acum un tabel completat cu valorile asteptate ( tabelul 32)
Tabelul 32 Valorile observate si valorile asteptate
lipsa efect vindecat
R 20 (16.8) 40 (43.2) 60
T 15 (18.2) 50 (46.8) 65
total 35 90 125
si calculam valoarea testului
219
II. Statistica matematica si biostatistica Distributia binomiala
χ =
1
2
+ + = +
16.8 18.2 43.2 46.8
⎛ 1 1 1 1 ⎞
3.22 ⎜ + + + ⎟ = 1.62
⎝ 16.8 18.2 43.2 46.8 ⎠
Pentru o semnificatie de 95%, valoarea de prag a lui χ12 este 3.84 .
Deci putem spune ca liniile sunt independente si deci tratamentele
sunt echivalente.
Aplicatie:
Vom testa reactia diferitelor persoane la razele solare in functie de
culoarea ochilor. Vom ordona 107 de subiecti in functie de culoarea ochilor
(albastri, verzi si caprui). Fiecare subiect este expus razelor ultraviolete si
sunt examinate reactiile adverse (jupuire, eritem, fara reactie) dupa 4 ore de
expunere.
Valorile observate sunt prezentate in tabelul urmator:
Reactii adverse Total
Culoare ochilor Jupuire Eritem Non - reactie
Albastri 25 28 6 59
Verzi 5 5 7 17
Caprui 6 10 15 31
Total 36 43 28 107
Valorile asteptate sunt prezentate in tabelul urmator:
Reactii adverse Total
Culoare Jupuire Eritem Non - reactie
ochilor
Albastri 36 43 28 59
59 * = 19,85 59 * = 23,71 59 * = 15,44
107 107 107
Verzi 36 43 28 17
17 * = 5,72 17 * = 6,83 17 * = 4,45
107 107 107
Caprui 36 43 28 31
31 * = 10,43 31 * = 12,46 31 * = 8,11
107 107 107
Total 36 43 28 107
Testul statistic este:
(Oi − E i )2 (25 − 19,85)2 + (28 − 23,71)2 (15 − 8,11)2
χ (23−1)(3−1) = χ 42 = ∑ = + ... + = 18,14
Ei 19,85 23,71 8,11
Pentru un nivel de semnificatie α = 0,10 avem χ 42 = 9,49 si cum
18,14 〉 9,49 vom respinge ipoteza H 0 : reactia nu depinde de culoarea ochilor.
220
II. Statistica matematica si biostatistica Distributia binomiala
χ 2
( R −1)( C −1) =∑
Ei
dar interpretarile calculelor sunt diferite.
Consideram din nou tabelul 30 , unde cele doua criterii de clasificare
sunt medicamentul administrat si efectul obtinut.
222
II. Statistica matematica si biostatistica Distributia binomiala
R
ra N- ra Total
T ra 1 4 5
N- ra 2 5 7
Total 3 9 12
Deci un subiect a avut RA la amandoua medicamentele si 5 nu au
avut la nici unul din cele doua medicamente, comportamentul lor nu ne da
informatii despre diferentele intre medicamente, ci numai despre toxicitatea
substantei active. Informatia despre o eventuala diferenta este cuprinsa in
intregime in celelalte doua cifre (2 si 4).
Daca medicamentele ar fi complet echivalente ar fi de asteptat ca
numarul celor care au avut reactii adverse la R si nu au avut la T sa fie
aproximativ egal cu numarul celor care au avut reactii adverse la T si nu au
avut la R. Deci cei 6 subiecti ar trebui sa fie impartiti in medie la fel.
Deci avem in fapt de evaluat tabelul:
ra la R si n-ra la T 2 ra = reactii adverse
ra la T si n-ra la R 4 n-ra = non-reactii adeverse
Total 6
223
II. Statistica matematica si biostatistica Distributia binomiala
1
Folosind direct distributia binomiala cu p = si n = 6, obtinem:
2
2
1
P ( x ≤ 2 ) = ∑ Cnk p k q n − k si deoarece p = q =
0 2
2
⎛ 6 ⋅ 5 ⎞ 1 22
( )
P ( X ≤ 2 ) = ∑ Cnk p n = Cn0 + Cn1 + Cn2 ⋅ p 6 = ⎜ 1 + 6 +
⎝
⎟ =
2 ⎠ 26 64
= 0,34
0
224
II. Statistica matematica si biostatistica Distributia binomiala
Exemplu
Consideram o clasificare a fumatorilor in ceea ce priveste numarul
de tigari fumate si varsta. Fixam in prealabil numarul de subiecti din grupele
de varsta 20-30, 30-40, 40-50, peste 50 ani si stabilim nivelele de fumatori
0-10, 10-20, peste 20 tigari/zi.
Presupunem ca am obtinut tabelul de mai jos:
100 ⋅140
Exemplu: in prima celula = 31,8 etc .
440
Intr-adevar, daca populatiile sunt omogene sau echivalente si toate
esantioanele provin din aceeasi populatie in ceea ce priveste consumul de
225
II. Statistica matematica si biostatistica Distributia binomiala
226
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
mediul rural si din orase. Maria si Ileana sunt mai mult nume de la sate –
acolo unde asistenta medicala este, din pacate, foarte precara. Depistarea
bolii se face mai tarziu sau prea tarziu si tratamentul este si el “bolnav”.
Intr-un studiu prospectiv se poate urmari omogenitatea loturilor
printr-o judicioasa stabilire a criteriilor de includere / excludere in / din
studiu, ceea ce este mult mai dificil la un studiu preponderent “post –
mortem”.
Riscul expunerii.
PE (D )
Riscul expunerii se defineste prin formula R = se evalueaza
PNE (D )
intr-un studiu prospectiv si este definit ca raportul dintre probabilitatea
imbolnavirii celor expusi si probabilitatea imbolnavirii celor neexpusi
(E – expus, D – disease = boala)
Dar, in case – study, noi nu expunem subiectii, ci consideram
bolnavi. Deci eveniment produs este boala, si obtinem: PD (•)
Pentru simplificare, ne situam in cazul bolilor rare P (ND ) = 1
Pentru probabilitatea de aparitie a bolii la cei expusi folosim formula
Bayes
PD (E )P(D ) PD (E )P(D )
PE (D ) = ≅
PD (E )P(D ) + PND (E )P( ND ) PD (E )P(D ) + PND (E )
si, similar, la cei neexpusi:
228
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
PD (E )[PD (NE )P(D ) + PND (NE )] PD (E )PD (NE )P(D ) + PD (E )PND (NE ) PD (E )PND (NE )
R= = =
[PD (E )P(D ) + PND (E )]PD (NE ) PD (E )P(D )PD (NE ) + PND (E )PD (NE ) PND (E )PD (NE )
229
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
m
OR =
m
pT 1 − m
pC (
unde m
) x
pT = T si m
x
pC = C
m m
pC 1 − pT ( ) nT nC
p
In cazul in care f ( p ) = ln vom avea:
1− p
230
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
2
⎡ ⎤
⎛ p ⎞′ ⎛ p ⎞′ ⎥ p (1 − p )
D ( f ( p ) ) = ⎜ ln ⎟ D ( p ) = ⎢⎜ ln
⎢ ⎟ * =
⎝ 1− p ⎠ ⎝ 1− p ⎠ ⎥ n
⎣ ⎦
1 ⎞ p (1 − p )
2
⎛1 1
=⎜ + ⎟ * =
⎝ p 1− p ⎠ n np (1 − p )
1
Woolf B. On estimating the relationship between blood group and disease, Human
Genet., 19, 251-3, 1955
231
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
⇒ ε * OR = OR − Oˆ R L = W L = e ln (OR ) − e ln (ORL ) =
⎧⎪ ⎫⎪ ⎡ ⎤
⎨ ln (OR )− z α *SE [ln (OR )]⎬ ⎢ − z α *SE [ln (OR )]⎥
ln (OR ) ⎪⎩ 1− ⎪⎭ ⎢⎣ 1− 2 ⎥⎦
=e −e 2
= OR − OR * e
⎧1 ⎡ 1 1 ⎤⎫
ln (1 − ε ) = − z * SE [ln (OR )] = − z * ⎨ ⎢ + ⎥⎬
⎩ n ⎣ P1 (1 − P1 ) P2 (1 − P2 ) ⎦ ⎭
α α
1− 1−
2 2
Rezolvand obtinem:
⎡ 1 1 ⎤
z2 α ⎢ + ⎥
1− P (1 − P1 ) P2 (1 − P2 ) ⎦
2 ⎣ 1
n=
[ln(1 − ε )]2
232
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
B+ B- p
(bolnavi cu cancer gastric) (control) (Procent de boala in grupa)
Grupa sangvina A 100 (a) 5000 (b) 2%
Grupa sangvina 0 50 (c) 5000 (d) 1%
Total 150 10.000
B+ B-
(bolnavi cu cancer gastric) (control)
Grupa sangvina A 180 (a) 9000 (b)
Grupa sangvina O 10 (c) 1000 (d)
190 10.000
2
Aird I, Bentall HH, Roberts JAF: The relationship between cancer of stomach and the
ABO blood groups, Brit Med J, 1, 799, 1953
233
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
In acest caz :
180 9000
p1 − p2 = − = 0, 047
190 10000
Intuitiv, dacă n-ar exista o predispoziţie pentru cancer de stomac la
cei cu grupa A, cele două proporţii ar trebui să fie egale. Şi totuşi, după cum
se poate observa, cele două proporţii din exemplul de mai sus diferă
semnificativ. Acesta este un exemplu în care intuiţia sau logica
convenţională ne poate induce în eroare şi în care metodele statistice ne pot
veni în ajutor.
Woolf a observat deci că diferenţa între cele două proporţii depinde
de numărul de subiecţi cu grupa A şi cu grupa 0 din lotul de control, deci
diferă de la un studiu clinic la altul, chiar dacă rata specifică de atac în
interiorul unui grup sangvin dat rămane constantă.
El a arătat deci, că dacă de exemplu în lotul de control avem 5000 de
subiecţi cu grupa A, si 5000 de subiecţi cu grupa 0 se obţine un rezultat, şi
în cazul în care există 9000 de subiecţi cu grupa A si respectiv 1000 de
subiecţi cu grupa 0 se obtine un rezultat mult diferit de primul caz..
Rezultatele sunt foarte diferite în condiţiile în care proporţia de bolnavi în
cele două grupe rămân constante 2% şi 1%.
În aceste condiţii el a propus înlocuirea testului de comparare a celor
două proporţii aşa cum s-a enuţtat, cu compararea raportului ratelor de
incidenţă 100/5000 şi 50/5000.
Ratele de incidenţă reprezintă proporţiile de bolnavi în cadrul grupei
sangvine A (a/b) şi proporţia de bolnavi din cadrul grupei sangvine 0 (c/d):
a
ad
OR = c =
b bc
d
Pentru compararea ratelor de incidenta, se testează ipotezele:
H 0 : OR = 1 vs H1 : OR ≠ 1
În studiile case-control (caz martor) OR (Odds Ratio) măsoară
asocierea dintre o expunere şi riscul de dezvoltare a unei boli. În cazul
bolilor rare, dupa cum s-a aratat mai sus, OR redă o estimare destul de
precisă a riscului relativ (RR).
234
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
3
Mantel N., Haenszel W, Statistical aspects of the analysis of data from retrospective
studies of disease, JNCI 1959, 22:719-748
235
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
ai di bi ci bi ci
ni
∑ ∑ ni
Ψi
ni
Ψi
=∑
bjc j ∑ i i
m =Ψ
OR = = = wΨ ,
MH
bi ci bi ci
∑n ∑n ∑j n
i i j
bi ci
ni
unde wi = poate fi interpretata ca ponderea componentei Ψ i in
bjc j
∑ nj
suma.
Facem observatia ca ponderile wi sunt in fapt estimari ale inversului
dispersiilor componentelor Ψ i .
In anumite conditii restrictive, aplicand metoda verosimilitatii
maxime se poate arata ca 4 dispersia lui ORMH se calculează conform
ecuaţiei:
K ⎛b c a + d j bj + c j a j d j ⎞
K a d a +dj
∑ j j
* j ∑ ⎜⎜
j j
* j + * ⎟
n j ⎟⎠
( ( )) j =1 ⎝ n j
m j =1 n j nj nj nj
D ln OR MH = + +
⎛ K a jd j ⎞
2
⎛ K a j d j ⎞ ⎛ K bjc j ⎞
2⎜ ∑
2⎜ ∑
⎜ j =1 n ⎟⎟ ⎜ j =1 n ⎟⎟ ⎜⎜ ∑ n
⎟⎟
⎝ j ⎠ ⎝ j ⎠⎝ j =1 j ⎠
K bjc j bj + c j
∑
j =1 n j
*
nj
+ 2
⎛ K bc ⎞
2⎜ ∑ j j ⎟⎟
⎜ j =1 n
⎝ j ⎠
4
P.Silocks, An easy approad to the Robins – Breslow. Greendland variance estimation,
Epid. Perspectives & Innov. 2, 2005 (http:www.epiperspectives.com/content/2/110)
236
II. Statistica matematica si biostatistica Aplicatii in epidemiologie
k
⎛ ai di ⎞
∑⎜ ⎟
= k ⎝ i ⎠ in care avem:
m MH i =1 n
Vom aplica relatia OR
⎛ bi ci ⎞
∑ ⎜
i =1 ⎝ ni ⎠
⎟
a1 = 6 a2 = 11
b1 = 5 b2 = 1
c1 = 30,3 c2 = 36, 7
d1 = 69, 7 d 2 = 63,3
n1 = 111 n2 = 112
deci riscul la nivelul intregii populatii este de circa 6 ori mai mare in cazul
fumatorilor decat in cazul nefumatorior .
237
TABELE STATISTICE
Tabele pentru z
z 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0754
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2258 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549
0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2996 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4639
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
239
TABELE STATISTICE
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
240
TABELE STATISTICE
Tabele pentru t
241
TABELE STATISTICE
ν1 1 2 3 4 5 6 7 8 9 10
ν2
1 161 200 216 225 230 234 237 239 241 242
2 18,5 19,0 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4
3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20
28 4,20 3,43 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91
∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83
243
TABELE STATISTICE
ν1 12 15 20 24 30 40 60 120 ∞
ν2
1 244 246 248 249 250 251 252 253 254
2 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5 19,5
3 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53
4 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63
5 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,37
6 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67
7 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23
8 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93
9 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54
11 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40
12 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30
13 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,25 2,21
14 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13
15 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07
16 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,06 2,01
17 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96
18 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92
19 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88
20 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84
21 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81
22 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78
23 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76
24 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73
25 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71
26 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,75 1,69
27 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,73 1,67
28 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,71 1,65
29 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,70 1,64
30 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62
40 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1,51
60 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39
120 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25
∞ 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,22 1,00
244
TABELE STATISTICE
Tabele χ 2
245
BIBLIOGRAFIE
249
CUPRINS
I. ELEMENTE DE TEORIA PROBABILITATILOR
1.1. Campuri de probabilitate 1
1.1.1. Corp borelian 2
1.1.2. Spatii masurabile 3
1.1.3. Probabilitate 5
1.1.4. Probabilitate conditionata 7
1.1.5. Formula probabilitatii cauzelor (Bayes) 7
251
CUPRINS
2.5. Estimatii 44
2.5.1. Estimarea intervalului de incredere pentru medii 45
2.5.2. Estimarea intervalului de încredere 1 − α pentru diferenţei a 47
două medii
2.5.3. Estimarea intervalelor de încredere pentru dispersie 50
2.5.4. Estimarea intervalului de încredere raportul a două dispersii 50
2.5.5. Utilizarea intervalelor de încredere în studiile de comparare 51
a biodisponibilităţii medicamentelor
252
CUPRINS
253
CUPRINS
2.13. Estimarea bioechivalentei 147
2.13.1. Metode parametrice de estimare a bioechivalentei 147
2.13.1.1 Metoda intervalului de incredere 147
2.13.1.2 Metoda celor „doua testari unilaterale” Schuirmann 147
2.13.1.3 Transformarea logaritmica a datelor 148
2.13.2. Metode non-parametrice de estimare a bioechivalentei 149
2.13.3. Compararea rezultatelor metodelor parametrice si non – 151
parametrice in estimarea bioechivalentei unor forme
farmaceutice cu meloxicam
2.13.3.1 Estimarea egalitatii mediilor plasmatice folosind testul “non – 153
parametric” Wilcoxon
2.13.3.2 Estimarea bioechivalentei prin calculul “non – parametric” al 156
intervalelor de incredere
2.13.3.3 Estimarea bioechivalentei folosind testul non – parametric 159
Wilcoxon, pornind de la un model care ia in considerare si
efectele de perioada
2.13.3.4 Calculul parametric 163
2.13.4. Compararea rezultatelor 165
Bibliografie 247
Cuprins 251
255