Sunteți pe pagina 1din 43

CURS 4

TESTE DE SEMNIFICAȚIE
STATISTICĂ
TESTE DE SEMNIFICAȚIE
STATISTICĂ
Fenomen nou – detectarea cauzelor – se avansează ipoteze
• Observații ale fenomenului - unor ipoteze le creste, altora le scade
veridicitatea, fiind posibil chiar sa se renunte la ele (plauzibilitatea
fiecărei ipoteze „explicative” este reevaluată)

• Testarea statistică de semnificație - metodă de stabilire a gradului de


plauzibilitate (veridicitate).
• se referă la un anumit tip special de ipoteze (ipoteze statistice).
TESTE DE SEMNIFICAȚIE
STATISTICĂ

• Testarea unei presupuneri (ipoteză căreia îi acordăm crezare)


• Admitem că ipoteza ar fi adevărata - comparăm observațiile (datele
obținute din lumea reală) cu consecințele logice ale ipotezei noastre.
• Dacă observațiile – compatibile cu așteptările – continuăm/ne întărim
credința în pp noastră
• Dacă observațiile – incompatibile cu așteptările – „credința” noastră în
validitatea presupunerii va scădea/vom „respinge” presupunerea făcută
• În logica clasica nu putem demonstra o ipoteză (ca fiind adevărată), dar o
putem exclude. Din acest punct de vedere „clasic”, un adevăr științific este
o afirmație care are o foarte mica probabilitate de a fi dovedita ca incorectă
în viitor (Karl Popper, The Logic of Scientific Discovery ,1959).
TESTE DE SEMNIFICAȚIE
STATISTICĂ

• Ipoteza statistică va servi ca alternativă la o altă ipoteză – așa-numita


„ipoteză nulă” – care este luată în considerare doar pentru a fi
respinsă. Prin acceptarea adevărului ipotezei nule vor rezulta anumite
consecințe statistice, iar acestea vor fi confruntate cu datele
observate.
• Orice dovadă aflată în contradicție cu ipoteza nulă va servi ca
justificare a alternativei
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR
Scorurile cunoștințelor (de la -18 la +18) pentru 10 asistente care participă la un curs de medicină bazată pe dovezi

Se poate afirma că există dovezi suficiente pentru a concluziona că, în general, asistentele
medicale din această populație își vor îmbunătăți cunoștințele în urma participării la curs?
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR

- scorul cunoştinţelor crește și cele mai multe diferenţe sunt în aceeaşi direcţie. Majoritatea asistentelor
au un scor mai mare după curs!!!
- Întrebare: cât de multe diferențe negative ne-ar permite să concluzionăm că nu există dovezi referitoare
la creșterea nivelului de cunoştinţe în urma cursului?
- Raspuns - test de semnificaţie
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR

• Pentru a efectua testul de semnificaţie vom presupune că în populaţie


nu există nici o diferenţă între cunoştinţele asistentelor, înainte şi
după participarea la curs
• Ipoteza referitoare la "nici o diferenţă" sau "nici un efect" în populaţie
se numeşte ipoteza nulă
• Vom compara aceasta cu o altă ipoteză, denumită ipoteză alternativă
care exprimă faptul că există o diferenţă între scorurile aferente
cunoştințelor, măsurate înainte şi după curs.
• Vom determina cât de probabilă ar fi apariția unor date extreme în
comparație cu cele observate, dacă ipoteza nulă ar fi adevărată
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR

• Dacă această probabilitate este mare, atunci datele sunt în


concordanţă cu ipoteza nulă
• Dacă această probabilitate este mică, atunci este puţin probabil ca
astfel de date să fi apărut dacă ipoteza nulă era adevărată şi dovezile
sunt în favoarea ipotezei alternative
• Pentru această analiză vom folosi un test de semnificaţie foarte
simplu - testul semnelor
• Acesta foloseşte numai direcţia diferenţelor, iar în eşantionul studiat
există o diferență negativă şi nouă diferențe pozitive
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR

• Considerăm diferenţele dintre scorul cunoştinţelor înainte şi după


curs pentru fiecare asistentă medicală în parte

• Dacă ipoteza nulă ar fi adevărată, diferenţele de scor al cunoştinţelor,


sunt la fel de probabil să fie pozitive sau negative - vor fi aleatorii

• Probabilitatea de a obține o diferenţă negativă ar fi egală cu


probabilitatea de a obține o diferență pozitivă
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR

• Dacă ipoteza nulă este adevărată atunci diferenţe negative şi pozitive


sunt la fel de probabile și ne aşteptăm ca jumătate dintre diferenţe să
fie negative
• în cazul mai multor repetări ale cursului, numărul mediu de diferenţe
negative ar trebui să fie de cinci, dar numărul de diferenţe negative
observate este doar de 1
• Întrebarea care apare este: Care este probabilitatea de a obţine o
valoare atât de depărtată/diferită de ceea ce ne-am fi aşteptat să
observăm?
TESTE DE SEMNIFICAȚIE STATISTICĂ: TESTUL SEMNELOR
Numărul de steme sau de Probabilitatea
diferențe negative • Numărul de diferențe negative s-ar
0 0.0009766 comporta exact la fel ca şi în cazul
1 0.0097656 aruncării simultane a 10 monezi pentru
2 0.0439453
care ne interesează numărul de aruncări
cu apariția de steme.
3 0.1171875
• Acest lucru este destul de uşor de
4 0.2050781
investigat din punct de vedere
5 0.2460938 matematic
6 0.2050781 • Vom folosi o distribuție cunoscută sub
7 0.1171875 numele de distribuție binomială cu
8 0.0439453 parametrii n=10, p=0,5
9 0.0097656
10 0.0009766
Probabilitatea asociată unui număr de apariții de steme (de la 1 la 10) pentru 10 monede aruncate simultan sau pentru
numărul de diferențe negative din 10 diferențe pozitive sau negative egal probabile (Distribuția binomială, n=10, p=0.5)
Distribuția numărului de apariții de steme pentru 10 monede
aruncate simultan sau pentru numărul de diferențe negative din
10 diferențe pozitive sau negative egal probabile (Distribuția
binomială, n=10, p=0.5
• Numerele posibile de diferențe negative care sunt la fel de depărtate
de cinci (sau chiar mai mult), așa cum este valoarea observată de noi
sunt zero, unu, nouă, şi zece

Estimăm ca nr mediu de diferențe


negative să fie de 5
Nr de diferențe negative observate este
doar de 1
Care este probabilitatea de a obţine o
valoare atât de depărtată/diferită de
ceea ce ne-am fi aşteptat să observăm?
 Probabilitatea de a obține o valoare
extremă ca și cea observată, fără a
conta direcția aleasă este de
0,0214844

 In situația veridicității ipotezei nule


vom avea un eşantion pentru care
probabilitatea de apariție prin șansă
a unei valori extreme (precum cea
Total 0,0214844
observată) va fi de 0.02, adică de doi
din o sută de încercări

Dacă ipoteza nulă ar fi fost adevărată, nu am fi observat un eveniment atât de puţin probabil, iar
datele obținute nu sunt în concordanță cu ipoteza nulă: În consecință, putem concluziona că
există dovezi în favoarea unei diferenţe între perioadele de tratament
PRINCIPII GENERALE PENTRU TESTELE DE SEMNIFICAȚIE
Testul semnelor este un exemplu de test de semnificaţie. Există multe
teste de semnificație și ele urmează toate acelaşi model general:
1. Stabilirea ipotezei nule şi a ipotezei alternative.
2. Verificarea ipotezelor de testare (presupunerilor referitoare la test).
3. Calculul valorii statisticii testului.
4. Compararea valorii statisticii testului cu valoarea cunoscută a
distribuţiei care ar fi urmat, în cazul în care ipoteza nulă ar fi fost
adevărată.
5. Determinarea probabilității asociate unei valori a statisticii testului
care se obține în cazul în care sunt observate una sau mai multe
valori extreme, în cazul în care ipoteza nulă ar fi fost adevărată.
6. Concluzionarea că datele sunt în concordanță sau în contradicţie cu
ipoteza nulă.
1. Stabilirea ipotezei nule şi a ipotezei
alternative
Ipoteza nulă:
"În populaţia de asistente medicale, nu există nici
o diferenţă între scorurile de cunoștințe înainte și
după curs" sau "În populaţia de asistente
medicale, probabilitatea de obținere a unei
diferenţe într-o anumită direcție în scorul de
cunoştinţe obținute în urma cursului este egală cu
probabilitatea de obținere a unei diferenţe de Ipoteza alternativă:
scor în direcţia opusă„
"În populaţia de asistente medicale, există o
diferenţă între scorurile de cunoștințe înainte
și după curs" sau "În populaţia de asistente
medicale, probabilitatea de obținere a unei
diferenţe într-o anumită direcție în scorul de
cunoştinţe obținute în urma cursului nu este
egală cu probabilitatea de obținere a unei
diferenţe de scor în direcţia opusă".
2. Verificarea ipotezelor de testare
• În exemplul studiat, pentru testul semnelor, singura ipoteză de testare este
faptul că observaţiile trebuie să fie independente între ele.

• Faptul că există o observaţie nu furnizează nici o informație referitor la


celelalte observații (deoarece observațiile sunt făcute pe zece persoane
diferite)

NOTĂ:
Condiția nu ar fi adevărată dacă pentru fiecare întrebare din scala celor 18
întrebări am fi analizat la care dintre subiecți s-a obținut o îmbunătățire a
răspunsurilor după curs, analizând ulterior datele ca formând 180 de
observaţii.
În această situație, observaţiile furnizate de acelaşi subiect nu ar fi în mod
clar independente între ele
3. Calculul valorii statisticii testului.

• Statistica testului se calculează pe baza datelor care sunt folosite în


testarea ipotezei nule.

• Pentru testul semnelor, statistica testului este reprezentată de


numărul de schimbări negative, fiind egală cu unu în exemplul studiat
4. Compararea valorii statisticii testului cu valoarea cunoscută a
distribuţiei care ar fi urmat, în cazul în care ipoteza nulă ar fi fost
adevărată.

• Comparăm valoarea furnizată de statistica testului cu valoarea care


provine dintr-o distribuţie cunoscută, distribuție care ar fi urmat în
cazul în care ipoteza nulă ar fi fost adevărată

• Pentru testul semnelor, distribuţia cunoscută care este urmată este


cea care se obține prin aruncarea simultană a zece monede, adică
distribuţia binomială cu n = 10 şi p = 0.5
5. Determinarea probabilității asociate unei valori a statisticii testului care
se obține în cazul în care sunt observate una sau mai multe valori extreme,
în situația în care ipoteza nulă ar fi fost adevărată
• În testul semnelor, aceasta a fost egală cu 0.02

6. Concluzionarea că datele sunt în concordanță sau în contradicţie cu


ipoteza nulă
 probabilitatea de obținere a unor date extreme a fost destul de mică
 suntem în măsură să concluzionăm că datele au fost în contradicţie cu ipoteza
nulă
TAKING HOME MESSAGE:
Există mai multe teste de semnificaţie concepute pentru a răspunde la diverse
întrebări pentru diferite tipuri de date, însă toate urmează acest model
SEMNIFICAȚIE ȘI NESEMNIFICAȚIE

• În cazul în care datele nu sunt în concordanţă cu ipoteza nulă,


diferenţa este declarată a fi statistic semnificativă
• În cazul în care datele sunt în concordanţă cu ipoteza nulă, diferenţa
se spune că nu este semnificativă statistic
• Putem aprecia probabilitatea asociată testului de semnificaţie ca un
index de putere a dovezii împotriva ipotezei nule
• Probabilitatea asociată unei valori extreme a statisticii testului, care
apare în cazul în care ipoteza nulă este adevărată este adesea numită
valoare p
ATENȚIE:
• Valoarea p nu este probabilitatea ca ipoteza nulă să fie adevărată.
Ipoteza nulă poate să fie adevărată sau nu, ea este aleatoare şi nu are
o probabilitate asociată

• Valoarea p reprezintă probabilitatea ca, în cazul în care ipoteza nulă ar


fi adevărată, să obţinem date depărtate de cele aşteptate similar
datelor observate

• Valoarea p=puterea evidenței/dovada pentru a respinge ipoteza nulă


Nivele de semnificație și
tipuri de erori
• presupunem că avem o probabilitate de 0.01
sau mai mică care constituie o dovadă
(evidență) rezonabilă pentru a respinge ipoteza
nulă
• Dacă ipoteza nulă este adevărată, vom lua o
decizie greşită într-o sută de situații (1 din 100)
• Decizia de a respinge ipoteza nulă atunci când
aceasta este adevărată se numeşte eroare de
primul tip, eroare de tipul I, sau eroarea 
(alfa)
• Dacă decidem în favoarea ipotezei nule care
este, de fapt falsă - eroare de al doilea tip,
eroare de tipul al II-lea, sau eroare  (beta)
• Cu cât probabilitatea cerută pentru de decide
împotriva ipotezei nule este mai mică, cu atât mai
mare va trebui să fie diferența observată şi, în acest
fel, este mai puțin probabil să ratăm o diferență
reală
• Prin reducerea riscului de a face o eroare de tip I
creşte însă riscul de a face o eroare de-al doilea tip
• Prin convenţie se face compromisul de a considera
diferenţele ca semnificative, dacă probabilitatea
este mai mică de 0.05
• Acesta este o convenție rezonabilă, dar nu ar trebui
să fie luată drept limită absolută, întrucât, în unele
situații se dorește o probabilitate mai mică, ca
valoare critică, precum 0.01
Interpretarea valorii p
• În cazul în care o diferenţă nu este semnificativă statistic, ea poate fi
totuși reală.

• Aceasta se poate întâmpla, de exemplu, atunci când dimensiunea


eșantionului este prea mică pentru a arăta că există o diferenţă. În
plus, diferenţa poate fi importantă.

• Afirmația "Nu există semnificație" nu înseamnă însă că nu există nici


un efect. "Nu există semnificație" înseamnă că nu s-a reuşit să
demonstreze existenţa dovezii (evidenței).
Prezentarea valorilor p
• Programele de analiză statistică determină valorile p exacte pentru
majoritatea testelor statistice
• Valorile p trebuie raportate ("p = 0.0215"), nu înlocuite cu p<0.05
• Valori de "p = 0.3294" sunt raportate superficial ca "nesemnificativ",
"NS" sau "p> 0.05", pierzându-se astfel informaţii valoroase
• Nu este însă necesar să se reproducă toate cifrele calculate. Valoarea
"p = 0.0215" este furnizată cu patru zecimale, ceea ce înseamnă că
există patru cifre după virgulă, ”0”, ”2”, ”1” și ”5”. Corect p=0.02. De
notat însă, că termenul de "cifre semnificative" nu are nici o legătură
cu semnificaţia statistică
• Aceste metode de prezentare a datelor s-au păstrat din perioada în
care calculele se făceau manual, iar valorile p raportate erau găsite în
tabele
TESTE DE SEMNIFICAȚIE ȘI INTERVALE DE ÎNCREDERE
• Testele de semnificaţie şi intervalele de încredere implică deseori
calcule similare, existând astfel o legătură strânsă între ele
• în cazul unei ipoteze nule referitoare la o anumită valoare din
populaţie (diferenţa între două medii sau două proporţii) se poate
folosi un interval de încredere ca test de semnificaţie
• Dacă intervalul de 95% încredere nu include valoarea la care se referă
ipoteza nulă, atunci diferenţa este semnificativă
• Exemplu: pentru diferența între două proporții valoarea ipotezei nule
este 0. Dacă intervalul de 95% încredere conţine valoarea zero,
diferenţa nu este semnificativă. Dacă intervalul de 95% încredere nu
conţine valoarea zero, atunci diferenţa este semnificativă
TESTE DE SEMNIFICAȚIE MULTIPLE
• Dacă se testează o ipoteză nulă, care este de fapt adevărată, folosind
ca nivel de semnificaţie critic valoarea de 0.05, probabilitatea de a
obține concluzia că "nu este semnificativă" (adică corect), este de
1.00 - 0.05 = 0.95
• Probabilitatea de a obține concluzia că "este semnificativă" (adică
fals) este de 0.05. Aceasta este probabilitatea de a obține erori de tip I
• Dacă vom testa două ipoteze nule adevărate, independente una de
cealaltă, probabilitatea ca testul să nu fie semnificativ este de 0.95 ×
0.95 = 0.90. Probabilitatea ca cel puţin una dintre acestea să fi
semnificative este 1.00 - 0.90 = 0.10
• Dacă vom testa trei ipoteze nule adevărate, independente una de
alta, probabilitatea ca nici una dintre ele să fie semnificative este de
0.95 × 0.95 × 0.95 = 0.953 = 0.86. Probabilitatea ca cel puţin una
dintre acestea să fie semnificativă este 1.00 - 0.86 = 0.16
TESTE DE SEMNIFICAȚIE MULTIPLE
• Dacă vom testa douăzeci de ipoteze nule, probabilitatea ca nici una
dintre ele să nu fie semnificativă este de 0.95 × 0.95 × 0.95 × 0.95 × ...
de douăzeci de ori, sau de (0.95)20 = 0.36. Probabilitatea de a obţine
cel puţin un rezultat semnificativ este 1.00 - 0.36 = 0.64. Deci există o
probabilitate aproape egală de a obține un rezultat semnificativ sau
nu.
• În medie, se va obtine un rezultat semnificativ, adică vom face o
eroare de tip I de fiecare dată când vom face 20 de testări de ipoteze
nule care sunt adevărate
• Dacă vom testa suficient de multe ipoteze, este posibil să se găsească
un element care este "semnificativ", chiar şi în situația în care toate
ipotezele nule testate sunt adevărate
TESTE DE SEMNIFICAȚIE MULTIPLE
• Multe studii de cercetare din domeniul sănătății sunt publicate cu un
număr mare de teste de semnificaţie. Astfel, este necesară multă
atenție în ceea ce privește acordarea unei importanţe prea mari unui
singur rezultat semnificativ într-o mulțime de rezultate
nesemnificative, acesta putând fi unul din cele douăzeci care este dat
numai de șansa (întâmplare)

• O modalitate prin care se pot genera mai multe teste de semnificaţie


este de a testa aceeaşi ipoteză separat pe mai multe subgrupuri de
subiecți aflați în studiu
TESTE DE SEMNIFICAȚIE MULTIPLE
- MAI MULTE SUBGRUPURI -
• Studiu - Williams et al. (1992) - a alocat aleatoriu pacienţii vârstnici
internați într-un spital în două grupuri:
pacienți vizitați constant de către asistenţii sociali
pacienți care nu primeau vizite decât atunci când era absolut necesar
• Parametrii evaluați pentru fiecare pacient au fost (folosindu-se scala
unui chestionar):
 starea fizică
 prezența handicapului
 starea mentală
Nu au existat diferenţe semnificative generale între grupul de pacienți
vizitați constant şi grupul de control
TESTE DE SEMNIFICAȚIE MULTIPLE
- MAI MULTE SUBGRUPURI -
• Totuși, autorii au raportat că în rândul femeilor cu vârsta de 75-79 din
grupul de control s-a obținut o deteriorare semnificativ mai mare la
scorul fizic în comparație cu grupul vizitat (p = 0.04), iar în rândul
bărbaţilor de peste 80 de ani din grupul de control s-a obținut o
deteriorare semnificativ mai mare în scorul referitor la handicap decât
în grupul vizitat (p = 0.03)
• Autorii au declarat: "Două mici subgrupuri de pacienți au arătat un
posibil beneficiu al intervenţiei asistenților sociali. Aceste beneficii
trebuie, totuși, să fie tratate cu prudenţă, deoarece se pot datora
unor factori de şansă (adică din întâmplare)"
Rezolvarea problemei?

• Folosirea corecţiei Bonferroni: vom înmulţi


toate valorile p obținute cu numărul de
teste

• Dacă, după obținerea noilor valori p, oricare


dintre testele intermediare de semnificație
rămâne semnificativ în continuare, testul
general pentru ipoteza nulă este
semnificativ
TESTE DE SEMNIFICAȚIE MULTIPLE
- MAI MULTE SUBGRUPURI -
• Dacă putem găsi în orice subgrup în care se face comparaţia o
valoare p înmulţită cu numărul de teste comparative mai mică
decât 0.05, atunci avem dovezi că există o diferenţă între
grupul cu intervenţie şi grupul de control în populaţia din care
au fost extrase aceste eșantioane
• În studiul de Williams et al. (1992) au fost cel puţin opt
subgrupuri
• Chiar dacă am lua în considerare cele trei scale separat,
valorile reale pentru p sunt de 8 × 0.04 = 0.32 şi 8 × 0.03 =
0.24, ambele mai mari decât valoarea de 0.05.
• Astfel, nu există dovezi că tratamentele pentru grupul cu
intervenţie şi grupul de control au avut rezultate diferite în
această populaţie
TESTE DE SEMNIFICAȚIE MULTIPLE
- MAI MULTE SUBGRUPURI -

• reţinem că metoda Bonferroni este folosită pentru a testa o ipoteză


nulă compusă referitoare la faptul că există o diferenţă semnificativă
între tratamente pentru cel puţin un grup de subiecţi
VARIABILA REZULTAT PRINCIPALĂ ȘI ANALIZA
PRIMARĂ A EI
• În unele studii, în special studii clinice problema testărilor multiple,
poate fi evitată prin specificarea unei variabile rezultat principale în
avans.
• Se va stabili inițial, de preferinţă înainte de colectarea datelor, o
variabilă specială care reprezintă rezultatul principal.
• Dacă se obţine un efect semnificativ pentru această variabilă, există
dovezi asupra efectului, iar în caz contrar, nu există dovezi referitoare
la efect, indiferent de ceea ce se întâmplă cu restul variabilelor
TESTE UNILATERALE ȘI BILATERALE
• În testul semnelor pentru datele referitoare la asistente medicale,
ipoteza nulă formulată a fost: în cadrul populaţiei, scorul inițial al
cunoştinţelor este egal cu scorul final.
• Ipoteza alternativă a fost: în cadrul populaţiei scorul inițial al
cunoştinţelor este diferit de scorul final, şi anume că a existat o
diferenţă într-o direcţie sau alta.
• Acesta se numeşte test bilateral pentru că am folosit probabilităţile
valorilor extreme în ambele direcţii (de exemplu, scorul final poate fi
mai mare sau mai mic decât scorul inițial)
TESTE UNILATERALE ȘI BILATERALE
• Test unilateral - în cazul în care se ia în considerare doar posibilitatea
ca diferenţele să apară doar într-o direcţie predefinită.
• În acest caz, ipoteza alternativă pentru exemplul menționat ar fi: în
cadrul populaţiei, scorul final va fi mai mare decât scorul de inițial.
• Pentru a exista potrivire, ipoteza nulă trebuie reformulată astfel: în
populaţie, scorul final al cunoştinţelor va fi egal sau mai mic decât
scorul inițial
• Se va obţine o probabilitate mai mică şi, desigur, un nivel de
semnificaţie mai mare decât în cazul testului bilateral
TESTE UNILATERALE ȘI BILATERALE
 Ipoteza nulă unilaterală: în populație
scorul final al cunoștințelor va fi egal sau
mai mic decât scorul inițial
 Ipoteza alternativă unilaterală: în cadrul
populației scorul final va fi mai mare decât
scorul inițial

 Ipoteza nulă bilaterală: în populație scorul


final al cunoștințelor va fi egal cu scorul
inițial
 Ipoteza alternativă bilaterală: în cadrul
Probabilitățile pentru teste ale semnelor unilaterale și
populației scorul final va fi diferit de scorul
bilaterale pentru datele referitoare la asistente inițial

S-ar putea să vă placă și