Documente Academic
Documente Profesional
Documente Cultură
TESTE DE
SEMNIFICAŢIE
CURS 8
3 direcţii majore în analiza datelor:
Studiul comparativ al
Studiul relaţiei între Studiul relaţiei între mai
variaţiei unei variabile
două variabile în multe variabile diferite în
în două sau mai multe
acelaşi eşantion acelaşi eşantion
eşantioane
2 eşantioane:
Modele de regresie
Compararea mediilor:
Coeficientul de corelaţie multiplă
Testul t Student
mai mult de 2 eşantioane:
Modele de regresie Modele de analiză
Compararea varianţelor:
complexă
Testul ANOVA
TESTAREA IPOTEZELOR
Testarea ipotezelor
• Testarea ipotezelor şi estimarea sunt metode statistice
folosite pentru a obţine concluzii referitoare la o
populaţie prin studiul unui eşantion.
• Testarea ipotezelor este folosită în medicină,
stomatologie, epidemiologie, biologie ca metodă de a
obţine concluzii despre natura populaţiei.
• Testarea ipotezelor furnizează informaţii utile pentru a
lua decizii corecte (diagnostic, tratament).
• Deciziile se stabilesc cu ajutorul unui test care verifică
o ipoteză (confirmare / infirmare).
• Deciziile sunt bazate pe rezultatele testului.
ETAPELE DE VERIFICARE A UNEI IPOTEZE
PRINTR-UN TEST STATISTIC:
• Enunţarea ipotezei
1
IPOTEZĂ DE IPOTEZĂ
CERCETARE STATISTICĂ
Este o presupunere care motivează O afirmaţie particulară formulată
cercetarea, formulată de regulă în astfel încât să poată fi evaluată
urma unor observaţii empirice printr-o metodă statistică.
repetate.
Conduce direct la ipoteza statistică.
TEST STATISTIC DE VERIFICARE A UNEI
IPOTEZE = metodă de a realiza o decizie asupra datelor
unui studiu statistic, verificând o afirmaţie – IPOTEZĂ
STATISTICĂ.
FORMULA GENERALĂ:
𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 ă 𝑑𝑒𝑖𝑛𝑡𝑒𝑟𝑒𝑠 − 𝑃 𝑎𝑟𝑎𝑚𝑒𝑡𝑟 𝑢𝑑𝑒 𝑖𝑝𝑜𝑡𝑒𝑧 ă
𝑆 𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 𝑎=
𝐸𝑟𝑜𝑎𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑎 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 𝑖𝑖𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠
Exemplu:
= media eşantionului
= parametrul de ipoteză – media populaţiei
= eroarea standard a lui
OBSERVAŢII:
NIVEL DE SEMNIFICAŢIE
• Nivelul de semnificaţie, , este o probabilitate, şi anume
probabilitatea de a respinge o ipoteză nulă adevărată.
• De exemplu, = 0.05 cu 95% interval de confidenţă înseamnă
că există 5% şanse ca valoarea parametrului testat să nu
aparţină intervalului de confidenţă 95%.
• Aceasta este o sursă de eroare şi conduce la o concluzie falsă.
• Atunci când valoarea calculată a discriminantei statistice
aparţine regiunii de respingere / critică, se spune că este
SEMNIFICATIVĂ.
• De regulă se aleg valori mici pentru , de exemplu 0.10, 0.05
sau 0.01, pentru a minimiza cât mai mult probabilitatea de a
respinge o ipoteză nulă adevărată.
Teste One-tail şi Two-tail
CRITERIUL DE DECIZIE:
1 - = 0.95
Se respinge ipoteza H0
dacă Z < - Z1- =0.05
(când se foloseşte testul Z)
Se respinge ipoteza H0
dacă T < -t1-,n-1
(când se foloseşte testul t) -1.645 0 Z
Regiunea de IPOTEZE:
respingere /
H0: 30
critică
H1: < 30
Teste One-tail şi Two-tail
Test One-tail
CRITERIUL DE DECIZIE:
1 - = 0.95
Se respinge ipoteza H0
dacă Z > Z1- =0.05
(când se foloseşte testul Z)
Se respinge ipoteza H0
dacă T > t1-,n-1 0 1.645 Z
(când se foloseşte testul t)
IPOTEZE: Regiunea de
respingere /
H0: ≤ 30 critică
H1: > 30
Teste One-tail şi Two-tail
Test Two-tail
CRITERIUL DE DECIZIE:
Se respinge ipoteza H0
dacă Z > Z1-/2 sau
1 - = 0.95
Z < -Z1-/2
/2 = /2 =
0.025 0.025
(când se foloseşte testul Z)
Se respinge ipoteza H0
dacă T > t1-/2,n-1 sau
T < -t1-/2,n-1 -1.96 0 1.96 Z
(când se foloseşte testul t)
IPOTEZE:
H0: = 30 Regiunea de Regiunea de
H1: 30 respingere / respingere /
critică critică
OBSERVAŢIE:
acceptată 1-
Adevărat pozitiv Fals negativ
test
OBSERVAŢIE:
În practică, în ştiinţele sociale şi medicale se folosesc
teste de tip two-tail, deoarece sunt mai fiabile.
Testele one-tail se folosesc atunci când:
– Modificările în regiunea opusă sunt lipsite de sens
– Modificările în regiunea opusă nu sunt de interes
– Nici o teorie nu prognozează modificări în regiunea opusă
Exemplu – populaţie normal distribuită – varianţe cunoscute, test 2-tail
Criteriul de decizie:
Se respinge H0 dacă valoarea z aparţine
regiunii critice; test 2-tail.
Se respinge H0 dacă z ≤ -1.96 sau z ≥ 1.96
Exemplu – populaţie normal distribuită – varianţe cunoscute, test 1-tail
Criteriul de decizie :
Se respinge H0 dacă valoarea z
aparţine regiunii critice; test one-tail .
Se respinge H0 dacă z ≤ -1.645
Exemplu – populaţie normal distribuită – varianţe necunoscute
Criteriul de decizie :
DATE: Se respinge H0 dacă valoarea z aparţine regiunii critice;
n = 14 test 2-tail.
s = 10.63918736 Valorile critice cu 13 df sunt -2.1604 şi 2.1604.
= 0.05 Se respinge H0 dacă t ≤ -2.1604 sau t 2.1604
Populaţie normal distribuită Calcule:
2.1604
IPOTEZE: H0 nu este respinsă
H0: = 35 (test two-tail) Þ Este posibil ca = 35; p = 0.1375
H1: 35
Exemplu – populaţie care nu este normal distribuită
Un eşantion simplu aleatoriu din 242 persoane dintr-o populaţie are vârsta
medie 33.3. Se poate concluziona că vârsta medie a populaţiei este mai
mare decât 30? Fie = 0.05.
DATE: Criteriul de decizie :
n = 242 Se respinge H0 dacă valoarea z aparţine
s = 12.14 regiunii critice; test one-tail.
Se respinge H0 dacă z 1.645
= 0.05
√
distribuită –
varianţe cunoscute 𝜎 1 ❑2 𝜎 2 ❑2
+
𝑛1 𝑛2
Populaţia normal
distribuită –
varianţe necunoscute , ( 𝑥 1 − 𝑥 2 ) −(𝜇1 − 𝜇 2)0
𝑡=
√
dar egale 2
𝑠 𝑝 ❑ 𝑠𝑝 ❑
2
n1, n2 mici +
Statistica t respectă o 𝑛1 𝑛2
distribuţie Student cu
n1 + n2 - 2 grade de
libertate şi o varianţă ❑ 2 ( 𝑛1 −1 ) ∙ 𝑠1 ❑2 + ( 𝑛2 −1 ) ∙ 𝑠 2 ❑2
𝑠𝑝 ❑ =
combinată sp2 𝑛1 +𝑛2 −2
Populaţia nu este Dacă varianţele din populaţie nu
normal distribuită – sunt cunoscute, se foloseşte
Ambele eşantioane au varianţa din eşantioane:
dimensiunea 30 – se
aplică teorema limitei z
centrale
Statistica z
Exemplu – populaţii normal distribuite cu varianţe cunoscute
Nivelele serice de acid uric: Există vreo diferenţă între nivelele serice
medii de acid uric la pacienţii cu Sindrom Down comparativ cu subiecţii
normali?
DATE: Criteriul de decizie:
, n1 = 12, 12 = 1 Se respinge H0 dacă valoarea z aparţine
, n2 = 15, 22 = 1.5 regiunii critice; test 2-tail.
= 0.05 Se respinge H0 dacă z ≤ -1.96 sau z ≥ 1.96.
√
𝟐 𝟐
𝝈𝟏 ❑ 𝝈 𝟐 ❑
+
𝒏𝟏 𝒏𝟐
√
fumători: , n1 = 16, s1 = 4.4752
nefumători: , n2 = 9, s2 = 4.8492
𝒔 𝒑 ❑𝟐 𝒔 𝒑 ❑𝟐
+
= 0.05 𝒏𝟏 𝒏𝟐
IPOTEZE: Calcule:
H0: 1 2 (test one-tail)
H1: 1 > 2 H0 respinsă
Deoarece eşantioanele sunt suficient 1 > 2
de mari, Teorema Limitei Centrale
permite calcularea statisticii z .
Dacă presupunerile sunt corecte şi
ipoteza H0 este adevărată, statistica
respectă distribuţia normală.
3. Testarea ipotezelor – varianţa unei
populaţii
Când datele sunt reprezentate de un singur eşantion
aleatoriu extras dintr-o populaţie normal distribuită,
statistica folosită pentru testarea ipotezei despre varianţa
populaţiei este:
2
2 (𝑛 − 1) 𝑠
𝜒 =
𝜎2
Când ipoteza H0 este adevărată, 2 respectă o distribuţie
2 cu n – 1 grade de libertate.
Exemplu:
Test one-tail 𝑠 2 ❑2
H0: 12 22 𝑉𝑅= 2
𝑠1 ❑
H1: 12 < 22
Exemplu:
Adenomul pituitar. Deviaţia standard a greutăţii la 12 pacienţi cu adenom
pituitar este de 21.4 kg. Un eşantion de control de 5 pacienţi fără adenom
pituitar au o deviaţie standard a greutăţii de 12.4 kg. Dorim să ştim dacă
greutatea pacienţilor cu adenom pituitar variază mai mult decât cea a
pacienţilor din grupul de control.
DATE: Criteriul de decizie:
Lot activ: n1 = 12, s1 = 21.4 Valoarea critică este F = 5.91.
Lot de control: n2 = 5, s2 = 12.4 Se respinge H0 dacă VR > 5.91
= 0.05
Calcule:
Eşantioane simple aleatorii
Populaţia normal distribuită
IPOTEZE:
H0 nu este respinsă, p > 0.05 (p = 0.1517)
H0: 12 ≤ 22
H1: 12 > 22 Greutatea populaţiei de pacienţi nu
Statistica: 𝒔𝟏 ❑𝟐 variază mai mult decât cea a subiecţilor
𝑽𝑹= 𝟐
𝒔𝟐 ❑ din lotul de control.
Dacă presupunerile sunt corecte şi ipoteza H0
este adevărată, statistica respectă o distribuţie
F cu 11 grade de libertate la numărător şi 4
grade de libertate la numitor.
5. Testarea ipotezelor – proporţia într-o
populaţie
Testarea ipotezelor despre proporţia într-o populaţie (P)
se realizează oarecum similar cu procedura pentru media
unei populaţii.
Date cunoscute:
- Dimensiunea eşantionului, n;
- Proporţia în eşantion, :
=
- Proporţia în eşantion, este aproximativ normal
distribuită
- Proporţiile în populaţie P0 şi Q0 = 1 – P0.
^
Statistica testului este: 𝑍 = 𝑃 − 𝑃 0
√𝑃 0 𝑄0
𝑛
√ 𝑃 (1 − 𝑃) 𝑃 (1 − 𝑃 )
𝑛1
+
𝑛2
Când ipoteza H0 este adevărată, statistica Z respectă o
distribuţie normală standard.
Există trei variante de formulare a ipotezelor:
H0: = - = 0;
H1: - 0 - test two-tail
H0: = - = 0;
H1: < - < 0 - test one-tail
H0: = - = 0;
H1: > - > 0 - test one-tail
Exemplu:
Sindromul Noonan este o condiţie genetică care influenţează dezvoltarea
inimii, coagularea sângelui şi dezvoltarea mentală şi fizică. Într-un studiu
clinic pe 29 bărbaţi şi 44 femei cu sindrom Noonan a fost analizată statura lor.
Valoarea de prag folosită pentru evaluarea staturii a fost a treia percentilă din
înălţimea unui adult normal. 11 dintre bărbaţii investigaţi şi 24 dintre femei au
fost identificaţi cu înălţimea sub valoarea de prag stabilită, raportată pe
genuri.
Acest studiu furnizează suficiente argumente pentru a concluziona că, între
pacienţii cu sindrom Noonan, femeile sunt mai susceptibile decât bărbaţii să
aibă înălţimea sub valoarea de prag stabilită? Se consideră α=0.05.
√
nM = 29, nF = 44
𝑃 (1 − 𝑃) 𝑃 (1 − 𝑃 )
aM = 11, aF = 24 +
𝑛1 𝑛2
= 0.05 Calcule:
Z
,
P1 = P2
Populaţiile sunt independente.
IPOTEZE:
H0: PF = PM PF – PM = 0
H1: PF > PM PF – PM > 0
Criteriul de decizie:
Valoarea critică este Z1-=Z1-0,05 = Z0,95 = 1,645.
Se respinge H0 dacă Z > 1,645
Calcule:
TESTUL CHI-PĂTRAT
- Test “distribution – free”
- Se aplică pentru variabile calitative
- Este simplu de calculat, chiar şi manual
- Este foarte des folosit
- Arată dacă între două variabile există o relație, dar
nu precizează cauzalitatea.
xn Nr. cazuri
Var 1 = xn
Var 2 = ym
TABEL DE CONTINGENȚĂ - Exemplu:
Categoriile variabilei 2
Categoriile variabilei 1
IPOTEZE:
H0: Variabilele sunt independente
Ha: Variabilele nu sunt independente
METODA DE CALCUL:
Var 2 y1 y2
Var 1
x1 N11 N12 Fx1 Nij = frecvența reală
E(N11) = Fx1 · Fy1 / n E(N12) = Fx1 · Fy2 / n
x2 N21 N22 Fx2 E(Nij ) = frecvența
E(N21) = Fx2 · Fy1 / n E(N22) = Fx2 · Fy2 / n teoretică
Fy1 Fy2 n
ˆ
[ N ij E ( N ij )]
2 2
i , j 1 Eˆ ( N ) ij
Bolnav 63 49 112
Sănătos 15 33 48
Total 78 82 160
Statistica: 2 [ N E ˆ ( N )]2
2 ij ij
i , j 1 Eˆ ( N )
ij
Concluzie:
H0 respinsă, p < 0.05
(p = 0.0019)
0 3.841 2 Variabilele sunt puternic
corelate (dependente).