Sunteți pe pagina 1din 54

Elemente de statistică analitică.

TESTE DE
SEMNIFICAŢIE

CURS 8
3 direcţii majore în analiza datelor:

ANALIZA ANALIZA ANALIZA


UNIVARIATĂ BIVARIATĂ MULTIVARIATĂ

Studiul comparativ al
Studiul relaţiei între Studiul relaţiei între mai
variaţiei unei variabile
două variabile în multe variabile diferite în
în două sau mai multe
acelaşi eşantion acelaşi eşantion
eşantioane

2 eşantioane:
Modele de regresie
Compararea mediilor:
Coeficientul de corelaţie multiplă
Testul t Student
mai mult de 2 eşantioane:
Modele de regresie Modele de analiză
Compararea varianţelor:
complexă
Testul ANOVA
TESTAREA IPOTEZELOR
Testarea ipotezelor
• Testarea ipotezelor şi estimarea sunt metode statistice
folosite pentru a obţine concluzii referitoare la o
populaţie prin studiul unui eşantion. 
• Testarea ipotezelor este folosită în medicină,
stomatologie, epidemiologie, biologie ca metodă de a
obţine concluzii despre natura populaţiei.
• Testarea ipotezelor furnizează informaţii utile pentru a
lua decizii corecte (diagnostic, tratament). 
• Deciziile se stabilesc cu ajutorul unui test care verifică
o ipoteză (confirmare / infirmare). 
• Deciziile sunt bazate pe rezultatele testului.
ETAPELE DE VERIFICARE A UNEI IPOTEZE
PRINTR-UN TEST STATISTIC:

• Enunţarea ipotezei
1

• Alegerea parametrului de studiu (eventual


2 conţinut în enunţarea ipotezei)
• Deducerea şi calculul formulei matematice a testului
(DISCRIMINANTA STATISTICĂ):
3 • Se decide ce statistică va fi folosită
• Se determină natura distribuţiei de valori a statisticii
• Se alege criteriul de decizie
• Se calculează statistica

• Acceptarea / respingerea ipotezei prin compararea


valorii calculate a testului cu regiunile de acceptare /
4 respingere ale distribuţiei de valori a statisticii testului
• Enunţarea ipotezei
1

Ipoteză = O afirmaţie despre


una sau mai multe populaţii.

IPOTEZĂ DE IPOTEZĂ
CERCETARE STATISTICĂ
Este o presupunere care motivează O afirmaţie particulară formulată
cercetarea, formulată de regulă în astfel încât să poată fi evaluată
urma unor observaţii empirice printr-o metodă statistică.
repetate.
Conduce direct la ipoteza statistică.
TEST STATISTIC DE VERIFICARE A UNEI
IPOTEZE = metodă de a realiza o decizie asupra datelor
unui studiu statistic, verificând o afirmaţie – IPOTEZĂ
STATISTICĂ.

În statistică, un rezultat se numeşte „SEMNIFICATIV


STATISTIC” dacă apariţia sa nu este întâmplătoare /
aleatoare, fiind rezultatul sistematic al manifestării unui
fenomen, iar probabilitatea de apariţie a sa este deasupra
unei valori prag, denumită „NIVEL DE SEMNIFICAŢIE”.

Noţiunea de „test de semnificaţie” – Ronald Fisher


Ipoteza statistică ce va fi testată:

- IPOTEZA NULĂ (H0): nu există nici o


schimbare – ex. nu există diferenţe semnificative între
mediile unui parametru măsurat în două eşantioane
extrase din populaţii diferite;
- IPOTEZA ALTERNATIVĂ (H1): opusul
ipotezei nule.
Reguli de testare a ipotezelor
1.  Concluzia aşteptată, adică ceea ce dorim să verificăm
prin experiment, va fi plasată în ipoteza alternativă.

2.  Ipoteza nulă trebuie să conţină un operator de


comparaţie, de forma =, ≤ sau ≥ .

3.  Ipoteza nulă este ipoteza care va fi testată.

4. Ipoteza nulă şi ipoteza alternativă sunt complementare.


Ex. Formularea ipotezelor
statistice
Tipul de H0 HA Tipul de distribuţie
ecuaţie
  = 50   50 Two-tail, 2 regiuni de
respingere / critice
   50   50 One-tail, regiunea
critică la dreapta
   50   50 One-tail, regiunea
critică la stânga
• calculul formulei matematice a testului (DISCRIMINANTA
3 STATISTICĂ)

Statistica (Discriminanta Statistică)

FORMULA GENERALĂ:
𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 ă 𝑑𝑒𝑖𝑛𝑡𝑒𝑟𝑒𝑠 − 𝑃 𝑎𝑟𝑎𝑚𝑒𝑡𝑟 𝑢𝑑𝑒 𝑖𝑝𝑜𝑡𝑒𝑧 ă
𝑆 𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 𝑎=
𝐸𝑟𝑜𝑎𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑎 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 𝑖𝑖𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠

Exemplu:
= media eşantionului
= parametrul de ipoteză – media populaţiei
= eroarea standard a lui
OBSERVAŢII:

• Testarea ipotezelor nu demonstrează de fapt afirmaţia. Ea


indică numai dacă afirmaţia (ipoteza statistică) este verificată
sau nu în eşantionul studiat.
• Alegerea discriminantei statistice (a statisticii) depinde de
modul de formulare a ipotezelor de verificat.
• Natura distribuţiei discriminantei statistice (a statisticii)
trebuie cunoscută.
Ex: Statistica z respectă distribuţia normală standard
Statistica t respectă distribuţia Student.
• Criteriile de decizie trebuie de asemenea stabilite.
• Acceptarea / respingerea ipotezei
4

NIVEL DE SEMNIFICAŢIE
• Nivelul de semnificaţie, , este o probabilitate, şi anume
probabilitatea de a respinge o ipoteză nulă adevărată. 
• De exemplu,  = 0.05 cu 95% interval de confidenţă  înseamnă
că există 5% şanse ca valoarea parametrului testat să nu
aparţină intervalului de confidenţă 95%. 
• Aceasta este o sursă de eroare şi conduce la o concluzie falsă.
• Atunci când valoarea calculată a discriminantei statistice
aparţine regiunii de respingere / critică, se spune că este
SEMNIFICATIVĂ. 
• De regulă se aleg valori mici pentru , de exemplu 0.10, 0.05
sau 0.01, pentru a minimiza cât mai mult probabilitatea de a
respinge o ipoteză nulă adevărată.
Teste One-tail şi Two-tail

• Test One-tail: Regiunea critică este situată la una


dintre extremităţile distribuţiei de valori a
discriminantei statistice. 
• Test Two-tail: Regiunea critică este situată la ambele
extremităţi ale distribuţiei de valori a discriminantei
statistice.
• La formularea ipotezei nule se precizează de regulă şi
tipul de test care urmează a fi folosit.
Teste One-tail şi Two-tail
Test One-tail

CRITERIUL DE DECIZIE:
1 -  = 0.95
Se respinge ipoteza H0
dacă Z < - Z1- =0.05
(când se foloseşte testul Z)
Se respinge ipoteza H0
dacă T < -t1-,n-1
(când se foloseşte testul t) -1.645 0 Z

Regiunea de IPOTEZE:
respingere /
H0:   30
critică
H1:  < 30
Teste One-tail şi Two-tail
Test One-tail

CRITERIUL DE DECIZIE:
1 -  = 0.95
Se respinge ipoteza H0
dacă Z > Z1- =0.05
(când se foloseşte testul Z)
Se respinge ipoteza H0
dacă T > t1-,n-1 0 1.645 Z
(când se foloseşte testul t)

IPOTEZE: Regiunea de
respingere /
H0:  ≤ 30 critică
H1:  > 30
Teste One-tail şi Two-tail
Test Two-tail
CRITERIUL DE DECIZIE:
Se respinge ipoteza H0
dacă Z > Z1-/2 sau
1 -  = 0.95
Z < -Z1-/2
/2 = /2 =
0.025 0.025
(când se foloseşte testul Z)
Se respinge ipoteza H0
dacă T > t1-/2,n-1 sau
T < -t1-/2,n-1 -1.96 0 1.96 Z
(când se foloseşte testul t)
IPOTEZE:
H0:  = 30 Regiunea de Regiunea de
H1:   30 respingere / respingere /
critică critică
OBSERVAŢIE:

• Z1-α/2 , Z1-α , Zα sunt valori tabelate obţinute din tabele


statistice construite pentru valori diferite ale lui n
• t1-α/2 , t1-α , tα sunt valori tabelate obţinute din tabele
statistice construite pentru valori diferite ale lui (n-1) =
numărul de grade de libertate (df)
TIPURI DE ERORI POSIBILE,
comise la verificarea ipotezelor statistice
• Lucrând cu cele două ipoteze şi cu o anumită probabilitate (nivel de
încredere), decizia finală va fi supusă erorii.
• Practic, între realitate şi decizia luată, vor exista două tipuri de erori
posibile:
Sistem decizional cu REALITATE
prag
H0 adevărată H1 adevărată

Ipoteza H0 Nu există eroare Eroare de tipul II


Decizie prin

acceptată 1- 
Adevărat pozitiv Fals negativ
test

Ipoteza H0 Eroare de tipul I Nu există eroare


respinsă  1-
H1 acceptată Fals pozitiv Adevărat negativ
 = Nivelul de semnificaţie a testului
• Nivelul de semnificaţie (eroarea de tip I) este determinat de
valoarea  a probabilităţii şi de regulă are valoarea 0.05
(5%) sau 0.01(1%).
Eroarea de tip I este eroarea de a respinge ipoteza
nulă H0, atunci când în realitate ea este adevărată.
• Puterea testului se defineşte prin coeficientul 1-. Valorile
standard sunt de 0.8 sau 0.9 şi corespunzător,  = 0.2,
respectiv  = 0.1.
Eroarea de tip II, exprimată prin probabilitatea ,
este eroarea de a accepta ipoteza nulă, când în
realitate ea este falsă.
• În funcţie de tipul de studiu folosit, se ţine cont de eroarea
de tip I sau de ambele tipuri de erori (I și II).
Valoarea p
- criteriu alternativ de decizie

• Valoarea p este probabilitatea ca un rezultat să fie să


fie la fel de mare sau mai mare decât o valoare
observată atunci când ipoteza nulă este adevărată. 
• Valoarea p este cea mai mică valoare a lui  pentru
care ipoteza nulă poate fi respinsă.
• Dacă valoarea p este mai mică sau egală cu a, ipoteza
nulă va fi respinsă; altfel ipoteza nulă va fi acceptată.
PRACTIC, în orice software de analiză statistică:

- Dacă p < 0.05 (sau p<0.01)


=> IPOTEZA NULĂ ESTE INFIRMATĂ

- Dacă p > 0.05 (sau p > 0.01)


=> IPOTEZA NULĂ ESTE CONFIRMATĂ
Intervale de confidenţă
• Intervalele de confidenţă sunt folosite pentru a testa
ipoteze.
EXEMPLU:
Ipoteza nulă este H0:  = 30
Se calculează intervalul de confidenţă 95% care corespunde
mediei parametrului măsurat în populaţie.
Dacă valoarea 30 aparţine intervalului de confidenţă, se
concluzionează că ipoteza nulă nu este respinsă la nivelul de
semnificaţie stabilit (95%).
CLASIFICAREA TESTELOR DE SEMNIFICAȚIE
STATISTICĂ
• În funcţie de natura datelor cu care se lucrează:

• proiectate pentru date Cele mai simple şi


cantitative, a căror distribuţie mai frecvent
TESTE
PARAMETRICE
de valori respectă legea utilizate teste de
normală, semnificaţie
• compară media sau varianţa statistică sunt
• proiectate pentru date TESTELE
calitative sau date cantitative PARAMETRICE
TESTE a căror distribuţie de valori bazate pe
NEPARAMETRI
CE nu respectă legea normală, compararea
• compară frecvenţele de mediilor sau a
apariţie sau rangurile varianţelor.
1. Testarea ipotezei – media unei
populaţii
3 situaţii – natura eşantionului extras:
               
            
Populaţie normal distribuită – 𝒙 − 𝝁𝟎
dispersia cunoscută 𝒁=
𝝈/√𝒏
Populaţie normal distribuită –
dispersia necunoscută
𝒙 − 𝝁𝟎
𝒕=
𝑺 / √𝒏
Populaţia nu este normal
distribuită, n  30
𝒙 − 𝝁𝟎
𝒁=
Dimensiunea eşantionului  30 – se 𝑺/√𝒏
aplică teorema limitei centrale
3 modalităţi de formulare a ipotezei:         

H0:  = x; H1:   x - test two-tail


H0:   x; H1: 1 < x - test one-tail
H0:  ≤ x; H1: 1 > x - test one-tail

OBSERVAŢIE:
În practică, în ştiinţele sociale şi medicale se folosesc
teste de tip two-tail, deoarece sunt mai fiabile.
Testele one-tail se folosesc atunci când:
– Modificările în regiunea opusă sunt lipsite de sens
– Modificările în regiunea opusă nu sunt de interes
– Nici o teorie nu prognozează modificări în regiunea opusă          
Exemplu – populaţie normal distribuită – varianţe cunoscute, test 2-tail

Un eşantion simplu aleatoriu de 10 persoane dintr-o populaţie are vârsta


medie de 27 ani. Putem concluziona că vârsta medie a populaţiei nu este
30?  Dispersia este 20.   = 0.05.
DATE: Calcule:
n = 10
2 = 20 H0 respinsă; valoare semnificativă cu pragul 0.05
Þ   30; p = 0.0340
= 0.05
z = -2.12 corespunde unei suprafeţe de .0170. 
Populaţie normal distribuită Deoarece regiunea critică are 2 zone într-un test two
tail, valoarea lui p este dublul suprafeţei, adică .0340.
IPOTEZE:
H0:  = 30 (2-tail test) Intervalul de confidenţă:
H1:   30
Statistica: 𝒙 −𝝁𝟎 
𝒁= Û 27 ± 1.96 · 1.4142
𝝈/ √ 𝒏 Û (24.228, 29.772)

Criteriul de decizie:
Se respinge H0 dacă valoarea z aparţine
regiunii critice; test 2-tail. 
Se respinge H0 dacă z ≤ -1.96 sau z ≥ 1.96
Exemplu – populaţie normal distribuită – varianţe cunoscute, test 1-tail

Un eşantion simplu aleatoriu de 10 persoane dintr-o populaţie are vârsta


medie de 27 ani.  Putem concluziona că vârsta medie a populaţiei este
mai mică de 30?  Dispersia este 20.   = 0.05.
DATE: Calcule:
n = 10
2 = 20 H0 respinsă; valoare semnificativă cu pragul 0.05
Þ  < 30; p = 0.0170
= 0.05
z = -2.12 corespunde unei suprafeţe de .0170. 
Populaţie normal distribuită
Intervalul de confidenţă :
IPOTEZE:
H0:   30 (test one-tail) 
H1:  < 30 Û 27 ± 1.96 · 1.4142
Statistica: 𝒙 −𝝁𝟎 Û (24.228, 29.772)
𝒁=
𝝈/ √ 𝒏

Criteriul de decizie :
Se respinge H0 dacă valoarea z
aparţine regiunii critice; test one-tail . 
Se respinge H0 dacă z ≤ -1.645
Exemplu – populaţie normal distribuită – varianţe necunoscute

Un eşantion simplu aleatoriu de 14 persoane dintr-o populaţie are indicele


BMI ca în tabel. Se poate concluziona că indicele BMI în populaţie nu
este 35?  Fie   = 0.05.
Statistica: t

Dacă presupunerile sunt corecte şi H0 este adevărată,


statistica respectă o distribuţie Student cu 13 grade de
libertate.

Criteriul de decizie :
DATE: Se respinge H0 dacă valoarea z aparţine regiunii critice;
n = 14 test 2-tail. 
s = 10.63918736 Valorile critice cu 13 df sunt -2.1604 şi 2.1604.
= 0.05 Se respinge  H0 dacă t ≤ -2.1604 sau t  2.1604
Populaţie normal distribuită Calcule:
2.1604
IPOTEZE: H0 nu este respinsă
H0:  = 35 (test two-tail) Þ Este posibil ca  = 35; p = 0.1375
H1:   35
Exemplu – populaţie care nu este normal distribuită

Un eşantion simplu aleatoriu din 242 persoane dintr-o populaţie are vârsta
medie 33.3. Se poate concluziona că vârsta medie a populaţiei este mai
mare decât 30?  Fie   = 0.05.
DATE: Criteriul de decizie :
n = 242 Se respinge H0 dacă valoarea z aparţine
s = 12.14 regiunii critice; test one-tail. 
Se respinge H0 dacă z  1.645
= 0.05

Populaţia nu este normal distribuită Calcule:

IPOTEZE: H0 respinsă; valoare semnificativă cu pragul de


H0:  ≤ 30 (test one-tail) 0.01
H1:  > 30 Þ  > 30; p = 0.0000117 < 0.001
Statistica: 𝒙 −𝝁𝟎
𝒁=
𝒔 /√𝒏
Ca urmare a Teoremei Limitei
Centrale, statistica este aproximativ
normal distribuită cu  = 0 dacă H0
este adevărată.
2. Testarea ipotezei – diferenţa între
mediile a două populaţii
Se foloseşte testul z pentru două eşantioane, care
stabileşte dacă mediile în cele două populaţii sunt egale
sau nu.
3 variante de formulare a ipotezei:
           H0:
    1 = 2; H1: 1  2 - test two-tail
            
H0: 1  2; H1: 1 < 2 - test one-tail
H0: 1 ≤ 2; H1: 1 > 2 - test one-tail
3 situaţii distincte:

Populaţia normal ( 𝑥 1 − 𝑥 2 ) −(𝜇1 − 𝜇 2)0


𝑧=


distribuită –
varianţe cunoscute 𝜎 1 ❑2 𝜎 2 ❑2
+
𝑛1 𝑛2
Populaţia normal
distribuită –
varianţe necunoscute , ( 𝑥 1 − 𝑥 2 ) −(𝜇1 − 𝜇 2)0
𝑡=


dar egale 2
𝑠 𝑝 ❑ 𝑠𝑝 ❑
2
n1, n2 mici +
Statistica t respectă o 𝑛1 𝑛2
distribuţie Student cu
n1 + n2 - 2 grade de
libertate şi o varianţă ❑ 2 ( 𝑛1 −1 ) ∙ 𝑠1 ❑2 + ( 𝑛2 −1 ) ∙ 𝑠 2 ❑2
𝑠𝑝 ❑ =
combinată sp2 𝑛1 +𝑛2 −2
Populaţia nu este Dacă varianţele din populaţie nu
normal distribuită – sunt cunoscute, se foloseşte
Ambele eşantioane au varianţa din eşantioane:
dimensiunea  30 – se
aplică teorema limitei z
centrale

Statistica z
Exemplu – populaţii normal distribuite cu varianţe cunoscute

Nivelele serice de acid uric: Există vreo diferenţă între nivelele serice
medii de acid uric la pacienţii cu Sindrom Down comparativ cu subiecţii
normali?
DATE: Criteriul de decizie:
, n1 = 12, 12 = 1 Se respinge H0 dacă valoarea z aparţine
, n2 = 15, 22 = 1.5 regiunii critice; test 2-tail. 
= 0.05 Se respinge H0 dacă z ≤ -1.96 sau z ≥ 1.96.

Două eşantioane aleatorii independente


Populaţii normal distribuite Calcule:

IPOTEZE: H0 respinsă; p = 0.0102


H0: 1 = 2 (test two-tail) Þ Mediile populaţiilor nu sunt egale.
H1: 1  2
Statistica: ( 𝒙 𝟏 − 𝒙𝟐 ) −(𝝁𝟏 − 𝝁𝟐)𝟎
𝒛=


𝟐 𝟐
𝝈𝟏 ❑ 𝝈 𝟐 ❑
+
𝒏𝟏 𝒏𝟐

Dacă presupunerile sunt corecte şi


ipoteza H0 este adevărată, statistica
respectă o distribuţie normală.
Exemplu – populaţii normal distribuite cu varianţe necunoscute, dar
egale (varianţă combinată)
Indicele de degradare a plămânului: Dorim să verificăm dacă putem
concluziona, cu un interval de confidenţă de 95%, că fumătorii, în general,
au plămânii mai degradaţi decât nefumătorii.
DATE: Statistica: ( 𝒙 𝟏 − 𝒙𝟐 ) −(𝝁𝟏 − 𝝁𝟐)𝟎
𝒕=


fumători: , n1 = 16, s1 = 4.4752
nefumători: , n2 = 9, s2 = 4.8492
𝒔 𝒑 ❑𝟐 𝒔 𝒑 ❑𝟐
+
= 0.05 𝒏𝟏 𝒏𝟐

Dacă presupunerile sunt corecte şi


Varianţa combinată:
ipoteza H0 este adevărată, statistica
❑ 𝟐 ( 𝒏𝟏 −𝟏 ) ∙ 𝒔 𝟏❑𝟐 + ( 𝒏𝟐 −𝟏 ) ∙ 𝒔𝟐 ❑𝟐 respectă o distribuţie Student cu 23
𝒔𝒑 ❑ =
𝒏𝟏+𝒏𝟐 − 𝟐 grade de libertate.
Criteriul de decizie:
Două eşantioane aleatorii independente Se respinge  H0 dacă t > 1.7139
Populaţii normal distribuite (= 0.05, df=23)
Calcule:
IPOTEZE:
H0: 1  2 (test one-tail )
H0 respinsă; p = 0.014
H1: 1 > 2 Þ 1 > 2
Exemplu – populaţii care nu sunt normal distribuite

Scala de evaluare a Limitelor de Activităţi Profilactice la Persoanele


Disabilitate (BHADP): Dorim să ştim dacă putem concluziona, cu un nivel
de confidenţă de 99%, că persoanele cu disabilităţi au scoruri mai ridicate
pe această scală decât persoanele fără disabilităţi.
DATE: Statistica: z
disabilitaţi: , n1 = 132, s1 = 7.93
normali: , n2 = 137 s2 = 4.80
= 0.01
Criteriul de decizie:
Două eşantioane aleatorii independente Se respinge  H0 dacă z > 2.33
Populaţii normal distribuite (= 0.01)

IPOTEZE: Calcule:
H0: 1  2 (test one-tail)
H1: 1 > 2 H0 respinsă
Deoarece eşantioanele sunt suficient 1 > 2
de mari, Teorema Limitei Centrale
permite calcularea statisticii z .
Dacă presupunerile sunt corecte şi
ipoteza H0 este adevărată, statistica
respectă distribuţia normală.
3. Testarea ipotezelor – varianţa unei
populaţii
Când datele sunt reprezentate de un singur eşantion
aleatoriu extras dintr-o populaţie normal distribuită,
statistica folosită pentru testarea ipotezei despre varianţa
populaţiei este:
2
2 (𝑛 − 1) 𝑠
𝜒 =
𝜎2
Când ipoteza H0 este adevărată, 2 respectă o distribuţie
2 cu n – 1 grade de libertate.
               
            
Exemplu:

Evaluarea răspunsului la inhalarea de alergeni la primatele alergice. Se


studiază un eşantion de 12 maimuţe, la care eroarea standard a mediei
pentru inhalarea de alergeni este 0.4 la unul dintre itemi. Dorim să ştim
dacă putem concluziona că varianţa populaţiei este diferită de 4.

DATE: Dacă presupunerile sunt corecte şi ipoteza H0 este


n = 12 adevărată, statistica respectă o distribuţie 2 cu 11
Eroarea standard = 0.4 df.
= 0.05 Criteriul de decizie:
df = 11 Pentru = 0.05 şi 11 df, valorile critice sunt 3.816
şi 21.920.
Eşantion simplu aleatoriu Se respinge  H0 dacă 2 < 3.816 sau 2 > 21.920.
Populaţie normal distribuită
Calcule:
IPOTEZE:
H0: 2 = 4
s2 = 0.4 * 12 = 4.8
H1: 2  4

Statistica: 𝟐 (𝒏− 𝟏) 𝒔𝟐 H0 nu este respinsă, p > 0.05


𝝌 = 𝟐
𝝈 Nu putem concluziona că varianţa populaţiei
este diferită de 4.
4. Testarea ipotezei – raportul între
varianţele în două populaţii
Testul este folosit pentru a determina dacă există o
diferenţă semnificativă statistic între două
varianţe. Statistica testului este raportul varianţelor:
𝑠1 ❑2
𝑉𝑅= 2
𝑠2 ❑
Când ipoteza H0 este adevărată, VR respectă o distribuţie
F cu:
n1 – 1 grade de libertate la numărător şi
n2 – 1 grade de libertate la numitor .
Calcularea raportului VR
Test two-tail Varianţa mai mare este pusă la numărător.
Test one-tail 2
𝑠 1 ❑
H0: 12 ≤ 22 𝑉𝑅= 2
H1: 1 > 2
2 2 𝑠 2 ❑

Test one-tail 𝑠 2 ❑2
H0: 12  22 𝑉𝑅= 2
𝑠1 ❑
H1: 12 < 22
Exemplu:
Adenomul pituitar.  Deviaţia standard a greutăţii la 12 pacienţi cu adenom
pituitar este de 21.4 kg. Un eşantion de control de 5 pacienţi fără adenom
pituitar au o deviaţie standard a greutăţii de 12.4 kg. Dorim să ştim dacă
greutatea pacienţilor cu adenom pituitar variază mai mult decât cea a
pacienţilor din grupul de control.
DATE: Criteriul de decizie:
Lot activ: n1 = 12, s1 = 21.4 Valoarea critică este F = 5.91.
Lot de control: n2 = 5, s2 = 12.4 Se respinge  H0 dacă VR > 5.91
= 0.05
Calcule:
Eşantioane simple aleatorii
Populaţia normal distribuită

IPOTEZE:
H0 nu este respinsă, p > 0.05 (p = 0.1517)
H0: 12 ≤ 22
H1: 12 > 22 Greutatea populaţiei de pacienţi nu
Statistica: 𝒔𝟏 ❑𝟐 variază mai mult decât cea a subiecţilor
𝑽𝑹= 𝟐
𝒔𝟐 ❑ din lotul de control.
Dacă presupunerile sunt corecte şi ipoteza H0
este adevărată, statistica respectă o distribuţie
F cu 11 grade de libertate la numărător şi 4
grade de libertate la numitor.
5. Testarea ipotezelor – proporţia într-o
populaţie
Testarea ipotezelor despre proporţia într-o populaţie (P)
se realizează oarecum similar cu procedura pentru media
unei populaţii.
Date cunoscute:
- Dimensiunea eşantionului, n;
- Proporţia în eşantion, :

=
- Proporţia în eşantion, este aproximativ normal
distribuită
- Proporţiile în populaţie P0 şi Q0 = 1 – P0.
^
Statistica testului este: 𝑍 = 𝑃 − 𝑃 0

√𝑃 0 𝑄0
𝑛

Când ipoteza H0 este adevărată, statistica Z respectă o


distribuţie normală standard.
Există trei modalităţi de formulare a ipotezelor:

H0: = P0; H1:  P0 - test two-tail


H0: = P0; H1: < P0 - test one-tail
H0: = P0; H1: > P0 - test one-tail
Exemplu:
Variabila de interes este procentajul de subiecţi cu prediabet într-un eşantion
de 301 femei hispanice din Texas. În studiu, 24 de femei au fost diagnosticate
cu prediabet. Prevalenţa diabetului în populaţia de femei hispanice din Texas
este evaluată la 6.3%.
Există suficiente motive pentru a concluziona că populaţia de femei hispanice
din Texas are o prevalenţă a prediabetului mai mare de 6.3%? Fie α=0.05.
DATE: ^
𝑃 − 𝑃0
n = 301 Statistica: 𝑍=
P0 = 6.3/100 = 0.063
Q0 = 1 – P0 = 1 – 0.063 = 0.937 √ 𝑃 0 𝑄0
𝑛
a = 24 Calcule:
P = 24 / 301 = 0.08
= 0.05 Z

P este normal distribuită H0 nu este respinsă, p > 0.05 (p = 0.1131)

IPOTEZE: Femeile hispanice din Texas nu au


H0: P = 0.063 prevalenţa IFG mai mare de 6.3%.
H1: P > 0.063
Criteriul de decizie:
Valoarea critică este Z1-=Z1-0,05 = Z0,95 = 1,645.
Se respinge H0 dacă Z > 1,645
6. Testarea ipotezelor – diferenţa între
proporţiile în două populaţii
Testarea ipotezelor despre diferenţa proporţiilor în două
populaţii (P1, P2) se realizează oarecum similar cu
procedura pentru diferenţa între mediile în două
populaţii.
Date cunoscute:
- Dimensiunile eşantioanelor, n1 şi n2;
- Proporţiile în eşantioane, , , unde a1, a2 = nr. de
subiecţi din eşantion cu o caracteristică specifică,

- Populaţiile sunt independente


- Proporţiile în cele două populaţii, P1 , P2.
Statistica testului este: ( 𝑃^1 − ^
𝑃 2 ) −(𝑃 1 − 𝑃 2 )
𝑍=

√ 𝑃 (1 − 𝑃) 𝑃 (1 − 𝑃 )
𝑛1
+
𝑛2
Când ipoteza H0 este adevărată, statistica Z respectă o
distribuţie normală standard.
Există trei variante de formulare a ipotezelor:
H0: =  - = 0;
H1:   -  0 - test two-tail

H0: =  - = 0;
H1: <  - < 0 - test one-tail

H0: =  - = 0;
H1: >  - > 0 - test one-tail
Exemplu:
Sindromul Noonan este o condiţie genetică care influenţează dezvoltarea
inimii, coagularea sângelui şi dezvoltarea mentală şi fizică. Într-un studiu
clinic pe 29 bărbaţi şi 44 femei cu sindrom Noonan a fost analizată statura lor.
Valoarea de prag folosită pentru evaluarea staturii a fost a treia percentilă din
înălţimea unui adult normal. 11 dintre bărbaţii investigaţi şi 24 dintre femei au
fost identificaţi cu înălţimea sub valoarea de prag stabilită, raportată pe
genuri.
Acest studiu furnizează suficiente argumente pentru a concluziona că, între
pacienţii cu sindrom Noonan, femeile sunt mai susceptibile decât bărbaţii să
aibă înălţimea sub valoarea de prag stabilită? Se consideră α=0.05.

DATE: Statistica: ( 𝑃^1 − ^


𝑃 2 ) −(𝑃 1 − 𝑃 2 )
𝑍=


nM = 29, nF = 44
𝑃 (1 − 𝑃) 𝑃 (1 − 𝑃 )
aM = 11, aF = 24 +
𝑛1 𝑛2
= 0.05 Calcule:

Z
,
P1 = P2
Populaţiile sunt independente.

IPOTEZE:
H0: PF = PM  PF – PM = 0
H1: PF > PM  PF – PM > 0

Criteriul de decizie:
Valoarea critică este Z1-=Z1-0,05 = Z0,95 = 1,645.
Se respinge  H0 dacă Z > 1,645
Calcule:

H0 nu este respinsă, p > 0.05 (p = 0.0823)

Dintre pacienţii cu sindrom Noonan, femeile nu sunt mai susceptibile decât


bărbaţii să aibă înălţimea mai mică decât valoarea de prag stabilită.
7. Teste neparametrice

TESTUL CHI-PĂTRAT
- Test “distribution – free”
- Se aplică pentru variabile calitative
- Este simplu de calculat, chiar şi manual
- Este foarte des folosit
- Arată dacă între două variabile există o relație, dar
nu precizează cauzalitatea.

PRINCIPIU DE LUCRU: Compară frecvenţa de apariţie a


variabilei analizate în fiecare grup / eşantion cu frecvenţa
teoretică de apariţie a acelei variabile.
CONDIŢII DE APLICABILITATE:
1. Variabilele de comparat – frecvenţe, şi nu valori
individuale – TABELE DE CONTINGENŢĂ
2. Dimensiunea eşantioanelor adecvat aleasă
3. Măsurătorile independente una de alta
4. Baze teoretice pentru categorizarea variabilelor.
Var2 y1 … yj … ym
Var1
x1… Nr. cazuri
Var 1 = x1
TABEL DE CONTINGENŢĂ Var 2 = y1
(CROSSTABULATION): xi … Nr. cazuri
Var 1 = xn
Var 2 = ym

xn Nr. cazuri
Var 1 = xn
Var 2 = ym
TABEL DE CONTINGENȚĂ - Exemplu:

Categoriile variabilei 2

Status boală Domiciliu Total


Urban Rural
Bolnav 63 49 112
Sănătos 15 33 48
Total 78 82 160

Categoriile variabilei 1

IPOTEZE:
H0: Variabilele sunt independente
Ha: Variabilele nu sunt independente
METODA DE CALCUL:
Var 2 y1 y2    
Var 1
x1 N11 N12 Fx1 Nij = frecvența reală
E(N11) = Fx1 · Fy1 / n E(N12) = Fx1 · Fy2 / n
x2 N21 N22 Fx2 E(Nij ) = frecvența
E(N21) = Fx2 · Fy1 / n E(N22) = Fx2 · Fy2 / n teoretică
  Fy1 Fy2 n  

ˆ
[ N ij  E ( N ij )]
2 2

Statistica testului este:   


2

i , j 1 Eˆ ( N ) ij

Nr. de grade de libertate: (nr. linii - 1)(nr. coloane - 1)


Exemplu:

Calcule: Frecvențe teoretice:


Status Domiciliu Total
boală
Urban Rural
Obs. Exp. Obs. Exp.

Bolnav 63 49 112
Sănătos 15 33 48
Total 78 82 160

Statistica: 2 [ N  E ˆ ( N )]2
 2   ij ij

i , j 1 Eˆ ( N )
ij

(63  54.6) 2 (49  57.4) 2 (15  23.4) 2 (33  24.6) 2


   
54.6 57.4 23.4 24.6
 1.292  1.229  3.015  2.868
 8.405
INTERPRETARE:
IPOTEZE:
H0: Variabilele sunt independente
Ha: Variabilele sunt corelate (dependente)
 = 0.05
df = (2 – 1)(2 – 1) = 1
Statistica testului: 2 = 8.405
:Valoarea critică
Criteriul de decizie:
Reject Se respinge H0 dacă 2 > 3.841

Concluzie:
H0 respinsă, p < 0.05
(p = 0.0019)
0 3.841 2 Variabilele sunt puternic
corelate (dependente).

S-ar putea să vă placă și