Sunteți pe pagina 1din 61

APLICATII STATISTICA

TESTELE DE COMPARATIE
Seminar STATISTICA

1.1. Aplicaţii ale unor teste statistice pentru pentru comparaţia


unor medii a unui eşantion cu media populaţiei (teoretică)

Obiectivele seminarului:

۲ insuşirea modului de aplicare a testului z în Excel pentru comparaţia unei medii


observate cu media populaţiei (teoretică)
۲ insuşirea modului de aplicare a testului t (Student) în Excel pentru comparaţia
unei medii observate cu media populaţiei (teoretică)
۲ insuşirea modului de determinare al intervalului de încredere (de confidenţǎ)
pentru media unui eşantion

Cunoştiinte necesare1:

۲ etapele unui test statistic


۲ noţiunea de interval de încredere sau confidenţǎ
۲ testul z si testul t pentru comparaţia unei medii a unui eşantion cu media
populaţiei

Aplicatia nr. 1.

Se considera ca radiatiile UV solare influenteaza dezvoltarea embrionar[ la pesti. Pentru a


elucida aceasta problema, un lot de icre embrionate se expun la radiatii UV-B si, dupa
eclozare, se masoara lungimea a 40 de larve. Se ştie că media lungimii la specia luata in
studiu, la o populaţie din mediul natural, este de 120 µm şi deviaţia standard 10 µm.

Lungimea-LT 13 120 27 129


Nr_id (µm) 14 121 28 124
1 126 15 140 29 131
2 130 16 135 30 127
3 135 17 115 31 127
4 116 18 135 32 125
5 122 19 132 33 140
6 126 20 128 34 115
7 128 21 126 35 110
8 130 22 125 36 112
9 123 23 115 37 125
10 124 24 117 38 143
11 140 25 121 39 122
12 125 26 125 40 135

1
Noţiunile neccesare şi probleme asemănătoare se găsesc în Cursul de statistica ecologica.

2
Analiza problemei

1. Dorim să comparăm LT pentru larvele provenite din icre embrionate expuse la UV cu LT pentru
populaţia din mediul natural. Variabila LT este cantitativǎ continuǎ, deci calcularea mediei are
sens. Metoda cea mai simplă este de a compara media LT a indivizilor selectaţi în eşantion cu
media LT a populaţiei.
2. Se calculează media LT a celor 40 de larve măsurată imediat dupa eclozare.
3. Se formulează ipoteza nulă H0: Presupunem că media LT a larvelor provenite din embrioni
expusi la radiatii UV nu diferă de media LT a larvelor provenite din embrioni neexpusi la UV.

Ipoteza nulă poate să fie adevărată sau falsă. Dacă este adevărată ipoteza nulă va reprezenta şi
concluzia studiului, dar dacă este falsă trebuie să acceptăm o ipoteză alternativă care este negaţia
ipotezei nule şi anume H1: media LT a larvelor provenite din embrioni expusi la radiatii UV la
diferă de media media LT a larvelor provenite din embrioni neexpusi la UV.

Această diferenţă poate să fie din cauză că H1:

۲ că media LT a larvelor provenite din embrioni expusi la radiatii UV este mai mica decat
media LT a larvelor provenite din embrioni neexpusi la UV
۲ că media LT a larvelor provenite din embrioni expusi la radiatii UV este mai mare decat
media LT a larvelor provenite din embrioni neexpusi la UV .

Se cere:

Punctul I . Comparaţi media LT a larvelor provenite din embrioni expusi la radiatii UV cu media LT a
larvelor provenite din embrioni neexpusi la UV cu ajutorul unui test statistic.

In acest scop parcurgeti urmatorii pasi:

1. Stabiliţi testul statistic potrivit în acest caz


2. Verificaţi dacă sunt îndeplinite condiţiile pentru aplicarea testului statistic
3. Aplicaţi testul în Excel.
4. Formulaţi concluzia studiului

Punctul II . Calculaţi intervalul de încredere pentru media LT necunoscută a populaţiei larvelor


provenite din embrioni expusi la radiatii UV ştiind media eşantionului.

Punctul I . Pentru a compara două medii trebuie aplicat un test statistic. Se formulează ipoteza nulă şi
cea alternativă (vezi analiza problemei).

Punctul 1. Alegerea testului statistic potrivit. Avem de comparat media m a eşantionului cu media µ a
populaţiei. Variabila luatǎ în studiu este variabilǎ continuǎ. Deoarece n>30 şi se cunoaşte deviaţia
standard a populaţiei putem aplica testul Z (normal) pentru compararea unei medii a unui eşantion cu
media populaţiei.

Punctul 2. Verificarea condiţiilor:

Condiţii pentru Z-test:

1. Indivizii sunt aleşi aleator din populaţie. Indivizii au fost aleşi aleator din populaţia din
mediul natural.
2. Talia eşantionului n>30. Talia eşantionului n = 40 > 30
3. Este cunoscută deviaţia standard a populaţiei. Abaterea standard a populaţiei σ = 10 µm
este cunoscută.
4. Observaţiile sunt distribuite normal în populaţie.

Punctul 3. Aplicarea testului în Excel

1. Introduceţi cu copy-paste datele de mai sus într-un tabel Excel, in coloanele A- B (la B1 vom
avea eticheta si de la B2- B41 valorile LT).

2. Introduceţi apoi următorul tabel în coloanele D-E: (am ales a=0,05 nivelul de semnificaţie pentru
testul statistic).

3. Calculaţi media aritmetică în celula E3 cu ajutorul funcţiei Average (Insert-Function-Average,


Number1 B2:B41).
4. Calculaţi eroarea standard în celula E7. Formula de calcul pentru eroarea standard este

ES 
n . Pentru a calcula aceasta formula se va introduce în celula E7 următoarea formulă:
=E5/SQRT(E6) Clic Enter. SQRT este funcţia care calculează rădăcina pătrată dintr-un număr.

X 
Z
5. Calculaţi parametrul Z în celula E8 după formula: E S . Selectaţi celula E8 şi introduceţi
formula: =(E3-E4)/E7. Apăsaţi tasta Enter.
6. Probabilitatea one-tailed. Vom afla probabilitatea one-tailed asociată cu Z calculat. Selectaţi
celula E10. Introduceţi formula: =ZTEST(B2:B41;E4;E5). Apasaţi tasta Enter. ZTEST – returnează
probabilitatea corespunzătoare distribuţiei normale standard pentru compararea a două medii.
7. Probabilitatea two-tailed. Pentru a calcula probabilitatea two-tailed se poate dubla
probabilitatea one-tailed. Selectaţi celula E12. Introduceţi formula: =2*E10. Apăsaţi tasta Enter.

8. Interpretarea rezultatelor

۲ Eroarea standard furnizează o aproximaţie a dispersiei datelor de la media populaţiei.


Pentru acest exemplu se poate spune că media eşantionului pentru eşantioane de 40
de indivizi trebuie să fie într-o vecinătate de valoare 1,58 a mediei populaţiei.
۲ Z este parametrul testului.
۲ Alpha – Nivelul de semnificaţie pentru testul statistic. Nivelul de semnificaţie trebuie
stabilit înainte. De obicei se alege valoarea 0,05. Este probabilitatea erorii,
probabilitatea de a respinge ipoteza nulǎ atunci când ea este adevǎratǎ.
۲ Probabilitatea one-tailed – sau one-tailed p-value. Din calcule rezultǎ cǎ p=0,00005 <
0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ. Ipoteza
nulă H0 este infirmată. Se poate spune că media aritmetică a LT a larvelor provenite
din embrioni expusi la UV este semnificativ mai mare decât media aritmetică a LT a
populaţiei din mediul natural cu o eroare alpha = 0,05.
۲ Probabilitatea two-tailed– sau two-tailed p-value. P=0,0001 < 0,05 Deoarece
probabilitatea obţinută este mai mică decât 0,05 se poate trage concluzia că testul
two-tailed este statistic semnificativ. Ipoteza nulă este infirmată. Se poate spune că
media aritmetică a LT a larvelor provenite din embrioni expusi la UV este semnificativ
diferita decât media aritmetică a LT a populaţiei din mediul natural cu o eroare alpha =
0,05.

Punctul II. Găsirea intervalului de încredere pentru media populatiei stiind media
esantionului

Intervalul de încredere al mediei populaţiei estimează intervalul care include media necunoscută a
unei populaţii cu un anumit nivel de încredere. Când alpha este 0,05, atunci vom avea un interval de
încredere de 95%.

Intervalul de încredere se calculează cu formula: (m  Z crit  ; m  Z crit  ) unde m este media aritmetică
a eşantionului, Zcrit este Z critic two tailed,  este eroarea standard a mediei.

Introduceţi sub tabelul executat mai sus următoarele:

2. Selectaţi celula E17. Introduceţi: =E3-1,96*E7.


3. Selectaţi E17. Introduceţi: =E3+1,96*E7.

4. Vom obţine următoarele rezultate:


5. Interpretarea intervalului de încredere: intervalul de încredere al mediei estimează intervalul
care include media LT necunoscută a populaţiei de larve expuse la UV cu un anumit nivel de
încredere. Când alpha este 0,05, atunci vom avea un interval de încredere de 95%. In cazul
nostru intervalul de încredere pentru media populaţiei este [123,03;129,22]. Putem afirma că
media aritmetică a LT a larvelor obtinute din embrioni expusi la UV (a întregii populaţii) se
găseşte în intervalul [123,03;129,22] cu o eroare de 0,05.

Observaţie: Testul Z a fost semnificativ, deoarece media LT a populaţiei din mediul natural 120 nu
aparţine intervalului de încredere [123,03;129,22], deci este diferită de media LT a populaţiei
experimentale.

Aplicatia nr. 2.

Există ipoteza că nivelul poluarii apei din Delta Dunarii cu nitrati este mult diminuat comparativ cu 20
de ani in urma. Pentru a elucida problema s-au ales 20 de situri de unde, in acelasi timp, au fost
prelevate probe de apa. Pentru toate probele s-a masurat concentratia de nitrati (NO 3). Se ştie că, in
anul 1993 concentratia medie NO3 a fost de 47,9m/l. Valorile NO3 inregistrate se găsesc mai jos:

Nr_id NO3 (mg/l) 10 19


1 26 11 19
2 21 12 22
3 44 13 27
4 30 14 39
5 37 15 38
6 20 16 20
7 35 17 21
8 39 18 21
19 23
9 48
20 45

Analiza problemei

1. Dorim să comparăm concentratia NO3 din DD in anul 2013 cu NO3 masurata in aceiasi perioada
si aceleasi conditii in anul 1993. Variabila NO3 este cantitativǎ continuǎ, deci calcularea mediei
are sens. Metoda cea mai simplă este de a compara media valorilor NO 3 din eşantion cu media
NO3 a populaţiei.
2. Se calculează media NO3 din cele 20 de de situri din DD.
3. Se formulează ipoteza nulă H0: Presupunem că media NO3 in anul 2013 nu diferă de media
NO3 din anul 1993.
Ipoteza nulă poate să fie adevărată sau falsă. Dacă este adevărată ipoteza nulă va reprezenta şi
concluzia studiului, dar dacă este falsă trebuie să acceptăm o ipoteză alternativă care este negaţia
ipotezei nule şi anume H1: media NO3 din 2013 diferă de media NO3 din 1993.

Această diferenţă poate să fie din cauză că H1: media NO3 din 2013 este mai mica decat media
NO3 din 1993 sau H1: media NO3 din 2013 este mai mare decat media NO3 din 1993 (pentru
aceste ipoteze este destul aplicarea unui test unidirecţional – one-tail test) .

Se cere:

I. Comparaţi media NO3 din probele prelevate in 2013 cu media teoretică (cunoscută) pentru anul
1993 cu ajutorul unui test statistic.

Stabiliţi care dintre ipoteze se confirmă:

۲ Ipoteza nulă Ho: Presupunem media NO3 din 2013 nu diferă de media NO3 din 1993.
۲ Ipoteză alternativă H1: media NO3 din 2013 diferă de media NO3 din 1993
۲ Ipoteză alternativă H1: media NO3 din 2013 este mai mica decat media NO3 din 1993
۲ Ipoteză alternativă H1: media NO3 din 2013 este mai mare decat media NO3 din 1993

In acest scop parcurgeti urmatorii pasi:


1. Stabiliţi testul statistic potrivit în acest caz
2. Verificaţi dacă sunt îndeplinite condiţiile pentru aplicarea testului statistic
3. Aplicaţi testul în Excel.
4. Formulaţi concluzia studiului

II. Calculaţi intervalul de încredere pentru media NO3 necunoscută a populaţiei (toate siturile din DD)
ştiind media eşantionului (media celor 20 situri).

Punctul I . Pentru a compara două medii trebuie aplicat un test statistic. Se formulează ipoteza nulă şi
cea alternativă (vezi analiza problemei).

Punctul 1. alegerea testului statistic potrivit. Avem de comparat media m a eşantionului cu media σ a
populaţiei. Variabila luatǎ în studiu este variabilǎ continuǎ. Deoarece n<30 şi nu se cunoaşte deviaţia
standard a populaţiei putem aplica testul t (Student) pentru compararea unei medii a unui eşantion
cu media populaţiei.

Punctul 2. Verificarea condiţiilor:

Condiţii pentru t-test:

1. Indivizii (siturile) sunt aleşi aleator din populaţie.


2. Talia eşantionului n<30.
3. Deviaţia standard a populaţiei este necunoscutǎ.
4. Observaţiile sunt distribuite normal în populaţie.
Pentru a verifica dacă datele sunt distribuite normal efectuaţi calculul parametrilor: medie
aritmetică, minim, max, mediană, sweness şi kurtosis cu ajutorul pachetului Data Analysis.

Vom avea rezultatele următoare:

Observaţii:

۲ Kurtosis = -1,3 este aproximativ egală cu 0, deci curba are aproximativ aceeaşi boltire
ca şi curba normală
۲ Skewness = 0,49 este aproximativ egală cu 0, deci curba nu este asimetrică faţa de
curba normală.

Din cele două observaţii rezultă ca avem o distribuţie aproximativ normală a datelor şi
condiţia 4 este îndeplinită.

Punctul 3. Aplicarea testului în Excel

1. Introduceţi următorul tabel în coloana D:


3. Calculaţi media aritmetică în celula E3 cu ajutorul funcţiei Average (Insert-Function-Average,
Number1 B2:B21).
4. Calculaţi deviaţia standard a eşantionului în celula E5 cu ajutorul funcţiei Stdev (Insert-
Function-Stdev, Number1 B2:B21).
5. Calculaţi talia eşantionului în celula E6 cu ajutorul funcţiei Count. (Insert-Function-Count,
Number1 B2:B21).
6. Calculaţi eroarea standard în celula E7. Formula de calcul pentru eroarea standard este
S
ES 
n . Pentru a calcula această formulă se va introduce în celula E7 următoarea formulă:
=E5/SQRT(E6) Apăsaţi tasta Enter. SQRT este funcţia care calculează rădăcina pătrată dintr-un
număr.

X 
t
7. Calculaţi parametrul t în celula E8 după formula: E S . Selectaţi celula E8 şi introduceţi
formula: =(E3-E4)/E7. Apăsaţi tasta Enter.

8. Alegem alpha=0,01. introducem în celula E9 valoarea 0,01.


9. df – gradele de libertate. Pentru t test avem n-1 grade de libertate. Selectăm celula E10 şi
introducem formula: =E6-1 Apăsaţi Enter.
10. Probabilitatea one-tailed. Vom afla probabilitatea one-tailed asociată cu t calculat cu ajutorul
funcţiei TDIST – returnează probabilitatea corespunzătoare distribuţiei t pentru o valoare t
specificată. Selectaţi celula E11. Din meniul Insert alegeţi opţiunea Function. Selectaţi
categoria Statistical la rubrica Category. Selectaţi funcţia Tdist din lista de funcţii:

11. La rubrica X introduceţi referinţa celulei unde a fost calculat t, este de dorit ca valoarea să fie
pozitivă, adică ABS(E8). ABS returnează valoarea absolută a parametrului. La rubrica
Deg_freedom se vor introduce gradele de libertate pe care le-am calculat în celula E10. La
rubrica Tails se va introduce 1 pentru distribuţia one-tailed şi 2 pentru distribuţia 2-tailed. Clic
OK.

12. Probabilitatea two-tailed. Vom afla probabilitatea two-tailed asociată cu t calculat cu ajutorul
funcţiei TDIST – returnează probabilitatea corespunzătoare distribuţiei t pentru o valoare t
specificată. Selectaţi celula E13. Din meniul Insert alegeţi opţiunea Function. Selectaţi
categoria Statistical la rubrica Category. Selectaţi funcţia Tdist din lista de funcţii:
13. La rubrica X introduceţi referinţa celulei unde a fost calculat t, este de dorit ca valoarea să fie
pozitivă, adică ABS(E8). ABS returnează valoarea absolută a parametrului. La rubrica
Deg_freedom se vor introduce gradele de libertate pe care le-am calculat în celula E10. La
rubrica Tails se va introduce 1 pentru distribuţia one-tailed şi 2 pentru distribuţia 2-tailed. Clic
OK.

14. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Interpretarea rezultatelor

۲ Media aritmetică – media aritmetică a NO3 pentru cele 20 de situri: 29,7 mg/l.
۲ Media aritmetică a populaţiei de referinta (DD, anul 1993)- Se ştie că media NO3 IN 1993 a
fost de 47,9 mg/l. Ipoteza care se testează aici este că media aritmetică a NO3 in 2013 este
egală cu media aritmetică a NO3 in 1993.
۲ Deviaţia standard a eşantionului - este de 9,91 mg/l este deviaţia standard cu care vom
aproxima deviaţia standard a populaţiei de valori din 2013.
۲ Talia eşantionului este 20 = numărul de statii luate în observaţie.
۲ Eroarea standard furnizează o aproximaţie a diferenţei dintre media populaţiei şi cea a
eşantionului. Pentru acest exemplu se poate spune că media eşantionului pentru cele 20
probe trebuie să fie într-o vecinătate de valoare 2,21 a mediei populaţiei.
۲ t este parametrul testului.
۲ Alpha – Nivelul de semnificaţie pentru testul statistic. Nivelul de semnificaţie trebuie stabilit
înainte. Am ales valoarea 0,05.
۲ df - gradele de libertate. Pentru testul t se calculează după formula df=n-1. In cazul nostru
df=19.
۲ Probabilitatea one-tailed – sau one-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât alpha=0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă este infirmată. Se poate spune că media aritmetică a NO3 in anul 2013 este
semnificativ mai mică decât media aritmetică a NO3 in anul 1993 cu o eroare alpha = 0,05.
۲ Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât alpha=0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă este infirmată. Se poate spune că media aritmetică a NO3 in anul 2013 este
semnificativ diferita decât media aritmetică a NO3 in anul 1993 cu o eroare alpha = 0,05.

Punctul II . Găsirea intervalului de încredere pentru medie

Intervalul de încredere se calculează cu formula: (m  t crit S ; m  t crit S ) unde m este media


aritmetică a eşantionului, tcrit este t critic two tailed, ES este eroarea standard a mediei.
1. Introduceţi sub tabelul executat mai sus următoarele
2. Selectaţi celula E18. Introduceţi: =E3-E14*E7.

3. Selectaţi E19. Introduceţi: =E3+2,86*E7.

4. Vom obţine următoarele rezultate:


5. Interpretarea intervalului de încredere: intervalul de încredere al mediei populaţiei estimează
intervalul care include media NO3 necunoscută in siturile din DD in anul 2013 cu un anumit
nivel de încredere. Când alpha este 0,05, atunci vom avea un interval de încredere de 99%. In
cazul nostru intervalul de încredere pentru media populaţiei este [23,36;36,04]. Putem afirma
că media aritmetică a NO3 din toate siturile din DD se găseşte în intervalul [23,36;36,04] cu o
eroare de 0,05.

Observaţie: Testul t a fost semnificativ, deoarece media NO3 din 1993 (47,9 mg/l) nu aparţine
intervalului de încredere [23,36;36,04].
1.2. Aplicaţii ale unor teste statistice pentru pentru compararea mediilor
a doua esantioane

Obiective:

- Testul Student t pentru compararea mediilor a două eşantioane independente


- Testul Student t pentru compararea mediilor a două eşantioane dependente

Problema 1. S-a realizat un studiu pe un eşantion de 60 pacienţi în care se urmăresc valorile


trigliceridelor, HDL-colesterolului, Diabetul, Colesterolul, Vârsta, IMC, Diabet. Pacienţii cu diabet
au ţinut o dietă de patru săptămâni. S-a măsurat Colesterolul, TG şi HDL final. Datele obţinute se
găsesc în tabelul de mai jos:

HDL COLESTEROL
ID Diabet VARSTA TG HDL COLESTEROL TG final
final final
1 Da 55 124 64 225 140 69 180
2 Da 79 380 31 190 414 36 170
3 Nu 51 314 48 172
4 Nu 54 94 55 187
5 Nu 53 305 39 168
6 Nu 52 174 35 165
7 Da 65 169 55 208 162 62 190
8 Da 56 122 52 273 168 57 159
9 Nu 64 325 37 176
10 Da 56 205 38 247 252 42 175
11 Da 68 191 36 143 229 42 145
12 Da 76 167 48 191 205 54 165
13 Da 68 153 36 164 167 41 156
14 Da 54 113 38 175 148 42 200
15 Da 63 73 35 161 86 40 172
16 Da 42 376 55 300 405 61 171
17 Da 54 968 24 339 980 30 155
18 Da 51 243 43 260 258 47 148
19 Nu 67 174 59 189
20 Da 63 310 26 178 345 30 166
21 Da 71 167 68 174 189 73 120
22 Da 64 124 52 218 156 58 118
23 Nu 65 139 37 199
24 Da 67 303 40 323 352 47 215
25 Da 60 310 53 319 345 60 180
26 Da 63 125 49 216 143 53 154
27 Nu 49 66 52 183
28 Nu 78 141 44 177
29 Nu 56 123 34 183
30 Da 40 84 45 248 99 51 180
31 Nu 54 121 56 193
32 Da 38 217 23 150 244 27 150
33 Nu 42 132 47 160
34 Nu 55 242 58 165
35 Nu 59 129 55 135
36 Da 63 172 54 223 171 59 173
37 Da 53 101 51 222 107 54 141
38 Nu 55 112 38 145
39 Da 81 129 65 210 145 70 153
40 Nu 62 278 33 156
41 Da 79 84 54 183 111 57 190
42 Da 50 125 45 156 118 51 159
43 Da 33 186 21 199 222 27 200
44 Da 42 389 33 216 426 38 175
45 Da 65 154 45 214 164 52 145
46 Nu 48 106 28 151
47 Da 44 128 41 195 153 44 165
48 Nu 69 68 27 134
49 Da 71 128 34 166 137 38 144
50 Da 47 199 56 264 229 59 199
51 Da 65 176 46 188 187 52 201
52 Nu 59 176 40 189
53 Da 58 107 56 207 125 61 182
54 Da 42 228 41 169 236 46 178
55 Nu 50 133 53 175
56 Nu 56 253 45 144
57 Nu 53 221 76 156
58 Nu 62 93 58 182
59 Da 57 181 32 188 197 38 178
60 Da 69 240 72 266 240 76 201
a) Calculaţi indicatorii statistici descriptivi cu Data Analysis – Descriptive statistics pentru toate
variabilele cantitative, separat pentru diabetici şi pentru cei fără diabet.
b) Să se studieze dacă Vârsta diferă semnificativ la cei cu diabet faţă de cei care nu au diabet.
c) Să se studieze dacă TG (Trigliceridele) diferă semnificativ la cei cu diabet faţă de cei care nu
au diabet.
d) Să se studieze dacă HDL diferă semnificativ la cei cu diabet faţă de cei care nu au diabet.
e) Să se studieze dacă Colesterolul diferă semnificativ la cei cu diabet faţă de cei care nu au
diabet.
f) Să se studieze dacă TG (Trigliceridele) iniţial şi final diferă semnificativ la cei cu diabet.
g) Să se studieze dacă HDL iniţial şi final diferă semnificativ la cei cu diabet.
h) Să se studieze dacă Colesterolul iniţial şi final diferă semnificativ la cei cu diabet.

a) Calculaţi indicatorii statistici descriptivi cu Data Analysis – Descriptive statistics pentru


toate variabilele cantitative, separat pentru diabetici şi pentru cei fără diabet.

1. Copiaţi tabelul de mai sus în Excel.


2. Selectaţi o celulă oarecare din tabelul cu date. Din meniul Data alegeţi opţiunea Sort. Din
fereastra Sort alegeţi la Sort by variabila Diabet din lista cu variabilele. Clic OK.

Se va realiza astfel gruparea pe cele două eşantioane, după variabila Diabet. Primii 37 de pacienţi
sunt pacienţii cu diabet (inclusiv linia 38)
3. Pentru a folosi pachetul Data Analysis el trebuie instalat. Dacă opţiunea Data Analysis nu este
prezentă în meniul Tools, atunci din meniul Tools se alege opţiunea Add-Ins. Bifaţi prima
opţiune Analysis ToolPak. Apăsaţi butonul Ok.
4. Calculaţi indicatorii statistici descriptivi cu Tools - Data Analysis – Descriptive statistics
pentru toate variabilele cantitative :
5. Reveniţi în Sheet 1 şi repetaţi procedura pentru pacienţii fâră diabet

6. Copiaţi tabelele pe aceeaşi pagină şi aranjaţi-le ca mai jos:


b) Să se studieze dacă Vârsta diferă semnificativ la cei cu diabet faţă de cei care nu au
diabet.

Analiza problemei (modelul statistic si alegerea testului):

- o variabilă cantitativă: Vârsta (deci poate fi vorba de compararea mediilor)


- o variabilă calitativă: Diabet
- două eşantioane: cei cu diabet, cei fără diabet
- eşantioanele sunt independente

Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
neegale. (Vom presupune că variaţiile celor două populaţii din care provin eşantioanele nu sunt egale).

Condiţii necesare pentru testul t (dacă aceste condiţii nu sunt îndeplinite nu se poate aplica testul t
pentru eşantioane independente):

1. Observaţiile din cele două eşantioane sunt independente.


2. Indivizii sunt aleşi aleator din fiecare populaţie.
3. Observaţiile sunt distribuite normal în ambele populaţii.

Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).

Ipoteza nulă (Ho): Mediile valorilor Vârstei la diabetici, respectiv la nediabetici nu diferă
semnificativ.

Ipoteza alternativă (H1): Mediile valorilor Vârstei la diabetici, respectiv la nediabetici diferă
semnificativ.

Etape de rezolvare în Excel - Instrucţiuni:

1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variatii neegale: Two-
Sample Assuming Unequal Variances OK.

2. Completaţi câmpurile din fereastra de mai jos (comparăm mediile Vârstei, deci la Range vom
selecta Vârsta):
3. Variable 1 Range: se selectează domeniul D2:D38. Este domeniul care cuprinde valorile
Vârstei pentru diabetici.
4. Variable 2 Range: se selectează domeniul D39:D61. Este domeniul care cuprinde valorile
Vârstei pentru cei fără diabet.
5. Hypothesized Mean Difference: introduceţi 0 ceea ce înseamnă că presupunem că cele două
medii ale Vârstei pentru diabetici şi pentru cei fără diabet sunt egale (conform ipotezei nule -
Ho).
6. Labels nu trebuie bifat pentru că în selecţia noastră nu avem cap de tabel.
7. Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului t.
8. Output Range – rezultatele vor fi afişate in aceeaşi pagină începând cu celula N2
9. Click OK
10. După toţi paşii de mai sus se vor obţine următoarele rezultate:

t-Test: Two-Sample Assuming Unequal Variances

Variable Variable
1 2
Mean 58,7027 57,08696
Variance 149,048 63,44664
Observations 37 23
Hypothesized Mean
Difference 0
df 58
t Stat 0,620209
P(T<=t) one-tail 0,268775
t Critical one-tail 1,671553
P(T<=t) two-tail 0,537549
t Critical two-tail 2,001716

Interpretarea rezultatelor

 Se compară media aritmetică a Vârstei la diabetici: 58,7 ani cu media Vârstei la cei fără
diabet 57,08 (Mean).

 Variance - Variaţia Vârstei la diabetici respectiv la cei fără diabet.

 Talia eşantionului pacienţilor de diabetici este 37 si Talia eşantionului pacienţii fără diabet
este 23.
 df – gradele de libertate = 58 calculate după formula n1+n2-2=37+23-2.

 t Stat este parametrul testului.

 P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mare decât =0,05 se poate trage concluzia că testul one-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a Vârstei pacienţilor diabetici nu este mai mică
semnificativ decât media aritmetică a Vârstei pacienţilor fără diabet cu o eroare alpha =
0,05.

 t critic one-tailed = 1,67. Dacă t stat  t critic one tail se poate spune că media aritmetică a
Vârstei pacienţilor diabetici nu este mai mică semnificativ decât media Vârstei pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

 Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mare decât 0,05 se poate trage concluzia că testul two-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a Vârstei pacienţilor diabetici nu este diferită semnificativ
de media aritmetică a Vârstei pacienţilor fără diabet cu o eroare alpha = 0,05.

 t critic two-tailed= 2. Dacă t stat  [t critic one tail , t critic one tail ] se poate spune că media
aritmetică a Vârstei pacienţilor diabetici nu diferă semnificativ de media Vârstei pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

c) Să se studieze dacă TG (Trigliceridele) diferă semnificativ la cei cu diabet faţă de cei care
nu au diabet.

Analiza problemei (modelul statistic si alegerea testului):

- o variabilă cantitativă: TG (deci poate fi vorba de compararea mediilor)


- o variabilă calitativă: Diabet
- două eşantioane: cei cu diabet, cei fără diabet
- eşantioanele sunt independente

Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
egale. (Vom presupune că variaţiile celor două populaţii din care previn eşantioanele sunt egale).

Condiţii necesare pentru testul t (dacă aceste condiţii nu sunt îndeplinite nu se poate aplica testul t
pentru eşantioane independente):

1. Observaţiile din cele două eşantioane sunt independente.


2. Indivizii sunt aleşi aleator din fiecare populaţie.
3. Observaţiile sunt distribuite normal în ambele populaţii.
Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).

Ipoteza nulă (Ho): Mediile valorilor TG la diabetici, respectiv la nediabetici nu diferă semnificativ.

Ipoteza alternativă (H1): Mediile valorilor TG la diabetici, respectiv la nediabetici diferă


semnificativ.

Etape de rezolvare în Excel - Instrucţiuni:

11. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variatii egale: Two-
Sample Assuming Equal Variances OK.

12. Completaţi câmpurile din fereastra de mai jos (comparăm mediile TG, deci la Range vom
selecta TG):

13. Click OK
14. După toţi paşii de mai sus se vor obţine următoarele rezultate:

t-Test: Two-Sample Assuming Equal Variances

Variable Variable
1 2
Mean 206,7838 170,3913
Variance 23594,23 6394,522
Observations 37 23
Pooled Variance 17070,2
Hypothesized Mean
Difference 0
df 58
t Stat 1,049014
P(T<=t) one-tail 0,149262
t Critical one-tail 1,671553
P(T<=t) two-tail 0,298523
t Critical two-tail 2,001716

Interpretarea rezultatelor

 Se compară media aritmetică a TG la diabetici: 206,78 cu media TG la cei fără diabet


170,39 (Mean).

 P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mare decât =0,05 se poate trage concluzia că testul one-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a TG a pacienţilor diabetici nu este mai mică


semnificativ decât media aritmetică a TG a pacienţilor fără diabet cu o eroare alpha = 0,05.

 t critic one-tailed = 1,67. Dacă t stat  t critic onetail se poate spune că media aritmetică a TG
a pacienţilor diabetici nu este mai mică semnificativ decât media TG a pacienţilor fără
diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

 Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mare decât 0,05 se poate trage concluzia că testul two-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a TG a pacienţilor diabetici nu este diferită semnificativ de


media aritmetică a TG a pacienţilor fără diabet cu o eroare alpha = 0,05.

 t critic two-tailed= 2. Dacă t stat  [t critic one tail , t critic one tail ] se poate spune că media
aritmetică TG a pacienţilor diabetici nu diferă semnificativ de media TG a pacienţilor fără
diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

d) Să se studieze dacă HDL diferă semnificativ la cei cu diabet faţă de cei care nu au diabet.

Analiza problemei (modelul statistic si alegerea testului):

Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
egale. (Vom presupune că variaţiile celor două populaţii din care provin eşantioanele sunt egale).

Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).
Ipoteza nulă (Ho): Mediile valorilor HDL la diabetici, respectiv la nediabetici nu diferă
semnificativ.

Ipoteza alternativă (H1): Mediile valorilor HDL la diabetici, respectiv la nediabetici diferă
semnificativ.

Etape de rezolvare în Excel - Instrucţiuni:

1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variatii egale: Two-
Sample Assuming Equal Variances OK.
2. Completaţi câmpurile din fereastra apărută ca la punctul b), dar pentru HDL :

3. După toţi paşii de mai sus se vor obţine următoarele rezultate:


t-Test: Two-Sample Assuming Equal Variances

Variable Variable
1 2
Mean 44,78378 45,82609
Variance 159,952 142,8775
Observations 37 23
Pooled Variance 153,4754
Hypothesized Mean
Difference 0
df 58
t Stat -0,31686
P(T<=t) one-tail 0,376245
t Critical one-tail 1,671553
P(T<=t) two-tail 0,75249
t Critical two-tail 2,001716

Interpretarea rezultatelor

 Se compară media aritmetică a HDL la diabetici: 44,78 cu media HDL la cei fără diabet
45,82 (Mean).

 P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mare decât =0,05 se poate trage concluzia că testul one-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a HDL al pacienţilor diabetici nu este mai mică
semnificativ decât media aritmetică a HDL al pacienţilor fără diabet cu o eroare alpha =
0,05.

 t critic one-tailed = 1,67. Dacă t stat  t critic one tail se poate spune că media aritmetică a
HDL al pacienţilor diabetici nu este mai mică semnificativ decât media HDL al pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

 Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mare decât 0,05 se poate trage concluzia că testul two-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:

Se poate spune că media aritmetică a HDL al pacienţilor diabetici nu este diferită semnificativ
de media aritmetică a HDL al pacienţilor fără diabet cu o eroare alpha = 0,05.

 t critic two-tailed= 2. Dacă t stat  [t critic one tail , t critic one tail ] se poate spune că media
aritmetică HDL al pacienţilor diabetici nu diferă semnificativ de media HDL al pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

e) Să se studieze dacă Colesterolul diferă semnificativ la cei cu diabet faţă de cei care nu au
diabet.

Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
neegale. (Vom presupune că variaţiile celor două populaţii din care provin eşantioanele nu sunt egale).

Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).

Ipoteza nulă (Ho): Mediile valorilor Colesterolului la diabetici, respectiv la nediabetici nu diferă
semnificativ.

Ipoteza alternativă (H1): Mediile valorilor Colesterolului la diabetici, respectiv la nediabetici


diferă semnificativ.

Etape de rezolvare în Excel - Instrucţiuni:

1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variaţii neegale: Two-
Sample Assuming Unequal Variances.
2. Completaţi câmpurile din fereastra ca la punctul b) dar pentru Colesterol:
3. După toţi paşii de mai sus se vor obţine următoarele rezultate:

t-Test: Two-Sample Assuming Unequal Variances

Variable
1 Variable 2
Mean 215,3514 168,8696
Variance 2496,012 348,9368
Observations 37 23
Hypothesized Mean
Difference 0
df 50
t Stat 5,11342
P(T<=t) one-tail 2,51E-06 =0,00000251
t Critical one-tail 1,675905
P(T<=t) two-tail 5,02E-06 =0,00000502
t Critical two-tail 2,00856

Interpretarea rezultatelor

 Se compară media aritmetică a Colesterolului la diabetici: 215,35 cu media Colesterolului


la cei fără diabet 168,86 (Mean).
 P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât =0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a Colesterolului pacienţilor diabetici este mai mare
semnificativ decât media aritmetică a Colesterolului pacienţilor fără diabet cu o eroare
alpha = 0,05.

 t critic one-tailed = 1,67. Dacă t stat  t critic one tail se poate spune că media aritmetică a
Colesterolului pacienţilor diabetici este mai mare semnificativ decât media Colesterolului
pacienţilor fără diabet cu o eroare alpha = 0,05.

 Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a Colesterolului pacienţilor diabetici este diferită


semnificativ de media aritmetică a Colesterolului pacienţilor fără diabet cu o eroare alpha =
0,05.

 t critic two-tailed= 2. Dacă t stat  (;t critic one tail ]  [t critic one tail ;) se poate spune
că media aritmetică a Colesterolului pacienţilor diabetici diferă semnificativ de media
Colesterolului pacienţilor fără diabet cu o eroare alpha = 0,05. (tcritic corespunde
probabilităţii 0,05).

f) Să se studieze dacă TG (Trigliceridele) iniţial şi final diferă semnificativ la cei cu diabet.

Analiza problemei (modelul statistic si alegerea testului):

- o variabilă cantitativă: TG (deci poate fi vorba de compararea mediilor)


- două eşantioane: iniţial, final
- eşantioanele sunt dependente sau perechi

Se va aplica Testul t pentru compararea mediilor a două eşantioane perechi.

Condiţii necesare pentru testul t (dacă aceste condiţii nu sunt îndeplinite nu se poate aplica testul t
pentru eşantioane dependente):

1. Observaţiile din cele două eşantioane sunt dependente sau perechi.


2. Indivizii sunt aleşi aleator din populaţie.
3. Observaţiile sunt distribuite normal.

Va fi necesar să verificăm distribuţia normală (media şi mediana să aibă valori aproximativ egale,
boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la punctul a)).

Ipoteza nulă (Ho): Mediile valorilor TG iniţial şi final nu diferă semnificativ.

Ipoteza alternativă (H1): Mediile valorilor TG iniţial şi final diferă semnificativ.


Etape de rezolvare în Excel - Instrucţiuni:

1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t pentru eşantioane perechi:
Paired Two Sample for Means.

2. Completaţi câmpurile din fereastra de mai jos (comparăm mediile TG, deci la Range vom
selecta TG):

3. Variable 1 Range: se selectează domeniul E1:E38. Este domeniul care cuprinde valorile TG
iniţiale.
4. Variable 2 Range: se selectează domeniul H1:H38. Este domeniul care cuprinde valorile TG
final.
5. Hypothesized Mean Difference: introduceţi 0 ceea ce înseamnă că presupunem că cele două
medii ale TG iniţial şi final sunt egale (conform ipotezei nule - Ho).
6. Labels trebuie bifat pentru că în selecţia noastră avem cap de tabel.
7. Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului t.
8. Output Range – rezultatele vor fi afişate in aceeaşi pagină începând cu celula R2
9. Click OK
10. După toţi paşii de mai sus se vor obţine următoarele rezultate:

t-Test: Paired Two Sample for Means

TG TG dupa tratament
Mean 206,7838 228,5135
Variance 23594,23 24285,03
Observations 37 37
Pearson Correlation 0,995551
Hypothesized Mean
Difference 0
df 36
t Stat -8,95254
P(T<=t) one-tail 5,48E-11 =0,0000000000548
t Critical one-tail 1,688297
P(T<=t) two-tail 1,1E-10 =0,00000000011
t Critical two-tail 2,028091

Interpretarea rezultatelor

 Se compară media aritmetică a TG iniţial: 206,78 cu media TG final 228,51.

 Variance - Variaţia TG iniţial şi final.

 Talia eşantionului este 37 .

 Pearson corelation r=0,99 coeficientul de corelaţie Pearson, ne indică o corelaţie foarte


bună.

 df – gradele de libertate = 36 calculat după formula n-1=37-1.

 t Stat este parametrul testului.

 P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a TG iniţial este mai mică semnificativ decât media
aritmetică a TG final cu o eroare alpha = 0,05.

 t critic one-tailed = 1,68. Dacă t stat  t critic one tail se poate spune că media aritmetică a TG
iniţial este mai mică semnificativ decât media TG final cu o eroare alpha = 0,05. (tcritic
corespunde probabilităţii 0,05).

 Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a TG iniţial este diferită semnificativ de media aritmetică a
TG final cu o eroare alpha = 0,05.

 t critic two-tailed= 2. Dacă t stat  (;t critic one tail ]  [t critic one tail ;) se poate spune
că media aritmetică a TG iniţial diferă semnificativ de media TG final cu o eroare alpha =
0,05. (tcritic corespunde probabilităţii 0,05).

g) Să se studieze dacă HDL iniţial şi final diferă semnificativ la cei cu diabet.

Se va aplica Testul t pentru compararea mediilor a două eşantioane perechi.

Va fi necesar să verificăm distribuţia normală (media şi mediana să aibă valori aproximativ egale,
boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la punctul a)).
Ipoteza nulă (Ho): Mediile valorilor HDL iniţial şi final nu diferă semnificativ.

Ipoteza alternativă (H1): Mediile valorilor HDL iniţial şi final diferă semnificativ.

Etape de rezolvare în Excel - Instrucţiuni:

1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t pentru eşantioane perechi:
Paired Two Sample for Means.
2. Completaţi câmpurile din fereastra apărută ca la punctul de mai sus (comparăm mediile HDL,
deci la Range vom selecta HDL):
3. După toţi paşii de mai sus se vor obţine următoarele rezultate:
t-Test: Paired Two Sample for Means

HDL dupa
HDL tratament
Mean 44,78378 49,83784
Variance 159,952 159,8619
Observations 37 37
Pearson Correlation 0,995667
Hypothesized Mean
Difference 0
df 36
t Stat -26,1142
P(T<=t) one-tail 2,72E-25
t Critical one-tail 1,688297
P(T<=t) two-tail 5,43E-25
t Critical two-tail 2,028091

Interpretarea rezultatelor

 Se compară media aritmetică a HDL iniţial: 44,78 cu media HDL final 49,83.

 Pearson corelation r=0,99 coeficientul de corelaţie Pearson, ne indică o corelaţie foarte


bună între HDL iniţial şi final.

 P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a HDL iniţial este mai mică semnificativ decât media
aritmetică a HDL final cu o eroare alpha = 0,05.

 t critic one-tailed = 1,68. Dacă t stat  t critic one tail se poate spune că media aritmetică a
HDL iniţial este mai mică semnificativ decât media HDL final cu o eroare alpha = 0,05.
(tcritic corespunde probabilităţii 0,05).

 Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:
Se poate spune că media aritmetică a HDL iniţial este diferită semnificativ de media aritmetică
a HDL final cu o eroare alpha = 0,05.

 t critic two-tailed= 2. Dacă t stat  (;t critic one tail ]  [t critic one tail ;) se poate spune
că media aritmetică a HDL iniţial diferă semnificativ de media HDL final cu o eroare alpha
= 0,05. (tcritic corespunde probabilităţii 0,05).

h) Să se studieze dacă Colesterolul iniţial şi final diferă semnificativ la cei cu diabet.

Se va aplica Testul t pentru compararea mediilor a două eşantioane perechi.

Va fi necesar să verificăm distribuţia normală (media şi mediana să aibă valori aproximativ egale,
boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la punctul a)).

Ipoteza nulă (Ho): Mediile valorilor colesterolului iniţial şi final nu diferă semnificativ.

Ipoteza alternativă (H1): Mediile valorilor colesterolului iniţial şi final diferă semnificativ.

Etape de rezolvare în Excel - Instrucţiuni:

1. Alegeţi opţiunea Data analysis din meniul Tools. Alegeţi testul t pentru eşantioane perechi:
Paired two sample for Means.
2. Completaţi câmpurile din fereastra apărută ca la punctul de mai sus (comparăm mediile
colesterolului, deci la range vom selecta colesterolului):
3. După toţi paşii de mai sus se vor obţine următoarele rezultate:
T-test: paired two sample for means

Colesterol Colesterol dupa tratament


Mean 215,3514 169
Variance 2496,012 503,2222
Observations 37 37
Pearson correlation 0,246267
Hypothesized mean
difference 0
Df 36
T stat 5,699352
P(t<=t) one-tail 8,77E-07
T critical one-tail 1,688297
P(t<=t) two-tail 1,75E-06
T critical two-tail 2,028091

Interpretarea rezultatelor

 se compară media aritmetică a colesterolului iniţial: 215 cu media colesterolului final 169.

 pearson corelation r=0,24 coeficientul de corelaţie pearson, ne indică o corelaţie slabă între
colesterolul iniţial şi final.

 p(t<=t) one tailed - probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

interpretare medicală:
se poate spune că media aritmetică a colesterolului iniţial este mai mică semnificativ decât
media aritmetică a colesterolului final cu o eroare alpha = 0,05.

 t critic one-tailed = 1,68. Dacă t stat  t critic one tail se poate spune că media aritmetică a
colesterolului iniţial este mai mică semnificativ decât media colesterolului final cu o eroare
alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

 probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.

Interpretare medicală:

Se poate spune că media aritmetică a colesterolului iniţial este diferită semnificativ de media
aritmetică a colesterolului final cu o eroare alpha = 0,05.

 t critic two-tailed= 2. Dacă t stat  (;t critic one tail ]  [t critic one tail ;) se poate spune
că media aritmetică a colesterolului iniţial diferă semnificativ de media colesterolului final
cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).

1.3. Aplicaţii ale unor teste statistice pentru pentru comparararea


mediilor a trei sau mai multor esantioane

Aplicatia nr. 1. Anova pentru esantioane independente

Următorilor pacienţi li s-a înregistrat IMC-ul (indice de masă corporală IMC = Greutate/(Inălţime) 2)
înainte de un transplant renal:
Comparaţi media IMC înainte de un transplant renal la pacienţii care au făcut diabet permanent după
transplant cu media IMC a pacienţilor care au dezvoltat diabet după transplant, dar nu s-a
permanentizat şi cu media IMC la pacienţii care nu au dezvoltat diabet după transplant.

One-way Between-groups Anova

F-test

Avem de studiat p eşantioane E1, E2, …, Ep cu n1, n2, …, np indivizi pentru aceasta se compară
s 2 ,s 2 ,...,s 2p
mediile observate m1, m2, …, mp pe cele p eşantioane. Fie 1 2 variaţiile observate pe cele p
eşantioane.

Presupunem că eşantioanele E1, E2, …, Ep nu prezintă diferenţe semnificative deoarece ele


aparţin aceleiaşi populaţii cu  şi variaţie 2 necunoscute.

Calculăm parametrul testului F (Fisher) astfel:

n  F1
F
F2 ,

unde n=n1+n2+…+np, F1 este variaţia între medii:

 ( m  m)
i
2

F1  i 1

p 1 ,

unde
p

m i
m i 1

p ,

iar F2 variaţia în interiorul grupurilor

s
i 1
2
i

F2 = n  p .

Condiţii pentru F-test:

1. Observaţiile din cele p eşantioane sunt independente.


2. Indivizii sunt aleşi aleator din cele p populaţii.
3. Observaţiile sunt distribuite normal în cele p populaţii.
4. Variaţiile populaţiilor sunt necunoscute, dar se presupune că sunt egale.

Instrucţiuni:

1. Introduceţi datele de mai sus într-un tabel Excel.

2. Pentru a folosi pachetul Data Analysis el trebuie instalat. Pentru aceasta verificaţi dacă nu a
fost instalat deja: deschideţi meniul Tools. Dacă opţiunea Data Analysis este prezentă, atunci
se trece la pasul următor. Dacă opţiunea Data Analysis nu este prezentă, atunci din meniul
Tools se alege opţiunea Add-Ins. Va apărea o fereastră asemănătoare celei de mai jos în care
se va bifa prima opţiune Analysis ToolPak. Apăsaţi butonul Ok.

5. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi Anova: Single Factor. Click OK.
6. Completaţi câmpurile din fereastra de mai jos:

7. Input Range: se selectează domeniul A2:C15 astfel: clic în A2, efectuaţi operaţia drag and drop
până se ajunge la celula C15. Este domeniul care cuprinde valorile IMC pentru cele trei
eşantioane.
8. Grouped By: Columns în cazul nostru, deoarece eşantioanele sunt date pe coloane.
9. Labels trebuie bifat pentru că în selecţia noastră avem cap de tabel.
10. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele Anova (titlul foii trebuie
introdus).
11. Click OK.
12. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Interpretarea rezultatelor:

Primul tabel – Summary

 Groups – este titlul celor trei eşantioane.

 Count – numărul de pacienţi pentru fiecare eşantion

 Sum – Suma valorilor din fiecare eşantion

 Average – Media aritmetică a IMC din fiecare eşantion.

 Variance – Variaţia IMC din fiecare eşantion

Al doilea tabel – Anova

 Source of variation – variaţia este împărţită în variaţia între medii (between groups) şi din
interiorul grupului (within groups) Talia eşantionului celor care nu consumă Grăsimi este
19. Talia eşantionului celor care consumă Grăsimi este 11.

 SS – variaţia între medii este 6,37, variaţia din interiorul grupului este 272,59.

 df – gradele de libertate = df between = p-1 = 2, iar df within = n-p = 30-3 = 27.

 MS – suma de pătrate MS=SS/df

 F este parametrul testului.

 P-value – Probabilitatea Dacă se adevereşte ipoteza nulă că media aritmetică a celor trei
eşantioane nu diferă semnificativ, atunci p>0,05. Dacă p<0,05, atunci mediiile diferă
semnificativ. In cazul nostru p-value>0,05 deci trebuie să acceptăm ipoteza nulă.

 F crit este F corespunzător lui alpha=0,05 Dacă Fcrit = 3.35 ≥ F = 0,31 spune că mediiile
aritmetice a IMC ale celor trei eşantioane nu diferă semnificativ.

Aplicatia nr. 2. Anova pentru eşantioane perechi

Se doreşte stabilirea efectului asupra scăderii tensiunii arteriale diastolice (TAS) a tratamentului
cu trei medicamente antihipertensive diferite. Se măsoară TAS (tensiunea arterială sistolică) la
20 de pacienţi hipertensivi după tratamentul cu medicamentul A, B, C şi Placebo.

Valoare
id_pacient Medicament A Medicament B Medicament C Placebo
initiala
1 145 114 95 146 180
2 160 111 101 105 195
3 175 90 145 146 187
4 200 136 119 122 182
5 220 105 120 133 191
6 180 90 120 131 160
7 145 103 117 141 194
8 150 126 95 104 155
9 175 109 140 99 163
10 180 130 150 127 144
11 195 96 110 145 172
12 185 135 141 142 153
13 200 90 115 103 151
14 170 130 127 133 187
15 170 110 98 95 155
16 175 95 130 110 157
17 180 140 119 91 158
18 145 90 97 126 175
19 190 113 124 134 141
20 165 121 117 101 159

One-way Repeated Measures Anova

F-test

Avem de studiat k eşantioane E1, E2, …, Ek cu n indivizi fiecare, pentru aceasta se compară
2 2 2
mediile observate m , m , …, m pe cele k eşantioane. Fie s1 ,s 2 ,...,s k variaţiile observate pe cele k
1 2 k
eşantioane.

Presupunem că eşantioanele E1, E2, …, Ek nu prezintă diferenţe semnificative deoarece ele


aparţin aceleiaşi populaţii cu  şi variaţie 2 necunoscute.

Calculăm parametrul testului F (Fisher) astfel:

Ftreatments
F
Ferror ,

Condiţii pentru F-test:


1. Indivizii sunt aleşi aleator din cele p populaţii.
2. Observaţiile sunt distribuite normal în cele p populaţii.
3. Variaţiile populaţiilor sunt necunoscute, dar se presupune că sunt egale.
4. Covariaţiile pentru fiecare pereche de două eşantioane sunt egale.

Instrucţiuni:

1. Introduceţi datele de mai sus într-un tabel Excel.

2. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi Anova: Two-Factor Widthout
Replication. Click OK.
3. Completaţi câmpurile din fereastra de mai jos:

4. Input Range: se selectează domeniul A1:F21 astfel: clic în A1, efectuaţi operaţia drag and
drop până se ajunge la celula F21. Este domeniul care cuprinde toate datele necesare
analizei.
5. Labels trebuie bifat pentru că în selecţia noastră avem cap de tabel.
6. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele Anova (titlul foii trebuie
introdus).
7. Click OK.
8. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Anova: Two-Factor Without Replication

SUMMARY Count Sum Average Variance


1 5 680 136 1070,5
2 5 672 134,4 1713,8
3 5 743 148,6 1406,3
4 5 759 151,8 1362,2
5 5 769 153,8 2430,7
6 5 681 136,2 1227,2
7 5 700 140 1210
8 5 630 126 715,5
9 5 686 137,2 1089,2
10 5 731 146,2 448,2
11 5 718 143,6 1711,3
12 5 756 151,2 399,2
13 5 659 131,8 1969,7
14 5 747 149,4 746,3
15 5 628 125,6 1194,3
16 5 667 133,4 1080,3
17 5 688 137,6 1184,3
18 5 633 126,6 1224,3
19 5 702 140,4 880,3
20 5 663 132,6 780,8

Valoare initiala 20 3505 175,25 409,1447


Medicament A 20 2234 111,7 286,4316
Medicament B 20 2380 119 277,8947
Medicament C 20 2434 121,7 354,0105
Placebo 20 3359 167,95 295,2079

ANOVA
Source of Variation SS df MS F P-value F crit
Rows 7386,96 19 388,7874 1,260351 0,235436 1,725029
Columns 71933,46 4 17983,37 58,29754 2,06E-22 2,492049
Error 23444,14 76 308,4755

Total 102764,6 99

9. Interpretarea rezultatelor:

Primul tabel – Summary – se găsesc rezultatele pentru fiecare pacient în parte şi pentru
fiecare tip de tratament

 Summary – Id_ul pacientului de la 1 la 20 sau Tipul de tratament.

 Count – numărul de testări la care a fost supus fiecare pacient, in cazul nostru 5. In cazul
celor cinci tratamente este trecut numărul de pacienţi testaţi: 20.

 Sum – Suma valorilor TAS după fiecare tratament pentru fiecare subiect. In cazul celor
cinci tratamente este calculată suma valorilor TAS pentru fiecare pacient la respectivul
tratament.

 Average - Media aritmetică a valorilor TAS după fiecare tratament pentru fiecare subiect.
In cazul celor cinci tratamente este calculată media aritmetică a valorilor TAS pentru
pacienţi la respectivul tratament.

 Variance – Variaţia valorilor TAS după fiecare tratament pentru fiecare subiect. In cazul
celor cinci tratamente este calculată variaţia valorilor TAS pentru pacienţi la respectivul
tratament.

Al doilea tabel - Anova

 Source of variation

o Rows – Se compară subiecţii între ei

o Columns – Se compară tratamentele unul cu celălalt

o Error – este interacţiunea dintre subiecţi şi tratamente

 SS – suma de pătrate
o SSrows = SSsubject

n k n k

 ( xij ) 2
i 1 j 1
( xij ) 2
i 1 j 1
SS subjects  
k nk

o SScolumns = SStreatments

2
k
 n  n k

  
j 1  i 1
X ij 

( 
i 1 j 1
xij ) 2
SS treatments  
n nk

o SSerror = SSinteracion

2
n
 n k
 n k k

n k (  x ij )   
j 1  i 1
X ij 


2
(  xij ) 2
SS error   xij  i 1 j 1  
i 1 j 1

i 1 j 1 nk n k

o SStotal

n k

n k
( xij ) 2
SS total   xij 
i 1 j 1

i 1 j 1 nk

 df – gradele de libertate
o dfrows = dfsubjects = n-1
o dfcolumns = dfreatments = k-1
o dferror = (n-1)(k-1)
o dftotal = nk-1
 MS – media de pătrate MS=SS/df
 F este parametrul testului
Frows=Fsubjects=MSsubjects/MSerror
Fcolumns=Ftreatments=MScolumns/MSerror

 P-value - Probabilitatea Nu se interpretează decât p value pentru tratamente. Dacă se


adevereşte ipoteza nulă că media aritmetică a celor cinci tratamente nu diferă semnificativ,
atunci p>0,05. Dacă p<0,05, atunci mediiile diferă semnificativ. In cazul nostru p-
value=2,06E-22<0,000001>0,05 deci mediile celor cinci tratamente diferă semnificativ.

 F crit este F corespunzător lui alpha=0,05 Dacă Fcrit = 2.49 ≤ F = 58,29 putem spune că
mediiile aritmetice a TAS pentru cele cinci tratamente eşantioane diferă semnificativ.

Aplicatia nr. 3. Anova pentru doi factori

Obezitatea este o boală tot mai răspândită. Se încearcă studiul serotoninei, care este un
neurotransmiţător. Serotonina a fost măsurată în timpul autopsiei a 10 de obezi 5 tineri şi 5
peste 50 de ani. A fost luat şi un grup de control: 10 persoane cu o greutate normală, 5 tineri şi
5 peste 50 de ani. Serotonina a fost măsurată şi în cazul acestor subiecţi. Au fost înregistrate
următoarele observaţii

Peste 50
Tineri ani
Obezi 1350 790
1270 1100
980 760
1205 560
1100 670
Greutate 1820 345
normala 2010 525
1670 760
1230 980
1455 560

Two-way between-Groups Anova

In acest caz Anova se numeşte two-way sau dublu factor deoarece avem două variabile
independente: Greutatea şi Grupa de vârstă. Avem patru eşantioane diferite: obezi tineri, obezi peste
50 de ani, subiecţi cu greutate normală tineri şi subiecţi cu greutate normală peste 50 de ani. Se pot
pune trei feluri de întrebări:

1. Există diferenţă între serotonina la obezi şi la cei cu greutate normală?

2. Există diferenţă între serotonina la tineri şi la cei peste 50 de ani?

3. Există diferenţă între grupedatorate factorilor combinaţi?

F-test

Avem de studiat k eşantioane E1, E2, …, Ek cu n indivizi fiecare, pentru aceasta se compară
2 2 2
mediile observate m , m , …, m pe cele k eşantioane. Fie s1 ,s 2 ,...,s k variaţiile observate pe cele k
1 2 k
eşantioane.

Presupunem că eşantioanele E1, E2, …, Ek nu prezintă diferenţe semnificative deoarece ele


aparţin aceleiaşi populaţii cu  şi variaţie 2 necunoscute.

Calculăm parametrul testului F (Fisher) astfel:

Ftreatments
F
Ferror ,

Condiţii pentru F-test:


5. Indivizii sunt aleşi aleator din cele p populaţii.
6. Observaţiile sunt distribuite normal în cele p populaţii.
7. Variaţiile populaţiilor sunt necunoscute, dar se presupune că sunt egale.
8. Observaţiile sunt independente.
Instrucţiuni:

1. Introduceţi datele de mai sus într-un tabel Excel.

2. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi Anova: Two-Factor Width
Replication. Click OK.

3. Completaţi câmpurile din fereastra de mai jos:

4. Input Range: se selectează domeniul A1:C11 astfel: clic în A1, efectuaţi operaţia drag and
drop până se ajunge la celula C11. Este domeniul care cuprinde toate datele necesare
analizei.
5. Rows per sample: numărul de indivizi din fiecare eşantion, în cazul nostru 5.
6. Alpha alegem 0,05.
7. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele Anova (titlul foii trebuie
introdus).
8. Click OK.
9. După toţi paşii de mai sus se vor obţine următoarele rezultate:
10. Interpretarea rezultatelor:

Primul tabel – Summary – se găsesc rezultatele pentru fiecare dintre cele patru eşantioane şi
per total (Obezi şi cei cu greutate normală)

 Count – numărul de indivizi din fiecare eşantion, în cazul nostru: 5 şi per total: 10.

 Sum – Suma valorilor serotoninei pentru fiecare eşantion şi per total.

 Average - Media aritmetică a valorilor serotoninei pentru fiecare eşantion şi per total.

 Variance – Variaţia valorilor serotoninei pentru fiecare eşantion şi per total.

Al doilea tabel - Anova

 Source of variation

o Sample – Se compară obezii cu cei cu greutate normală

o Columns – Se compară cei tineri cu cei peste 50 de ani

o Interaction – este interacţiunea dintre greutate şi grupa de vârstă

o Within – în interiorul grupurilor


o Total – per total

 SS – suma de pătrate

o SSsample

p k n p k n

 ( xijl ) 2
l 1 j 1 i 1
( xijl ) 2
l 1 j 1 i 1
SS sample  
nk nkp

o SScolumns

2
k
 p n  p k n

   X ijl 
j 1  l 1 i 1
( xijl ) 2
SS columns    l 1 j 1 i 1
np nkp

o SSinteraction

p k n p k n p k n k p n
( xijl ) 2  ( xijl ) 2  ( xijl ) 2  ( xijl ) 2
l 1 j 1 i 1 l 1 j 1 i 1 l 1 j 1 i 1 j 1 l 1 i 1
SS int eraction    
nkp n nk np

o SSwithin

p k n

p k n  ( x ijl )2
SS within   xijl2 
l 1 j 1 i 1

l 1 j 1 i 1 n

o SStotal

p k n

p k n
( xijl ) 2
SS total   xijl2 
l 1 j 1 i 1

l 1 j 1 i 1 nkp

 df – gradele de libertate

o dfsample = p-1

o dfcolumns = k-1

o dfinteraction = (p-1)(k-1)

o dfwithin = pk(n-1)

o dftotal = pnk-1

 MS – media de pătrate MS=SS/df


 F este parametrul testului

Fsample = Ssample/MSwithin

Fcolumns = MScolumns/MSwithin

Finteraction = MSinteraction/MSwithin

 P-value - Probabilitatea Se compară fiecare p cu 0,05. Se răspunde la cele trei întrebări


iniţiale în funcţie de valoarea probabilităţii p. In cazul nostru pcolumns şi pinteraction sunt mai mici
decât 0,05. Putem afirma că grupa de varstă infuenţează nivelul serotoninei şi combinarea
celor doi factori obezitatea şi grupa de varsta infuenţează nivelul serotoninei. Nu ştim cum
inflenţează fiecare factor nivelul de seronină, doar că există difernţe între eşantioane.

 F crit este F corespunzător lui alpha=0,05 Dacă Fcrit = 4.49 ≤ F putem spune că mediiile
aritmetice ale serotoninei pentru eşantioanele respective (corespunzătoare fiecărui F)
diferă semnificativ.

Aplicatia nr. 4. Anova pentru doi factori

Se analizează pacienţii cu o boală cardiovasculară. S-a observat că pacienţii mor în timpul a trei ani de
la apariţia bolii din cauza aritmiei. Magneziul este un important factor reglator, se presupune că
absenţa lui duce la provocarea aritmiei. S-au luat în studiu 20 de pacienţi bolnavi de boala
cardiovasculară dintre care 7 cu aritmie şi 13 fără aritmie. S-a măsurat nivelul magneziului în
muşchiul inimii la cele două loturi de pacienţi. Se doreşte testarea variaţiilor magneziului la cele două
loturi de pacienţi şi deciderea dacă nivelul magneziului este mai mare la pacienţii fără aritmie decăt la
cei cu aritmie.

Magneziu
id_pacient Aritmie (nmol/mg
protein)
1 Da 83
2 Da 45
3 Da 78
4 Da 61
5 Da 57
6 Da 33
7 Da 66
8 Nu 77
9 Nu 73
10 Nu 95
11 Nu 93
12 Nu 66
13 Nu 86
14 Nu 88
15 Nu 77
16 Nu 81
17 Nu 75
18 Nu 93
19 Nu 64
20 Nu 86
F-Test pentru testarea variaţiei a două eşantioane

F-test se foloseşte pentru testarea a două medii sau a două variaţii pentru două eşantioane diferite.
Formula pentru parametrul testului este:

S12
F
S 22 , unde S12 şi S 22 sunt variaţiile celor două eşantioane.

Condiţii pentru F-test:

1. Observaţiile din cele două eşantioane sunt independente.


2. Indivizii sunt aleşi aleator din fiecare populaţie.
3. Observaţiile sunt distribuite normal în ambele populaţii.

Instrucţiuni:

1. Tabelul nostru este sortat după valorile variabilei Aritmie. Dacă nu ar fi sortat ar trebui să îl
sortăm.
2. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi F-test: Two-Sample for Variances.
Click OK.

3. Completaţi câmpurile din fereastra de mai jos:

4. Variable 1 Range: se selectează domeniul C2:C8 astfel: clic în C2, efectuaţi operaţia drag and
drop până se ajunge la celula C8. Este domeniul care cuprinde valorile magneziului pentru cei
care au aritmie.
5. Variable 2 Range: se selectează domeniul C9:C21 astfel: clic în C9, efectuaţi operaţia drag and
drop până se ajunge la celula C21. Este domeniul care cuprinde valorile magneziului pentru cei
care nu au aritmie.
6. Labels nu trebuie bifat pentru că în selecţia noastră nu avem cap de tabel.
7. Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului F.
8. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele F-test (titlul foii trebuie
introdus).
9. Click OK
10. După toţi paşii de mai sus se vor obţine următoarele rezultate:

11. Interpretarea rezultatelor

 Mean - Media aritmetică – media aritmetică a magneziului pentru pacienţii care au aritmie
este: 60,43. Media aritmetică a magneziului pentru pacienţii care nu au aritmie este: 81,08

 Variance - Variaţia magneziului pentru pacienţii care au aritmie este de 308,62, iar variaţia
magneziului pentru pacienţii care nu au aritmie este de 102,41

 Observation - Talia eşantionului celor care au aritmie este 19. Talia eşantionului celor care
nu au aritmie este 11.

 df – gradele de libertate = sunt n-1 = 7-1 pentru pacienţii care au aritmie şi m-1 = 13-1
pentru pacienţii care nu au aritmie.

 F este parametrul testului.

 P(F<=f) one tailed - Probabilitatea one-tailed In cazul testului F se face numai un test one-
tailed. p = 0,049 < 0,05 deci testul este statistic semnificativ. Variaţia magneziului este
semnificativ mai mare la cei cu aritmie decât la cei fără aritmie.

F  [2,99; )
 t critic one-tailed = 2,99 ≤ 3,01. Dacă se poate spune că variaţia
magneziului pentru pacienţii care au aritmie este semnificativ mai mare decât variaţia
magneziului pentru pacienţii care nu au aritmie cu o eroare alpha = 0,05 (tcritic
corespunde probabilităţii 0,05).

APLICATII STATISTICA
TESTELE DE CONCORDANTA

Aplicatia nr. 1. Testul Hi-pătrat

Poluarea cu fosfor este factor de risc pentru eutrofizare? S-au studiat 80 de situri. Datele le aveţi pe
fişierul Excel -Poluare.Chi.xls.

Testul Hi-pătrat se aplică pe două variabile calitative. Formula parametrului testului este:

X 
2
LC
f i
o
 f it  2

i 1 f it
, unde L numărul de categorii a variabilei independente, C numărul de categorii a
o t
variabilei dependente, f i frecvenţele observate şi f i frecvenţele teoretice.

Condiţii pentru testul Hi-patrat:

1. Indivizii/siturile sunt aleşi/alese aleator şi independent din populaţie.


2. Variabilele sunt variabile calitative.
3. Frecvenţele observate trebuie să fie mai mari decât 5 în fiecare dintre celulele tabelului de
contingenţă observat.

Instrucţiuni:
1. Alegeţi din meniul Insert opţiunea Pivot Table and Pivot Chart Report pentru realizarea
tbelului de contingenţă observat.

2. Se selectează din tabelul de date domeniul variabilelor Pol.Fosfat şi Bloom. Pentru aceasta clic
în câmpul Range, clic pe celula A2, apăsaţi tasta SHIFT şi clic pe celula D81 sau se tastează
A2:B81. Selectăm New worksheet, ceea ce va avea ca efect amplasarea tabelului pivot pe o
foaie nouă. Click pe butonul oK.

3. Diagrama pentru efectuarea unui tabel pivot este afişată în figura de mai jos. Butoanele
pentru fiecare variabilă introdusă în câmpul Range de la pasul 2 se găsesc în partea dreaptă a
ferestrei, în cazul nostru variabilele Pol.Fosfat şi Bloom. Prin operaţia drag and drop se trage
butonul Pol.Fosfat peste Row, butonul Bloom peste Columns, iar apoi se trage din nou butonul
Pol.Fosfat peste Data.
4. Veţi vedea în zona datelor un buton pentru funcţia SUM, care este funcţia implicită pentru o
variabilă cantitativă. Deoarece noi dorim să efectuăm un tabel de frecvenţă vom schimba
funcţia Sum cu funcţia Count. Pentru aceasta vom executa dublu clic pe butonul SUM.
5. Va apărea fereastra de dialog Value Field Settings ca mai jos. Selectaţi funcţia Count din lista
Summarize by. Clic pe butonul OK.

In acest tabel pivot Grand total se referă la numărul total de pacieţi luaţi în evidenţă. Daca
avem avem valori lipsă (mising value), dorim ca aceste valori să fie eliminate. In acest caz clic
pe butonul cu săgeată din dreptul variabilei de pe coloana.
6. Dezactivaţi (blank). Clic OK.
7. Pentru calcularea frecvenţelor teoretice realizati urmatorul tabel:

8. Clic în celula C11. Introduceţi formula: =B7*D5/D7 Apăsaţi tasta Enter. Formula generală de
calcul a frecvenţelor teoretice este:

totalulpelinie * totalpecoloana
Fi t 
totalindivizi

9. Analog calculăm celelalte frecvenţe teoretice. Clic în celula D11. Introduceţi formula:
=C7*D5/D7 Apăsaţi tasta Enter.
10. Clic în celula C12. Introduceţi formula: =B7*D6/D7 Apăsaţi tasta Enter.
11. Clic în celula D12. Introduceţi formula: =C7*D6/D7 Apăsaţi tasta Enter.
12. Calcularea parametrilor testului Hi-pătrat. Introduceţi următorul cap de tabel:

13. df se calculează după formula (L-1)(C-1) unde L = numărul de linii, iar C = numărul de coloane,
în cazul nostru gradele de libertate sunt 1, introduceţi 1 în celula B16.
14. Hi-patrat critic se calculează cu funcţia ChiInv din Insert – Function:
15. Parametrii se completează astfel: Probability: este probabilitatea pentru hi-pătrat critic în
cazul nostru nivelul de la care testul are semnificaţie alpha=0,05, Deg_freedom sunt gradele
de libertate. Clic OK.

16. p_value – se calculează cu ajutorul funcţiei CHITEST din Insert – Function:


17. Parametrii se completează astfel: Actual_range: domeniul cu frecvenţele observate B5:C6;
Expected_range: domeniul cu frecvenţele teoretice B11:C12. Clic OK.

18. Hi-pătrat observat se calculează cu funcţia ChiInv: Probability este probabilitatea p_value pe
care am calculat-o mai sus, Deg_freedom sunt gradele de libertate. Clic OK.

19. După toate calculele vom avea următoarele rezultate:


20. Interpretarea rezultatelor:
۲ Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului
۲ df – gradele de libertate = (C-1)(L-1)=1, unde L numărul de categorii a variabilei
independente, C numărul de categorii a variabilei dependente.
X 2  [3,84; )
۲ Hi pătrat critic = 3,84≤ 5.27=hi-pătrat observat. Dacă se poate spune
că poluarea cu fosfor este factor de risc pentru eutrofizare cu o eroare alpha = 0,05. (Hi
pătrat critic corespunde probabilităţii 0,05).
۲ p_value - Probabilitatea Deoarece probabilitatea obţinută este mai mică decât
alpha=0,05 se poate trage concluzia că testul hi_patrat este statistic semnificativ.
Ipoteza nulă este refuzată. Se poate spune că poluarea cu fosfor este factor de risc
pentru eutrofizare cu o eroare alpha = 0,05.
۲ Hi pătrat observat este parametrul testului.

S-ar putea să vă placă și