Documente Academic
Documente Profesional
Documente Cultură
TESTELE DE COMPARATIE
Seminar STATISTICA
Obiectivele seminarului:
Cunoştiinte necesare1:
Aplicatia nr. 1.
1
Noţiunile neccesare şi probleme asemănătoare se găsesc în Cursul de statistica ecologica.
2
Analiza problemei
1. Dorim să comparăm LT pentru larvele provenite din icre embrionate expuse la UV cu LT pentru
populaţia din mediul natural. Variabila LT este cantitativǎ continuǎ, deci calcularea mediei are
sens. Metoda cea mai simplă este de a compara media LT a indivizilor selectaţi în eşantion cu
media LT a populaţiei.
2. Se calculează media LT a celor 40 de larve măsurată imediat dupa eclozare.
3. Se formulează ipoteza nulă H0: Presupunem că media LT a larvelor provenite din embrioni
expusi la radiatii UV nu diferă de media LT a larvelor provenite din embrioni neexpusi la UV.
Ipoteza nulă poate să fie adevărată sau falsă. Dacă este adevărată ipoteza nulă va reprezenta şi
concluzia studiului, dar dacă este falsă trebuie să acceptăm o ipoteză alternativă care este negaţia
ipotezei nule şi anume H1: media LT a larvelor provenite din embrioni expusi la radiatii UV la
diferă de media media LT a larvelor provenite din embrioni neexpusi la UV.
۲ că media LT a larvelor provenite din embrioni expusi la radiatii UV este mai mica decat
media LT a larvelor provenite din embrioni neexpusi la UV
۲ că media LT a larvelor provenite din embrioni expusi la radiatii UV este mai mare decat
media LT a larvelor provenite din embrioni neexpusi la UV .
Se cere:
Punctul I . Comparaţi media LT a larvelor provenite din embrioni expusi la radiatii UV cu media LT a
larvelor provenite din embrioni neexpusi la UV cu ajutorul unui test statistic.
Punctul I . Pentru a compara două medii trebuie aplicat un test statistic. Se formulează ipoteza nulă şi
cea alternativă (vezi analiza problemei).
Punctul 1. Alegerea testului statistic potrivit. Avem de comparat media m a eşantionului cu media µ a
populaţiei. Variabila luatǎ în studiu este variabilǎ continuǎ. Deoarece n>30 şi se cunoaşte deviaţia
standard a populaţiei putem aplica testul Z (normal) pentru compararea unei medii a unui eşantion cu
media populaţiei.
1. Indivizii sunt aleşi aleator din populaţie. Indivizii au fost aleşi aleator din populaţia din
mediul natural.
2. Talia eşantionului n>30. Talia eşantionului n = 40 > 30
3. Este cunoscută deviaţia standard a populaţiei. Abaterea standard a populaţiei σ = 10 µm
este cunoscută.
4. Observaţiile sunt distribuite normal în populaţie.
1. Introduceţi cu copy-paste datele de mai sus într-un tabel Excel, in coloanele A- B (la B1 vom
avea eticheta si de la B2- B41 valorile LT).
2. Introduceţi apoi următorul tabel în coloanele D-E: (am ales a=0,05 nivelul de semnificaţie pentru
testul statistic).
X
Z
5. Calculaţi parametrul Z în celula E8 după formula: E S . Selectaţi celula E8 şi introduceţi
formula: =(E3-E4)/E7. Apăsaţi tasta Enter.
6. Probabilitatea one-tailed. Vom afla probabilitatea one-tailed asociată cu Z calculat. Selectaţi
celula E10. Introduceţi formula: =ZTEST(B2:B41;E4;E5). Apasaţi tasta Enter. ZTEST – returnează
probabilitatea corespunzătoare distribuţiei normale standard pentru compararea a două medii.
7. Probabilitatea two-tailed. Pentru a calcula probabilitatea two-tailed se poate dubla
probabilitatea one-tailed. Selectaţi celula E12. Introduceţi formula: =2*E10. Apăsaţi tasta Enter.
8. Interpretarea rezultatelor
Punctul II. Găsirea intervalului de încredere pentru media populatiei stiind media
esantionului
Intervalul de încredere al mediei populaţiei estimează intervalul care include media necunoscută a
unei populaţii cu un anumit nivel de încredere. Când alpha este 0,05, atunci vom avea un interval de
încredere de 95%.
Intervalul de încredere se calculează cu formula: (m Z crit ; m Z crit ) unde m este media aritmetică
a eşantionului, Zcrit este Z critic two tailed, este eroarea standard a mediei.
Observaţie: Testul Z a fost semnificativ, deoarece media LT a populaţiei din mediul natural 120 nu
aparţine intervalului de încredere [123,03;129,22], deci este diferită de media LT a populaţiei
experimentale.
Aplicatia nr. 2.
Există ipoteza că nivelul poluarii apei din Delta Dunarii cu nitrati este mult diminuat comparativ cu 20
de ani in urma. Pentru a elucida problema s-au ales 20 de situri de unde, in acelasi timp, au fost
prelevate probe de apa. Pentru toate probele s-a masurat concentratia de nitrati (NO 3). Se ştie că, in
anul 1993 concentratia medie NO3 a fost de 47,9m/l. Valorile NO3 inregistrate se găsesc mai jos:
Analiza problemei
1. Dorim să comparăm concentratia NO3 din DD in anul 2013 cu NO3 masurata in aceiasi perioada
si aceleasi conditii in anul 1993. Variabila NO3 este cantitativǎ continuǎ, deci calcularea mediei
are sens. Metoda cea mai simplă este de a compara media valorilor NO 3 din eşantion cu media
NO3 a populaţiei.
2. Se calculează media NO3 din cele 20 de de situri din DD.
3. Se formulează ipoteza nulă H0: Presupunem că media NO3 in anul 2013 nu diferă de media
NO3 din anul 1993.
Ipoteza nulă poate să fie adevărată sau falsă. Dacă este adevărată ipoteza nulă va reprezenta şi
concluzia studiului, dar dacă este falsă trebuie să acceptăm o ipoteză alternativă care este negaţia
ipotezei nule şi anume H1: media NO3 din 2013 diferă de media NO3 din 1993.
Această diferenţă poate să fie din cauză că H1: media NO3 din 2013 este mai mica decat media
NO3 din 1993 sau H1: media NO3 din 2013 este mai mare decat media NO3 din 1993 (pentru
aceste ipoteze este destul aplicarea unui test unidirecţional – one-tail test) .
Se cere:
I. Comparaţi media NO3 din probele prelevate in 2013 cu media teoretică (cunoscută) pentru anul
1993 cu ajutorul unui test statistic.
۲ Ipoteza nulă Ho: Presupunem media NO3 din 2013 nu diferă de media NO3 din 1993.
۲ Ipoteză alternativă H1: media NO3 din 2013 diferă de media NO3 din 1993
۲ Ipoteză alternativă H1: media NO3 din 2013 este mai mica decat media NO3 din 1993
۲ Ipoteză alternativă H1: media NO3 din 2013 este mai mare decat media NO3 din 1993
II. Calculaţi intervalul de încredere pentru media NO3 necunoscută a populaţiei (toate siturile din DD)
ştiind media eşantionului (media celor 20 situri).
Punctul I . Pentru a compara două medii trebuie aplicat un test statistic. Se formulează ipoteza nulă şi
cea alternativă (vezi analiza problemei).
Punctul 1. alegerea testului statistic potrivit. Avem de comparat media m a eşantionului cu media σ a
populaţiei. Variabila luatǎ în studiu este variabilǎ continuǎ. Deoarece n<30 şi nu se cunoaşte deviaţia
standard a populaţiei putem aplica testul t (Student) pentru compararea unei medii a unui eşantion
cu media populaţiei.
Observaţii:
۲ Kurtosis = -1,3 este aproximativ egală cu 0, deci curba are aproximativ aceeaşi boltire
ca şi curba normală
۲ Skewness = 0,49 este aproximativ egală cu 0, deci curba nu este asimetrică faţa de
curba normală.
Din cele două observaţii rezultă ca avem o distribuţie aproximativ normală a datelor şi
condiţia 4 este îndeplinită.
X
t
7. Calculaţi parametrul t în celula E8 după formula: E S . Selectaţi celula E8 şi introduceţi
formula: =(E3-E4)/E7. Apăsaţi tasta Enter.
11. La rubrica X introduceţi referinţa celulei unde a fost calculat t, este de dorit ca valoarea să fie
pozitivă, adică ABS(E8). ABS returnează valoarea absolută a parametrului. La rubrica
Deg_freedom se vor introduce gradele de libertate pe care le-am calculat în celula E10. La
rubrica Tails se va introduce 1 pentru distribuţia one-tailed şi 2 pentru distribuţia 2-tailed. Clic
OK.
12. Probabilitatea two-tailed. Vom afla probabilitatea two-tailed asociată cu t calculat cu ajutorul
funcţiei TDIST – returnează probabilitatea corespunzătoare distribuţiei t pentru o valoare t
specificată. Selectaţi celula E13. Din meniul Insert alegeţi opţiunea Function. Selectaţi
categoria Statistical la rubrica Category. Selectaţi funcţia Tdist din lista de funcţii:
13. La rubrica X introduceţi referinţa celulei unde a fost calculat t, este de dorit ca valoarea să fie
pozitivă, adică ABS(E8). ABS returnează valoarea absolută a parametrului. La rubrica
Deg_freedom se vor introduce gradele de libertate pe care le-am calculat în celula E10. La
rubrica Tails se va introduce 1 pentru distribuţia one-tailed şi 2 pentru distribuţia 2-tailed. Clic
OK.
14. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Interpretarea rezultatelor
۲ Media aritmetică – media aritmetică a NO3 pentru cele 20 de situri: 29,7 mg/l.
۲ Media aritmetică a populaţiei de referinta (DD, anul 1993)- Se ştie că media NO3 IN 1993 a
fost de 47,9 mg/l. Ipoteza care se testează aici este că media aritmetică a NO3 in 2013 este
egală cu media aritmetică a NO3 in 1993.
۲ Deviaţia standard a eşantionului - este de 9,91 mg/l este deviaţia standard cu care vom
aproxima deviaţia standard a populaţiei de valori din 2013.
۲ Talia eşantionului este 20 = numărul de statii luate în observaţie.
۲ Eroarea standard furnizează o aproximaţie a diferenţei dintre media populaţiei şi cea a
eşantionului. Pentru acest exemplu se poate spune că media eşantionului pentru cele 20
probe trebuie să fie într-o vecinătate de valoare 2,21 a mediei populaţiei.
۲ t este parametrul testului.
۲ Alpha – Nivelul de semnificaţie pentru testul statistic. Nivelul de semnificaţie trebuie stabilit
înainte. Am ales valoarea 0,05.
۲ df - gradele de libertate. Pentru testul t se calculează după formula df=n-1. In cazul nostru
df=19.
۲ Probabilitatea one-tailed – sau one-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât alpha=0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă este infirmată. Se poate spune că media aritmetică a NO3 in anul 2013 este
semnificativ mai mică decât media aritmetică a NO3 in anul 1993 cu o eroare alpha = 0,05.
۲ Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât alpha=0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă este infirmată. Se poate spune că media aritmetică a NO3 in anul 2013 este
semnificativ diferita decât media aritmetică a NO3 in anul 1993 cu o eroare alpha = 0,05.
Observaţie: Testul t a fost semnificativ, deoarece media NO3 din 1993 (47,9 mg/l) nu aparţine
intervalului de încredere [23,36;36,04].
1.2. Aplicaţii ale unor teste statistice pentru pentru compararea mediilor
a doua esantioane
Obiective:
HDL COLESTEROL
ID Diabet VARSTA TG HDL COLESTEROL TG final
final final
1 Da 55 124 64 225 140 69 180
2 Da 79 380 31 190 414 36 170
3 Nu 51 314 48 172
4 Nu 54 94 55 187
5 Nu 53 305 39 168
6 Nu 52 174 35 165
7 Da 65 169 55 208 162 62 190
8 Da 56 122 52 273 168 57 159
9 Nu 64 325 37 176
10 Da 56 205 38 247 252 42 175
11 Da 68 191 36 143 229 42 145
12 Da 76 167 48 191 205 54 165
13 Da 68 153 36 164 167 41 156
14 Da 54 113 38 175 148 42 200
15 Da 63 73 35 161 86 40 172
16 Da 42 376 55 300 405 61 171
17 Da 54 968 24 339 980 30 155
18 Da 51 243 43 260 258 47 148
19 Nu 67 174 59 189
20 Da 63 310 26 178 345 30 166
21 Da 71 167 68 174 189 73 120
22 Da 64 124 52 218 156 58 118
23 Nu 65 139 37 199
24 Da 67 303 40 323 352 47 215
25 Da 60 310 53 319 345 60 180
26 Da 63 125 49 216 143 53 154
27 Nu 49 66 52 183
28 Nu 78 141 44 177
29 Nu 56 123 34 183
30 Da 40 84 45 248 99 51 180
31 Nu 54 121 56 193
32 Da 38 217 23 150 244 27 150
33 Nu 42 132 47 160
34 Nu 55 242 58 165
35 Nu 59 129 55 135
36 Da 63 172 54 223 171 59 173
37 Da 53 101 51 222 107 54 141
38 Nu 55 112 38 145
39 Da 81 129 65 210 145 70 153
40 Nu 62 278 33 156
41 Da 79 84 54 183 111 57 190
42 Da 50 125 45 156 118 51 159
43 Da 33 186 21 199 222 27 200
44 Da 42 389 33 216 426 38 175
45 Da 65 154 45 214 164 52 145
46 Nu 48 106 28 151
47 Da 44 128 41 195 153 44 165
48 Nu 69 68 27 134
49 Da 71 128 34 166 137 38 144
50 Da 47 199 56 264 229 59 199
51 Da 65 176 46 188 187 52 201
52 Nu 59 176 40 189
53 Da 58 107 56 207 125 61 182
54 Da 42 228 41 169 236 46 178
55 Nu 50 133 53 175
56 Nu 56 253 45 144
57 Nu 53 221 76 156
58 Nu 62 93 58 182
59 Da 57 181 32 188 197 38 178
60 Da 69 240 72 266 240 76 201
a) Calculaţi indicatorii statistici descriptivi cu Data Analysis – Descriptive statistics pentru toate
variabilele cantitative, separat pentru diabetici şi pentru cei fără diabet.
b) Să se studieze dacă Vârsta diferă semnificativ la cei cu diabet faţă de cei care nu au diabet.
c) Să se studieze dacă TG (Trigliceridele) diferă semnificativ la cei cu diabet faţă de cei care nu
au diabet.
d) Să se studieze dacă HDL diferă semnificativ la cei cu diabet faţă de cei care nu au diabet.
e) Să se studieze dacă Colesterolul diferă semnificativ la cei cu diabet faţă de cei care nu au
diabet.
f) Să se studieze dacă TG (Trigliceridele) iniţial şi final diferă semnificativ la cei cu diabet.
g) Să se studieze dacă HDL iniţial şi final diferă semnificativ la cei cu diabet.
h) Să se studieze dacă Colesterolul iniţial şi final diferă semnificativ la cei cu diabet.
Se va realiza astfel gruparea pe cele două eşantioane, după variabila Diabet. Primii 37 de pacienţi
sunt pacienţii cu diabet (inclusiv linia 38)
3. Pentru a folosi pachetul Data Analysis el trebuie instalat. Dacă opţiunea Data Analysis nu este
prezentă în meniul Tools, atunci din meniul Tools se alege opţiunea Add-Ins. Bifaţi prima
opţiune Analysis ToolPak. Apăsaţi butonul Ok.
4. Calculaţi indicatorii statistici descriptivi cu Tools - Data Analysis – Descriptive statistics
pentru toate variabilele cantitative :
5. Reveniţi în Sheet 1 şi repetaţi procedura pentru pacienţii fâră diabet
Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
neegale. (Vom presupune că variaţiile celor două populaţii din care provin eşantioanele nu sunt egale).
Condiţii necesare pentru testul t (dacă aceste condiţii nu sunt îndeplinite nu se poate aplica testul t
pentru eşantioane independente):
Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).
Ipoteza nulă (Ho): Mediile valorilor Vârstei la diabetici, respectiv la nediabetici nu diferă
semnificativ.
Ipoteza alternativă (H1): Mediile valorilor Vârstei la diabetici, respectiv la nediabetici diferă
semnificativ.
1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variatii neegale: Two-
Sample Assuming Unequal Variances OK.
2. Completaţi câmpurile din fereastra de mai jos (comparăm mediile Vârstei, deci la Range vom
selecta Vârsta):
3. Variable 1 Range: se selectează domeniul D2:D38. Este domeniul care cuprinde valorile
Vârstei pentru diabetici.
4. Variable 2 Range: se selectează domeniul D39:D61. Este domeniul care cuprinde valorile
Vârstei pentru cei fără diabet.
5. Hypothesized Mean Difference: introduceţi 0 ceea ce înseamnă că presupunem că cele două
medii ale Vârstei pentru diabetici şi pentru cei fără diabet sunt egale (conform ipotezei nule -
Ho).
6. Labels nu trebuie bifat pentru că în selecţia noastră nu avem cap de tabel.
7. Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului t.
8. Output Range – rezultatele vor fi afişate in aceeaşi pagină începând cu celula N2
9. Click OK
10. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Variable Variable
1 2
Mean 58,7027 57,08696
Variance 149,048 63,44664
Observations 37 23
Hypothesized Mean
Difference 0
df 58
t Stat 0,620209
P(T<=t) one-tail 0,268775
t Critical one-tail 1,671553
P(T<=t) two-tail 0,537549
t Critical two-tail 2,001716
Interpretarea rezultatelor
Se compară media aritmetică a Vârstei la diabetici: 58,7 ani cu media Vârstei la cei fără
diabet 57,08 (Mean).
Talia eşantionului pacienţilor de diabetici este 37 si Talia eşantionului pacienţii fără diabet
este 23.
df – gradele de libertate = 58 calculate după formula n1+n2-2=37+23-2.
P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mare decât =0,05 se poate trage concluzia că testul one-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a Vârstei pacienţilor diabetici nu este mai mică
semnificativ decât media aritmetică a Vârstei pacienţilor fără diabet cu o eroare alpha =
0,05.
t critic one-tailed = 1,67. Dacă t stat t critic one tail se poate spune că media aritmetică a
Vârstei pacienţilor diabetici nu este mai mică semnificativ decât media Vârstei pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mare decât 0,05 se poate trage concluzia că testul two-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a Vârstei pacienţilor diabetici nu este diferită semnificativ
de media aritmetică a Vârstei pacienţilor fără diabet cu o eroare alpha = 0,05.
t critic two-tailed= 2. Dacă t stat [t critic one tail , t critic one tail ] se poate spune că media
aritmetică a Vârstei pacienţilor diabetici nu diferă semnificativ de media Vârstei pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
c) Să se studieze dacă TG (Trigliceridele) diferă semnificativ la cei cu diabet faţă de cei care
nu au diabet.
Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
egale. (Vom presupune că variaţiile celor două populaţii din care previn eşantioanele sunt egale).
Condiţii necesare pentru testul t (dacă aceste condiţii nu sunt îndeplinite nu se poate aplica testul t
pentru eşantioane independente):
Ipoteza nulă (Ho): Mediile valorilor TG la diabetici, respectiv la nediabetici nu diferă semnificativ.
11. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variatii egale: Two-
Sample Assuming Equal Variances OK.
12. Completaţi câmpurile din fereastra de mai jos (comparăm mediile TG, deci la Range vom
selecta TG):
13. Click OK
14. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Variable Variable
1 2
Mean 206,7838 170,3913
Variance 23594,23 6394,522
Observations 37 23
Pooled Variance 17070,2
Hypothesized Mean
Difference 0
df 58
t Stat 1,049014
P(T<=t) one-tail 0,149262
t Critical one-tail 1,671553
P(T<=t) two-tail 0,298523
t Critical two-tail 2,001716
Interpretarea rezultatelor
P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mare decât =0,05 se poate trage concluzia că testul one-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:
t critic one-tailed = 1,67. Dacă t stat t critic onetail se poate spune că media aritmetică a TG
a pacienţilor diabetici nu este mai mică semnificativ decât media TG a pacienţilor fără
diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mare decât 0,05 se poate trage concluzia că testul two-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:
t critic two-tailed= 2. Dacă t stat [t critic one tail , t critic one tail ] se poate spune că media
aritmetică TG a pacienţilor diabetici nu diferă semnificativ de media TG a pacienţilor fără
diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
d) Să se studieze dacă HDL diferă semnificativ la cei cu diabet faţă de cei care nu au diabet.
Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
egale. (Vom presupune că variaţiile celor două populaţii din care provin eşantioanele sunt egale).
Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).
Ipoteza nulă (Ho): Mediile valorilor HDL la diabetici, respectiv la nediabetici nu diferă
semnificativ.
Ipoteza alternativă (H1): Mediile valorilor HDL la diabetici, respectiv la nediabetici diferă
semnificativ.
1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variatii egale: Two-
Sample Assuming Equal Variances OK.
2. Completaţi câmpurile din fereastra apărută ca la punctul b), dar pentru HDL :
Variable Variable
1 2
Mean 44,78378 45,82609
Variance 159,952 142,8775
Observations 37 23
Pooled Variance 153,4754
Hypothesized Mean
Difference 0
df 58
t Stat -0,31686
P(T<=t) one-tail 0,376245
t Critical one-tail 1,671553
P(T<=t) two-tail 0,75249
t Critical two-tail 2,001716
Interpretarea rezultatelor
Se compară media aritmetică a HDL la diabetici: 44,78 cu media HDL la cei fără diabet
45,82 (Mean).
P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mare decât =0,05 se poate trage concluzia că testul one-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a HDL al pacienţilor diabetici nu este mai mică
semnificativ decât media aritmetică a HDL al pacienţilor fără diabet cu o eroare alpha =
0,05.
t critic one-tailed = 1,67. Dacă t stat t critic one tail se poate spune că media aritmetică a
HDL al pacienţilor diabetici nu este mai mică semnificativ decât media HDL al pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mare decât 0,05 se poate trage concluzia că testul two-tailed este statistic nesemnificativ.
Ipoteza nulă este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a HDL al pacienţilor diabetici nu este diferită semnificativ
de media aritmetică a HDL al pacienţilor fără diabet cu o eroare alpha = 0,05.
t critic two-tailed= 2. Dacă t stat [t critic one tail , t critic one tail ] se poate spune că media
aritmetică HDL al pacienţilor diabetici nu diferă semnificativ de media HDL al pacienţilor
fără diabet cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
e) Să se studieze dacă Colesterolul diferă semnificativ la cei cu diabet faţă de cei care nu au
diabet.
Se va aplica Testul t pentru compararea mediilor a două eşantioane independente pentru variaţii
neegale. (Vom presupune că variaţiile celor două populaţii din care provin eşantioanele nu sunt egale).
Va fi necesar să verificăm distribuţia normală în ambele populaţii (media şi mediana să aibă valori
aproximativ egale, boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la
punctul a)).
Ipoteza nulă (Ho): Mediile valorilor Colesterolului la diabetici, respectiv la nediabetici nu diferă
semnificativ.
1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t cu variaţii neegale: Two-
Sample Assuming Unequal Variances.
2. Completaţi câmpurile din fereastra ca la punctul b) dar pentru Colesterol:
3. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Variable
1 Variable 2
Mean 215,3514 168,8696
Variance 2496,012 348,9368
Observations 37 23
Hypothesized Mean
Difference 0
df 50
t Stat 5,11342
P(T<=t) one-tail 2,51E-06 =0,00000251
t Critical one-tail 1,675905
P(T<=t) two-tail 5,02E-06 =0,00000502
t Critical two-tail 2,00856
Interpretarea rezultatelor
Interpretare medicală:
Se poate spune că media aritmetică a Colesterolului pacienţilor diabetici este mai mare
semnificativ decât media aritmetică a Colesterolului pacienţilor fără diabet cu o eroare
alpha = 0,05.
t critic one-tailed = 1,67. Dacă t stat t critic one tail se poate spune că media aritmetică a
Colesterolului pacienţilor diabetici este mai mare semnificativ decât media Colesterolului
pacienţilor fără diabet cu o eroare alpha = 0,05.
Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
Interpretare medicală:
t critic two-tailed= 2. Dacă t stat (;t critic one tail ] [t critic one tail ;) se poate spune
că media aritmetică a Colesterolului pacienţilor diabetici diferă semnificativ de media
Colesterolului pacienţilor fără diabet cu o eroare alpha = 0,05. (tcritic corespunde
probabilităţii 0,05).
Condiţii necesare pentru testul t (dacă aceste condiţii nu sunt îndeplinite nu se poate aplica testul t
pentru eşantioane dependente):
Va fi necesar să verificăm distribuţia normală (media şi mediana să aibă valori aproximativ egale,
boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la punctul a)).
1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t pentru eşantioane perechi:
Paired Two Sample for Means.
2. Completaţi câmpurile din fereastra de mai jos (comparăm mediile TG, deci la Range vom
selecta TG):
3. Variable 1 Range: se selectează domeniul E1:E38. Este domeniul care cuprinde valorile TG
iniţiale.
4. Variable 2 Range: se selectează domeniul H1:H38. Este domeniul care cuprinde valorile TG
final.
5. Hypothesized Mean Difference: introduceţi 0 ceea ce înseamnă că presupunem că cele două
medii ale TG iniţial şi final sunt egale (conform ipotezei nule - Ho).
6. Labels trebuie bifat pentru că în selecţia noastră avem cap de tabel.
7. Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului t.
8. Output Range – rezultatele vor fi afişate in aceeaşi pagină începând cu celula R2
9. Click OK
10. După toţi paşii de mai sus se vor obţine următoarele rezultate:
TG TG dupa tratament
Mean 206,7838 228,5135
Variance 23594,23 24285,03
Observations 37 37
Pearson Correlation 0,995551
Hypothesized Mean
Difference 0
df 36
t Stat -8,95254
P(T<=t) one-tail 5,48E-11 =0,0000000000548
t Critical one-tail 1,688297
P(T<=t) two-tail 1,1E-10 =0,00000000011
t Critical two-tail 2,028091
Interpretarea rezultatelor
P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a TG iniţial este mai mică semnificativ decât media
aritmetică a TG final cu o eroare alpha = 0,05.
t critic one-tailed = 1,68. Dacă t stat t critic one tail se poate spune că media aritmetică a TG
iniţial este mai mică semnificativ decât media TG final cu o eroare alpha = 0,05. (tcritic
corespunde probabilităţii 0,05).
Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a TG iniţial este diferită semnificativ de media aritmetică a
TG final cu o eroare alpha = 0,05.
t critic two-tailed= 2. Dacă t stat (;t critic one tail ] [t critic one tail ;) se poate spune
că media aritmetică a TG iniţial diferă semnificativ de media TG final cu o eroare alpha =
0,05. (tcritic corespunde probabilităţii 0,05).
Va fi necesar să verificăm distribuţia normală (media şi mediana să aibă valori aproximativ egale,
boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la punctul a)).
Ipoteza nulă (Ho): Mediile valorilor HDL iniţial şi final nu diferă semnificativ.
Ipoteza alternativă (H1): Mediile valorilor HDL iniţial şi final diferă semnificativ.
1. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi testul t pentru eşantioane perechi:
Paired Two Sample for Means.
2. Completaţi câmpurile din fereastra apărută ca la punctul de mai sus (comparăm mediile HDL,
deci la Range vom selecta HDL):
3. După toţi paşii de mai sus se vor obţine următoarele rezultate:
t-Test: Paired Two Sample for Means
HDL dupa
HDL tratament
Mean 44,78378 49,83784
Variance 159,952 159,8619
Observations 37 37
Pearson Correlation 0,995667
Hypothesized Mean
Difference 0
df 36
t Stat -26,1142
P(T<=t) one-tail 2,72E-25
t Critical one-tail 1,688297
P(T<=t) two-tail 5,43E-25
t Critical two-tail 2,028091
Interpretarea rezultatelor
Se compară media aritmetică a HDL iniţial: 44,78 cu media HDL final 49,83.
P(T<=t) one tailed - Probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a HDL iniţial este mai mică semnificativ decât media
aritmetică a HDL final cu o eroare alpha = 0,05.
t critic one-tailed = 1,68. Dacă t stat t critic one tail se poate spune că media aritmetică a
HDL iniţial este mai mică semnificativ decât media HDL final cu o eroare alpha = 0,05.
(tcritic corespunde probabilităţii 0,05).
Probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a HDL iniţial este diferită semnificativ de media aritmetică
a HDL final cu o eroare alpha = 0,05.
t critic two-tailed= 2. Dacă t stat (;t critic one tail ] [t critic one tail ;) se poate spune
că media aritmetică a HDL iniţial diferă semnificativ de media HDL final cu o eroare alpha
= 0,05. (tcritic corespunde probabilităţii 0,05).
Va fi necesar să verificăm distribuţia normală (media şi mediana să aibă valori aproximativ egale,
boltirea şi asimetria să fie apropiate de 0, verificarea se face în tabelul de la punctul a)).
Ipoteza nulă (Ho): Mediile valorilor colesterolului iniţial şi final nu diferă semnificativ.
Ipoteza alternativă (H1): Mediile valorilor colesterolului iniţial şi final diferă semnificativ.
1. Alegeţi opţiunea Data analysis din meniul Tools. Alegeţi testul t pentru eşantioane perechi:
Paired two sample for Means.
2. Completaţi câmpurile din fereastra apărută ca la punctul de mai sus (comparăm mediile
colesterolului, deci la range vom selecta colesterolului):
3. După toţi paşii de mai sus se vor obţine următoarele rezultate:
T-test: paired two sample for means
Interpretarea rezultatelor
se compară media aritmetică a colesterolului iniţial: 215 cu media colesterolului final 169.
pearson corelation r=0,24 coeficientul de corelaţie pearson, ne indică o corelaţie slabă între
colesterolul iniţial şi final.
p(t<=t) one tailed - probabilitatea one-tailed. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul one-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
interpretare medicală:
se poate spune că media aritmetică a colesterolului iniţial este mai mică semnificativ decât
media aritmetică a colesterolului final cu o eroare alpha = 0,05.
t critic one-tailed = 1,68. Dacă t stat t critic one tail se poate spune că media aritmetică a
colesterolului iniţial este mai mică semnificativ decât media colesterolului final cu o eroare
alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
probabilitatea two-tailed– sau two-tailed p-value. Deoarece probabilitatea obţinută este mai
mică decât 0,05 se poate trage concluzia că testul two-tailed este statistic semnificativ.
Ipoteza nulă nu este confirmată.
Interpretare medicală:
Se poate spune că media aritmetică a colesterolului iniţial este diferită semnificativ de media
aritmetică a colesterolului final cu o eroare alpha = 0,05.
t critic two-tailed= 2. Dacă t stat (;t critic one tail ] [t critic one tail ;) se poate spune
că media aritmetică a colesterolului iniţial diferă semnificativ de media colesterolului final
cu o eroare alpha = 0,05. (tcritic corespunde probabilităţii 0,05).
Următorilor pacienţi li s-a înregistrat IMC-ul (indice de masă corporală IMC = Greutate/(Inălţime) 2)
înainte de un transplant renal:
Comparaţi media IMC înainte de un transplant renal la pacienţii care au făcut diabet permanent după
transplant cu media IMC a pacienţilor care au dezvoltat diabet după transplant, dar nu s-a
permanentizat şi cu media IMC la pacienţii care nu au dezvoltat diabet după transplant.
F-test
Avem de studiat p eşantioane E1, E2, …, Ep cu n1, n2, …, np indivizi pentru aceasta se compară
s 2 ,s 2 ,...,s 2p
mediile observate m1, m2, …, mp pe cele p eşantioane. Fie 1 2 variaţiile observate pe cele p
eşantioane.
n F1
F
F2 ,
( m m)
i
2
F1 i 1
p 1 ,
unde
p
m i
m i 1
p ,
s
i 1
2
i
F2 = n p .
Instrucţiuni:
2. Pentru a folosi pachetul Data Analysis el trebuie instalat. Pentru aceasta verificaţi dacă nu a
fost instalat deja: deschideţi meniul Tools. Dacă opţiunea Data Analysis este prezentă, atunci
se trece la pasul următor. Dacă opţiunea Data Analysis nu este prezentă, atunci din meniul
Tools se alege opţiunea Add-Ins. Va apărea o fereastră asemănătoare celei de mai jos în care
se va bifa prima opţiune Analysis ToolPak. Apăsaţi butonul Ok.
5. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi Anova: Single Factor. Click OK.
6. Completaţi câmpurile din fereastra de mai jos:
7. Input Range: se selectează domeniul A2:C15 astfel: clic în A2, efectuaţi operaţia drag and drop
până se ajunge la celula C15. Este domeniul care cuprinde valorile IMC pentru cele trei
eşantioane.
8. Grouped By: Columns în cazul nostru, deoarece eşantioanele sunt date pe coloane.
9. Labels trebuie bifat pentru că în selecţia noastră avem cap de tabel.
10. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele Anova (titlul foii trebuie
introdus).
11. Click OK.
12. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Interpretarea rezultatelor:
Source of variation – variaţia este împărţită în variaţia între medii (between groups) şi din
interiorul grupului (within groups) Talia eşantionului celor care nu consumă Grăsimi este
19. Talia eşantionului celor care consumă Grăsimi este 11.
SS – variaţia între medii este 6,37, variaţia din interiorul grupului este 272,59.
P-value – Probabilitatea Dacă se adevereşte ipoteza nulă că media aritmetică a celor trei
eşantioane nu diferă semnificativ, atunci p>0,05. Dacă p<0,05, atunci mediiile diferă
semnificativ. In cazul nostru p-value>0,05 deci trebuie să acceptăm ipoteza nulă.
F crit este F corespunzător lui alpha=0,05 Dacă Fcrit = 3.35 ≥ F = 0,31 spune că mediiile
aritmetice a IMC ale celor trei eşantioane nu diferă semnificativ.
Se doreşte stabilirea efectului asupra scăderii tensiunii arteriale diastolice (TAS) a tratamentului
cu trei medicamente antihipertensive diferite. Se măsoară TAS (tensiunea arterială sistolică) la
20 de pacienţi hipertensivi după tratamentul cu medicamentul A, B, C şi Placebo.
Valoare
id_pacient Medicament A Medicament B Medicament C Placebo
initiala
1 145 114 95 146 180
2 160 111 101 105 195
3 175 90 145 146 187
4 200 136 119 122 182
5 220 105 120 133 191
6 180 90 120 131 160
7 145 103 117 141 194
8 150 126 95 104 155
9 175 109 140 99 163
10 180 130 150 127 144
11 195 96 110 145 172
12 185 135 141 142 153
13 200 90 115 103 151
14 170 130 127 133 187
15 170 110 98 95 155
16 175 95 130 110 157
17 180 140 119 91 158
18 145 90 97 126 175
19 190 113 124 134 141
20 165 121 117 101 159
F-test
Avem de studiat k eşantioane E1, E2, …, Ek cu n indivizi fiecare, pentru aceasta se compară
2 2 2
mediile observate m , m , …, m pe cele k eşantioane. Fie s1 ,s 2 ,...,s k variaţiile observate pe cele k
1 2 k
eşantioane.
Ftreatments
F
Ferror ,
Instrucţiuni:
2. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi Anova: Two-Factor Widthout
Replication. Click OK.
3. Completaţi câmpurile din fereastra de mai jos:
4. Input Range: se selectează domeniul A1:F21 astfel: clic în A1, efectuaţi operaţia drag and
drop până se ajunge la celula F21. Este domeniul care cuprinde toate datele necesare
analizei.
5. Labels trebuie bifat pentru că în selecţia noastră avem cap de tabel.
6. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele Anova (titlul foii trebuie
introdus).
7. Click OK.
8. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Anova: Two-Factor Without Replication
ANOVA
Source of Variation SS df MS F P-value F crit
Rows 7386,96 19 388,7874 1,260351 0,235436 1,725029
Columns 71933,46 4 17983,37 58,29754 2,06E-22 2,492049
Error 23444,14 76 308,4755
Total 102764,6 99
9. Interpretarea rezultatelor:
Primul tabel – Summary – se găsesc rezultatele pentru fiecare pacient în parte şi pentru
fiecare tip de tratament
Count – numărul de testări la care a fost supus fiecare pacient, in cazul nostru 5. In cazul
celor cinci tratamente este trecut numărul de pacienţi testaţi: 20.
Sum – Suma valorilor TAS după fiecare tratament pentru fiecare subiect. In cazul celor
cinci tratamente este calculată suma valorilor TAS pentru fiecare pacient la respectivul
tratament.
Average - Media aritmetică a valorilor TAS după fiecare tratament pentru fiecare subiect.
In cazul celor cinci tratamente este calculată media aritmetică a valorilor TAS pentru
pacienţi la respectivul tratament.
Variance – Variaţia valorilor TAS după fiecare tratament pentru fiecare subiect. In cazul
celor cinci tratamente este calculată variaţia valorilor TAS pentru pacienţi la respectivul
tratament.
Source of variation
SS – suma de pătrate
o SSrows = SSsubject
n k n k
( xij ) 2
i 1 j 1
( xij ) 2
i 1 j 1
SS subjects
k nk
o SScolumns = SStreatments
2
k
n n k
j 1 i 1
X ij
(
i 1 j 1
xij ) 2
SS treatments
n nk
o SSerror = SSinteracion
2
n
n k
n k k
n k ( x ij )
j 1 i 1
X ij
2
( xij ) 2
SS error xij i 1 j 1
i 1 j 1
i 1 j 1 nk n k
o SStotal
n k
n k
( xij ) 2
SS total xij
i 1 j 1
i 1 j 1 nk
df – gradele de libertate
o dfrows = dfsubjects = n-1
o dfcolumns = dfreatments = k-1
o dferror = (n-1)(k-1)
o dftotal = nk-1
MS – media de pătrate MS=SS/df
F este parametrul testului
Frows=Fsubjects=MSsubjects/MSerror
Fcolumns=Ftreatments=MScolumns/MSerror
F crit este F corespunzător lui alpha=0,05 Dacă Fcrit = 2.49 ≤ F = 58,29 putem spune că
mediiile aritmetice a TAS pentru cele cinci tratamente eşantioane diferă semnificativ.
Obezitatea este o boală tot mai răspândită. Se încearcă studiul serotoninei, care este un
neurotransmiţător. Serotonina a fost măsurată în timpul autopsiei a 10 de obezi 5 tineri şi 5
peste 50 de ani. A fost luat şi un grup de control: 10 persoane cu o greutate normală, 5 tineri şi
5 peste 50 de ani. Serotonina a fost măsurată şi în cazul acestor subiecţi. Au fost înregistrate
următoarele observaţii
Peste 50
Tineri ani
Obezi 1350 790
1270 1100
980 760
1205 560
1100 670
Greutate 1820 345
normala 2010 525
1670 760
1230 980
1455 560
In acest caz Anova se numeşte two-way sau dublu factor deoarece avem două variabile
independente: Greutatea şi Grupa de vârstă. Avem patru eşantioane diferite: obezi tineri, obezi peste
50 de ani, subiecţi cu greutate normală tineri şi subiecţi cu greutate normală peste 50 de ani. Se pot
pune trei feluri de întrebări:
F-test
Avem de studiat k eşantioane E1, E2, …, Ek cu n indivizi fiecare, pentru aceasta se compară
2 2 2
mediile observate m , m , …, m pe cele k eşantioane. Fie s1 ,s 2 ,...,s k variaţiile observate pe cele k
1 2 k
eşantioane.
Ftreatments
F
Ferror ,
2. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi Anova: Two-Factor Width
Replication. Click OK.
4. Input Range: se selectează domeniul A1:C11 astfel: clic în A1, efectuaţi operaţia drag and
drop până se ajunge la celula C11. Este domeniul care cuprinde toate datele necesare
analizei.
5. Rows per sample: numărul de indivizi din fiecare eşantion, în cazul nostru 5.
6. Alpha alegem 0,05.
7. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele Anova (titlul foii trebuie
introdus).
8. Click OK.
9. După toţi paşii de mai sus se vor obţine următoarele rezultate:
10. Interpretarea rezultatelor:
Primul tabel – Summary – se găsesc rezultatele pentru fiecare dintre cele patru eşantioane şi
per total (Obezi şi cei cu greutate normală)
Count – numărul de indivizi din fiecare eşantion, în cazul nostru: 5 şi per total: 10.
Average - Media aritmetică a valorilor serotoninei pentru fiecare eşantion şi per total.
Source of variation
SS – suma de pătrate
o SSsample
p k n p k n
( xijl ) 2
l 1 j 1 i 1
( xijl ) 2
l 1 j 1 i 1
SS sample
nk nkp
o SScolumns
2
k
p n p k n
X ijl
j 1 l 1 i 1
( xijl ) 2
SS columns l 1 j 1 i 1
np nkp
o SSinteraction
p k n p k n p k n k p n
( xijl ) 2 ( xijl ) 2 ( xijl ) 2 ( xijl ) 2
l 1 j 1 i 1 l 1 j 1 i 1 l 1 j 1 i 1 j 1 l 1 i 1
SS int eraction
nkp n nk np
o SSwithin
p k n
p k n ( x ijl )2
SS within xijl2
l 1 j 1 i 1
l 1 j 1 i 1 n
o SStotal
p k n
p k n
( xijl ) 2
SS total xijl2
l 1 j 1 i 1
l 1 j 1 i 1 nkp
df – gradele de libertate
o dfsample = p-1
o dfcolumns = k-1
o dfinteraction = (p-1)(k-1)
o dfwithin = pk(n-1)
o dftotal = pnk-1
Fsample = Ssample/MSwithin
Fcolumns = MScolumns/MSwithin
Finteraction = MSinteraction/MSwithin
F crit este F corespunzător lui alpha=0,05 Dacă Fcrit = 4.49 ≤ F putem spune că mediiile
aritmetice ale serotoninei pentru eşantioanele respective (corespunzătoare fiecărui F)
diferă semnificativ.
Se analizează pacienţii cu o boală cardiovasculară. S-a observat că pacienţii mor în timpul a trei ani de
la apariţia bolii din cauza aritmiei. Magneziul este un important factor reglator, se presupune că
absenţa lui duce la provocarea aritmiei. S-au luat în studiu 20 de pacienţi bolnavi de boala
cardiovasculară dintre care 7 cu aritmie şi 13 fără aritmie. S-a măsurat nivelul magneziului în
muşchiul inimii la cele două loturi de pacienţi. Se doreşte testarea variaţiilor magneziului la cele două
loturi de pacienţi şi deciderea dacă nivelul magneziului este mai mare la pacienţii fără aritmie decăt la
cei cu aritmie.
Magneziu
id_pacient Aritmie (nmol/mg
protein)
1 Da 83
2 Da 45
3 Da 78
4 Da 61
5 Da 57
6 Da 33
7 Da 66
8 Nu 77
9 Nu 73
10 Nu 95
11 Nu 93
12 Nu 66
13 Nu 86
14 Nu 88
15 Nu 77
16 Nu 81
17 Nu 75
18 Nu 93
19 Nu 64
20 Nu 86
F-Test pentru testarea variaţiei a două eşantioane
F-test se foloseşte pentru testarea a două medii sau a două variaţii pentru două eşantioane diferite.
Formula pentru parametrul testului este:
S12
F
S 22 , unde S12 şi S 22 sunt variaţiile celor două eşantioane.
Instrucţiuni:
1. Tabelul nostru este sortat după valorile variabilei Aritmie. Dacă nu ar fi sortat ar trebui să îl
sortăm.
2. Alegeţi opţiunea Data Analysis din meniul Tools. Alegeţi F-test: Two-Sample for Variances.
Click OK.
4. Variable 1 Range: se selectează domeniul C2:C8 astfel: clic în C2, efectuaţi operaţia drag and
drop până se ajunge la celula C8. Este domeniul care cuprinde valorile magneziului pentru cei
care au aritmie.
5. Variable 2 Range: se selectează domeniul C9:C21 astfel: clic în C9, efectuaţi operaţia drag and
drop până se ajunge la celula C21. Este domeniul care cuprinde valorile magneziului pentru cei
care nu au aritmie.
6. Labels nu trebuie bifat pentru că în selecţia noastră nu avem cap de tabel.
7. Alpha – eroarea alpha este 0,05 – nivelul de semnificaţie al testului F.
8. New Worksheet Ply – rezultatele vor fi afişate în foaia cu numele F-test (titlul foii trebuie
introdus).
9. Click OK
10. După toţi paşii de mai sus se vor obţine următoarele rezultate:
Mean - Media aritmetică – media aritmetică a magneziului pentru pacienţii care au aritmie
este: 60,43. Media aritmetică a magneziului pentru pacienţii care nu au aritmie este: 81,08
Variance - Variaţia magneziului pentru pacienţii care au aritmie este de 308,62, iar variaţia
magneziului pentru pacienţii care nu au aritmie este de 102,41
Observation - Talia eşantionului celor care au aritmie este 19. Talia eşantionului celor care
nu au aritmie este 11.
df – gradele de libertate = sunt n-1 = 7-1 pentru pacienţii care au aritmie şi m-1 = 13-1
pentru pacienţii care nu au aritmie.
P(F<=f) one tailed - Probabilitatea one-tailed In cazul testului F se face numai un test one-
tailed. p = 0,049 < 0,05 deci testul este statistic semnificativ. Variaţia magneziului este
semnificativ mai mare la cei cu aritmie decât la cei fără aritmie.
F [2,99; )
t critic one-tailed = 2,99 ≤ 3,01. Dacă se poate spune că variaţia
magneziului pentru pacienţii care au aritmie este semnificativ mai mare decât variaţia
magneziului pentru pacienţii care nu au aritmie cu o eroare alpha = 0,05 (tcritic
corespunde probabilităţii 0,05).
APLICATII STATISTICA
TESTELE DE CONCORDANTA
Poluarea cu fosfor este factor de risc pentru eutrofizare? S-au studiat 80 de situri. Datele le aveţi pe
fişierul Excel -Poluare.Chi.xls.
Testul Hi-pătrat se aplică pe două variabile calitative. Formula parametrului testului este:
X
2
LC
f i
o
f it 2
i 1 f it
, unde L numărul de categorii a variabilei independente, C numărul de categorii a
o t
variabilei dependente, f i frecvenţele observate şi f i frecvenţele teoretice.
Instrucţiuni:
1. Alegeţi din meniul Insert opţiunea Pivot Table and Pivot Chart Report pentru realizarea
tbelului de contingenţă observat.
2. Se selectează din tabelul de date domeniul variabilelor Pol.Fosfat şi Bloom. Pentru aceasta clic
în câmpul Range, clic pe celula A2, apăsaţi tasta SHIFT şi clic pe celula D81 sau se tastează
A2:B81. Selectăm New worksheet, ceea ce va avea ca efect amplasarea tabelului pivot pe o
foaie nouă. Click pe butonul oK.
3. Diagrama pentru efectuarea unui tabel pivot este afişată în figura de mai jos. Butoanele
pentru fiecare variabilă introdusă în câmpul Range de la pasul 2 se găsesc în partea dreaptă a
ferestrei, în cazul nostru variabilele Pol.Fosfat şi Bloom. Prin operaţia drag and drop se trage
butonul Pol.Fosfat peste Row, butonul Bloom peste Columns, iar apoi se trage din nou butonul
Pol.Fosfat peste Data.
4. Veţi vedea în zona datelor un buton pentru funcţia SUM, care este funcţia implicită pentru o
variabilă cantitativă. Deoarece noi dorim să efectuăm un tabel de frecvenţă vom schimba
funcţia Sum cu funcţia Count. Pentru aceasta vom executa dublu clic pe butonul SUM.
5. Va apărea fereastra de dialog Value Field Settings ca mai jos. Selectaţi funcţia Count din lista
Summarize by. Clic pe butonul OK.
In acest tabel pivot Grand total se referă la numărul total de pacieţi luaţi în evidenţă. Daca
avem avem valori lipsă (mising value), dorim ca aceste valori să fie eliminate. In acest caz clic
pe butonul cu săgeată din dreptul variabilei de pe coloana.
6. Dezactivaţi (blank). Clic OK.
7. Pentru calcularea frecvenţelor teoretice realizati urmatorul tabel:
8. Clic în celula C11. Introduceţi formula: =B7*D5/D7 Apăsaţi tasta Enter. Formula generală de
calcul a frecvenţelor teoretice este:
totalulpelinie * totalpecoloana
Fi t
totalindivizi
9. Analog calculăm celelalte frecvenţe teoretice. Clic în celula D11. Introduceţi formula:
=C7*D5/D7 Apăsaţi tasta Enter.
10. Clic în celula C12. Introduceţi formula: =B7*D6/D7 Apăsaţi tasta Enter.
11. Clic în celula D12. Introduceţi formula: =C7*D6/D7 Apăsaţi tasta Enter.
12. Calcularea parametrilor testului Hi-pătrat. Introduceţi următorul cap de tabel:
13. df se calculează după formula (L-1)(C-1) unde L = numărul de linii, iar C = numărul de coloane,
în cazul nostru gradele de libertate sunt 1, introduceţi 1 în celula B16.
14. Hi-patrat critic se calculează cu funcţia ChiInv din Insert – Function:
15. Parametrii se completează astfel: Probability: este probabilitatea pentru hi-pătrat critic în
cazul nostru nivelul de la care testul are semnificaţie alpha=0,05, Deg_freedom sunt gradele
de libertate. Clic OK.
18. Hi-pătrat observat se calculează cu funcţia ChiInv: Probability este probabilitatea p_value pe
care am calculat-o mai sus, Deg_freedom sunt gradele de libertate. Clic OK.