Statistica. S12 - Compararea Mediilor PDF

Seminar XII - TEORIA TESTELOR ÎN STATISTICĂ
TESTUL T-STUDENT PENTRU DIFERENŢA DINTRE MEDII
1. Teste parametrice vs. Teste neparametrice

Folosirea unui anumit test depinde de tipul de scală de măsură utilizată pentru a culege
informaţia statistică. Uneori se poate folosi un test independent de scală pentru că distribuţia
nu oferă caracteristici de formă şi de dispersie necesare pentru folosirea acestui test.
Se pot distinge două familii de teste statistice:
 teste parametrice, în care concluziile se sprijină pe legea probabilităţii care certifică că
distribuţia sau distribuţiile observate respectă anumite caracteristici;
 teste nonparametrice care nu necesită respectarea acestor caracteristici.
Testele parametrice prezintă următoarele exigenţe:
▪ datele distribuţiei trebuie să se repartizeze în maniera "normală", adică, în alţi termeni,
curba trebuie să aibă o formă apropiată aceleia a legii normale;
▪ datele de care se dispune să provin din scala de măsură de interval (cel puţin);
▪ varianţele acestora trebuie să fie omogene, adică nu trebuie să existe dezechilibre
importante ale dispersiilor, în cazul în care se cere compararea mediilor a două eşantioane.
Testele nonparametrice pot să se elibereze de această condiţie de normalitate sau de
echivalenţă a dispersiilor. Ele sunt independente de un anumit tip de distribuţie sau, cum se
mai spune, au o distribuţie liberă. Un alt mare avantaj al acestor teste este acela ca ele nu cer
să se dispună de eşantioane de mare dimensiune. În schimb, prezintă inconvenientul de a fi mai
puţin puternice ca testele parametrice, adică informaţia pe care o oferă este mai puţin
consistentă
Normalitatea distribuției
 O distribuţie este simetrică, dacă valorile sunt egal tendinţei centrale (figura B). Atunci
când rezultatele tind către valorile mici, sunt agglomerate în partea stângă a distribuției,
avem de a face cu o distribuție asimetrică spre dreapta (sau distribuție skewness pozitiv –
figura A). Când rezultatele tind către valori mari, se aglomerează în partea dreaptă a
distribuției, vorbim despre o distribuție asimetrică la stânga (skewness negativ – figura C).
1
Skewness - indicator folosit în analiza distribuției unei serii de date. Acesta indică deviația
distribuției empirice în raport cu o distribuție simetrică în jurul mediei.
∑ 𝑥3
Pentru date neorganizate: 𝑺𝒌 =
𝑁∗𝑠 3
∑ 𝑓∗𝑥 3
Pentru date organizate pe V.V: 𝑺𝒌 =
𝑁∗𝑠 3
Interpretarea coeficientului skewness:
 Skewness > 0 – distribuție asimetrică de dreapta (valori mici). În acest caz, modul este
valoarea situată cel mai la stânga în șirul de date, iar mediana este mai mica decât media.
2
 Skewness < 0 - distribuția asimetrică de stânga (valori mari). Modulul este valoarea situată
cel mai la dreapta iar mediana este mai mare decât media.
 Skewness = 0 - distribuția este simetrică în jurul mediei. Media, mediana, şi modul au exact
aceleaşi valori. Caracteristica acestei distribuţii o reprezintă coincidenţa absolută a celor trei
indicatori ai tendinţei centrale.
 Boltirea (excesul) distribuției face referire la aspectul „cocoașei” distribuției rezultatelor.

Aceasta poate fi ascuțită (leptocurtică – figura C), aplatizată sau turtită (platicurtică –
figura B) sau normal sub aspectul boltirii (mezocurtică – figura B).
3
Kurtosis - indicator folosit în analiza distribuției unei serii de date pentru a indica gradul de
aplatizare sau de ascuțire a unei distribuții.
∑ 𝑥4
Pentru date neorganizate: 𝑲 =
𝑁∗𝑠 4
∑ 𝑓∗𝑥 4
Pentru date organizate pe VV. 𝑲 =
𝑁∗𝑠 4
Interpretarea coeficientului kurtosis:
 Kurtosis > 3 – distribuție leptokurtică, mai ascuțită decât o distribuție normală. Mai
multe valori sunt concentrate în jurul mediei.
 Kurtosis < 3 - distribuție platikurtică, mai plată decât o distribuție normală, având
valori dispersate pe un interval mai mare în jurul mediei.
 Kurtosis = 3 - distribuție mezokurtică - distribuția normală.
4
2. Comparaţia mediilor – implică date cantitative cu distribuţie normală şi cu varianţe
echivalente
a. Compararea unei medii cu o normă (valoarea aşteptată a mediei). Obiectiv: să

verificăm dacă diferenţa dintre media unui eşantion şi valoarea aşteptată a mediei poate
fi atribuită în cazul acceptării Ho unui factor aleatoriu sau în cazul respingerii Ho unui
factor sistematic.
X 
z
s
N
Aplicaţie: În urma cercetării unor cercetări efectuate asupra memoriei a reieşit faptul că în
general amplitudinea memorării imediate de informaţie este de 7 ± 2. Verificăm dacă această
limită o găsim la elevii de liceu. Li s-au prezentat liceenilor serii de câte 18 cuvinte şi imediat
după prezentarea cuvintelor ei trebuiau să reproducă cuvintele. N = 193, iar media este de 7,13.
Cercetătorii se întrebă dacă, adoptând riscul de 5%, scorul mediu al rezultatului asupra
liceenilor este diferit de acela în general observat în lucrările anterioare.
7,13  7,00 0,13 0,13

z=    0,909
2 2 0,143
193 13,89
p = 0,05 → z = 1,96
0,909 < 1,96 ceea ce înseamnă că se acceptă H0, diferenţa de reamintire de 0,13 poate fi
atribuită fluctuaţiilor normale de eşantionare.
5
b. Testul t – repartiţia T-Student
X = 50
s = 10
Principiul: calcularea diferenţelor dintre medii şi compararea acestora ( X – Y )
- Condiţia de acceptare H0: tcalculat < t(v;1-α)

- Condiţia de respingere H0 şi acceptare H1: tcalculat ≥ t(v;1-α)
Testul T pentru eşantioane mici independente

1. Atunci când ni se dau scorurile se va calcula testul t după următoarea formulă:
X Y
t
x y
2 2
*
Nx  Ny
Nx  Ny  2 Nx * Ny
Pentru a aplica formula vom calcula mai întâi în tabel următoarele:

X Y x=X– X y=Y– Y x² y²
... ... ... ... ... ...
X Y ∑ ∑
Grade de libertate = Nx + Ny - 2
2. Atunci când ni se dau următoarele date: X , Y , sx, sy, Nx, Ny putem folosi direct următoarea
formulă:
𝑋̅−𝑌̅
t=
2 2
𝑠 ∗(𝑁𝑥−1)+𝑠𝑦 ∗(𝑁𝑦−1) 1 1
√ 𝑥 ∗√𝑁𝑥+𝑁𝑦
𝑁𝑥+𝑁𝑦−2
Grade de libertate = Nx + Ny - 2
Aplicaţia 1: Având scorurile de mai jos ca rezultate ale unui test de atenţie concentrată pentru
2 grupuri de subiecţi (X) şi (Y), verificaţi dacă sunt diferenţe semnificative între mediile la test
ale celor 2 grupuri.
H0 – nu există diferențe între mediile celor două grupe.
H1 – există diferențe între mediile celor două grupe.
6
1. 72 70 0.65 2.29 0.42 5.24
2. 64 60 -7.35 -7.71 54.02 59.44
3. 81 80 9.65 12.29 93.12 151.04
4. 87 83 15.65 15.29 244.92 233.78
5. 65 62 -6.35 -5.71 40.32 32.60
6. 69 63 -2.35 -4.71 5.52 22.18
7. 70 65 -1.35 -2.71 1.82 7.34
8. 89 86 17.65 18.29 311.52 334.52
9. 76 71 4.65 3.29 21.62 10.82
10. 64 61 -7.35 -6.71 54.02 45.02
11. 55 52 -16.35 -15.71 267.32 246.80
12. 68 63 -3.35 -4.71 11.22 22.18
13. 65 60 -6.35 -7.71 40.32 59.44
14. 74 72 2.65 4.29 7.02 18.40
1153.22 1248.86
X = 71,35 Y = 67,71
Acum avem toate datele necesare pentru a aplica formula şi a calcula valoarea lui t.
71,35 − 67,71
𝑡=
√1153,22 + 1248,86 ∗ 14 + 14
14 + 14 − 2 14 ∗ 14
7
Aplicaţia 2: Verificaţi dacă diferenţa dintre următoarele medii este semnificativă, ştiind că
avem 2 eşantioane cu următorii indicatori:
X = 22; Y = 19
Sx = 3,2; Sy = 2,6
Nx = 24; Ny = 19
D
Testul T pentru eşantioane mici dependente Formula: t 
sD
Unde:
 D
 D ; media diferenţelor
N
 sD 
D 2
 ( D)² ; abaterea standard a diferenţelor

N
sD
 sD 
N 1

X Y D=X–Y D²
... ... ... ...
∑ ∑
Grade de libertate = N -1
Exemplu:
Următoarele date au fost obţinute în urma primelor 2 sesiuni pentru 20 de studenţi, cu scopul
de a urmări evoluţia rezultatelor lor pe cele 2 semestre:
H0 – nu există diferențe între mediile de pe cele două semestre.
H1 – există diferențe între mediile de pe cele două semestre.
8
sem1 sem2 D=X–Y D2 D 10,39
1. D    0,52
N 20
(X) (Y)
2
6.93 5.36 1.57 2.46 2 D 2 10, 41 2
2. sD   ( D)   0,52  0,52  0, 27  0, 25 ;
N 20
6.13 5.40 0.73 0.53
sD  0, 25  0,50 ;
5.90 5.53 0.37 0.14
6.23 5.80 0.43 0.18 sD 0,50
3. s
D
   0,11 ;
N 1 19
5.96 6.13 -0.17 0.03
7.26 6.16 1.10 1.21 D 0,52
4. t    4,52
s 0,11
6.83 6.16 0.67 0.45 D
6.80 6.26 0.54 0.29

6.26 6.36 -0.10 0.01 5. Căutăm în tabel valoarea lui t la 20-1=19 grade de libertate şi
7.26 6.36 0.90 0.81 α=0,05: ttabel=1,729. Pentru că tobţinut > ttabel se respinge H0 și se
7.03 6.46 0.57 0.32 acceptă H1. Există diferențe semnificative între mediile celor două
7.53 7.03 0.50 0.25 semestru, în sensul că media notelor de pe primul semestru (7,53)
8.30 7.56 0.74 0.55 este semnificativ mai mare comparativ cu media notelor de pe cel
8.06 7.56 0.50 0.25 de-al doilea semestru (7,02).
8.76 7.76 1.00 1.00

9.33 8.23 1.10 1.21
9.13 8.46 0.67 0.45
8.70 8.76 -0.06 0.00
8.93 9.40 -0.47 0.22
9.36 9.56 -0.20 0.04
10.39 10.41
9
X Y
Testul T pentru eşantioane mari independente Formula: z 
s x y
Unde:
 s x  y  s x2  s y2 ; abaterea standard a diferenţelor dintre medii
sx sy
 s x2  ; s y2  ; erorile standard ale mediilor
N x 1 N y 1
 sx 
x 2
; sy 
y 2
; abaterile standard
Nx Ny
... ... ... ... ... ...
X Y ∑ ∑
!!! Se compară zcalc cu zcritic = 1,96 (la un p = 0,05).
10
Aplicaţie: Verificați dacă există diferențe semnificative în ceea ce privește inteligența
emoțională în funcție de gen (unde X – scorurile obținute de către subiecți de gen masculin și
Y – scorurile obținute de către subiecți de gen feminin).
X Y
4 7
3 5
3 5
4 6
1 7
5 4
4 6
1 3
5 7
4 6
5 7
4 6
5 7
3 5
2 8
5 8
5 8
4 9
5 7
4 6
4 5
3 6
3 6
4 4
5 7
4 8
2 6
3 5
4 6
3 5
11
X Y
Testul T pentru eşantioane mari dependente Formula: z 
s X Y
Unde:
 s X Y  s X2  sY2  rXY * s X * sY
 rxy = corelaţia între medii

sx sy
 sX  ; sY 
Nx Ny
!!! Se compară zcalc cu zcritic = 1,96 (la un p = 0,05).

Aplicaţie: Verificați dacă există diferențe semnificative în ceea ce privește performanța unor
indivizi între pre-test (scorurile X) și post-test (scorurile Y).
X Y
4 5
3 6
3 4
4 5
1 6
5 3
4 5
1 2
5 6
4 5
5 6
4 5
5 6
3 4
2 3
5 6
5 8
4 5
5 6
4 5
4 5
3 4
3 4
4 5
5 6
4 5
2 2
3 4
4 5
3 4
12

Statistica. S12 - Compararea Mediilor PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistica. S12 - Compararea Mediilor PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Seminar XII - TEORIA TESTELOR ÎN STATISTICĂ

TESTUL T-STUDENT PENTRU DIFERENŢA DINTRE MEDII

1. Teste parametrice vs. Teste neparametrice

Interpretarea coeficientului skewness:

 Boltirea (excesul) distribuției face referire la aspectul „cocoașei” distribuției rezultatelor.

Interpretarea coeficientului kurtosis:

a. Compararea unei medii cu o normă (valoarea aşteptată a mediei). Obiectiv: să

7,13  7,00 0,13 0,13

Principiul: calcularea diferenţelor dintre medii şi compararea acestora ( X – Y )

- Condiţia de acceptare H0: tcalculat < t(v;1-α)

Testul T pentru eşantioane mici independente

Pentru a aplica formula vom calcula mai întâi în tabel următoarele:

 ( D)² ; abaterea standard a diferenţelor

Pentru a aplica formula vom calcula mai întâi în tabel următoarele:

6.80 6.26 0.54 0.29

8.06 7.56 0.50 0.25 de-al doilea semestru (7,02).

8.76 7.76 1.00 1.00

 s x  y  s x2  s y2 ; abaterea standard a diferenţelor dintre medii

Pentru a aplica formula vom calcula mai întâi în tabel următoarele:

!!! Se compară zcalc cu zcritic = 1,96 (la un p = 0,05).

 rxy = corelaţia între medii

!!! Se compară zcalc cu zcritic = 1,96 (la un p = 0,05).

S-ar putea să vă placă și