Sunteți pe pagina 1din 7

RUXANDRA-LOREDANA GHERASIM

Unitatea de învăţare 5.
ELEMENTE DE STATISTICĂ INFERENŢIALĂ – ASPECTE GENERALE

1. DISTRIBUŢIA NORMALĂ

Variabilitatea rezultatelor urmează reguli care pot fi modelate matematic. Dacă un fenomen
social observat este urmărit o perioadă de timp mai îndelungată, distribuţia rezultatelor se va face după
o curbă normală, iar acest lucru poate fi demonstrat matematic.

IMPORTANT
Există trei parametri ai unei distribuţii: modalitatea (indică valorile în jurul cărora se grupează
scorurile subiecţilor), înclinarea (indică tendinţa scorurilor de a fi mai mari sau mai mici) şi turtirea (arată
cât de mult variază scorurile distribuţiei).

Din perspectiva celor trei parametri, curba normală este unimodală, simetrică şi mediu turtită. În
plus, curba normală mai posedă anumite proprietăţi speciale. Astfel, matematicienii au pus la punct
formule care permit calcularea diferitelor suprafeţe ale curbei.

EXEMPLU:
Pentru a înţelege mai uşor despre ce este vorba, să luăm drept exemplu distribuţia rezultatelor
la un test de inteligenţă. La acest test media rezultatelor este 100, iar deviaţia standard este 16. În
imaginea de mai jos ilustrăm grafic această distribuţie:

34% 34%

14% 14%
2% 2%

Scoruri brute 68 84 100 116 132


Scoruri z -2 -1 0 +1 +2
Dacă urmăriţi cu atenţie forma curbei normale veţi constata prezenţa unor „puncte de
inflexiune”, puncte în care linia curbă îşi modifică forma. Aceste puncte corespund deviaţiilor standard.
Întrucât distribuţia normală este simetrică, exact 50% din cazuri vor avea scoruri sub valoarea medie.
Aproximativ 34% din cazuri se vor afla între medie şi o abatere standard la stânga sau la dreapta
mediei. Astfel, vom şti că 34% dintre subiecţi au scoruri cuprinse între medie (100) şi o deviaţie
standard. Având o deviaţie standard de 16, vom şti că 34% dintre indivizi vor avea scorul cuprins între
100 şi 116 (cei cu IQ situat deasupra mediei) sau între 84 şi 100 (cei cu IQ situat dedesubtul mediei).
Observaţi, de asemenea, că şi mai puţine cazuri sunt mai depărtate de medie. Abia 16% din populaţie
vor avea scoruri mai mici sau mai mari de o deviaţie standard. Cu alte cuvinte, numai 16% dintre
oameni au coeficientul de inteligenţă mai scăzut de 84 sau mai ridicat de 116. Mai mult, doar
aproximativ 2% dintre indivizi vor avea scoruri şi mai extreme, mai mici sau mai mari decât două deviaţii
standard faţă de medie (adică sub valoarea 68 sau peste valoarea 132).

166
ANALIZA COMPUTERIZATĂ A DATELOR

Există o strânsă legătură între scorurile standard (notele z) şi diferite procentaje sau frecvenţe
relative. Cunoscând nota Z a unui subiect putem şti cu precizie câţi indivizi din populaţie au scoruri mai
mici sau mai mari decât al subiectului investigat. Orice manual de statistică are la sfârşit un tabel care
permite calcularea acestor procentaje cu precizie. În acel tabel, pentru fiecare notă Z, este precizat un
procent, care arată câţi subiecţi au scorurile cuprinse între medie şi nota Z. Să presupunem că o
persoană obţine la testul de inteligenţă scorul 125, putem calcula nota Z a acestui subiect, care are
valoarea 1,56 (după formula: (125-100)/16). Dacă vom consulta unul din tabelele de care aminteam
anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamnă că de la medie (100) şi
până la scorul nostru (125) sunt 44,06% dintre subiecţi. Aceasta arată că doar 5,94% dintre indivizi vor
avea scoruri mai mari (50%-44,06%) şi 94,06% (50%+44,06%) vor avea scoruri mai mici decât
subiectul ales de noi.

2. ETAPELE TESTĂRII UNEI IPOTEZE. TESTUL Z

Pentru a vedea cum se realizează inferenţa statistică, vom analiza cel mai simplu test, testul z.

DEFINIŢIE
Testul Z permite compararea unui eşantion format dintr-un singur caz cu o populaţie ai cărei
parametri sunt cunoscuţi.

Ca exemplu vom folosi un studiu (Aron & Aron, 1995), în care un grup de farmacişti a sintetizat
o vitamină care accelerează procesele de asimilaţie la copii nou-născuţi, aceştia dezvoltându-se mai
rapid. Unul dintre efecte este scăderea vârstei la care copii încep să meargă. Farmaciştii au dorit să
omologheze vitamina, dar pentru aceasta ei trebuie să demonstreze că într-adevăr vitamina
accelerează mersul copiilor. Farmaciştii au primit dreptul să administreze vitamina unui singur copil nou-
născut, ales aleatoriu din populaţie. Copilul respectiv, după administrarea vitaminei, a început să
meargă de la vârsta de 8 luni. Pot farmaciştii să susţină că vârsta precoce la care a mers copilul se
datorează vitaminei, ştiind că vârsta la care merg copii prima dată, în populaţia normală este de 14 luni,
cu o abatere standard de 3 luni?
Pentru a răspunde cu dovezi statistice la o astfel de întrebare, trebuie să facem apel la
distribuţia normală a variabilei alese în cadrul populaţiei şi să respectăm anumite etape pentru
verificarea raţionamentului. Prezentăm în continuare curba normală corespunzătoare vârstei de debut
de la care copiii încep să meargă:

34% 34%

14% 14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni

Pentru testarea ipotezei trebuie să parcurgem mai multe etape:


Etapa I: Reformularea problemei în termenii populaţiilor de comparaţie. Deşi avem doar un singur caz
pe care trebuie să îl comparăm cu o populaţie ai cărei parametri sunt cunoscuţi, ipotezele trebuie

167
RUXANDRA-LOREDANA GHERASIM

reformulate în termenii generali ai populaţiilor de comparat pentru a putea face generalizarea


ulterioară. Astfel, în exemplul nostru avem de comparat două populaţii: P0 – populaţia copiilor
normali care nu iau vitaminele şi P1 - populaţia copiilor normali care iau vitaminele. Vom formula
două ipoteze:
Ipoteza de lucru (experimentală): afirmă că noii născuţi care iau vitamina vor merge mai repede
decât cei care nu iau vitamina (H1: P0 < P1)
Ipoteza de nul: Este ipoteza care descrie situaţia în care intervenţia noastră (vitamina) nu are nici
un efect. Dacă vitamina nu ar avea nici un efect, cele două populaţii de copii ar merge la aceeaşi
vârstă. H0: P0 = P1
Într-o cercetare se testează de fapt ipoteza de nul pentru că ea descrie situaţia deja existentă
înainte intervenţiei sau situaţia în care nu am obţine nici un efect. Dacă ipoteza de nul este
respinsă, atunci putem accepta ipoteza de lucru.
Etapa II: Stabilirea parametrilor populaţiei de comparaţie şi a distribuţiei de comparaţie. Această etapă
presupune cunoaşterea parametrilor (media şi abaterea standard) populaţiei la care ne raportăm (în
cazul nostru distribuţia copiilor care nu iau vitamina). În mod obişnuit, fără nici o altă intervenţie,
copiii din populaţia normală merg la vârsta de 14 luni, cu o abatere standard de 3 luni. Distribuţia
acestei variabile este normală.
Etapa III: Stabilirea pragului de semnificaţie şi a notei z a punctului de „tăiere”. Orice ipoteză, mai ales
în domeniul ştiinţelor sociale, este testată la un anumit prag de semnificaţie. Acest prag de
semnificaţie arată probabilitatea de eroare cu care noi testăm ipoteza. Pragul de semnificaţie poate
fi de 1% (când dorim să fim mai precişi) sau de 5% (atunci când putem fi mai puţin exacţi).
Pentru această cercetare vom stabili un prag de semnificaţie de 1% întrucât efectele ei sunt
importante. După stabilirea pragului, trebuie să vedem care este nota Z corespunzătoare acestuia. Am
precizat anterior că fiecărui punct de pe curba de distribuţie normală îi corespunde o anumită notă
standard şi o anume distribuţie a cazurilor din populaţie faţă de acel punct. De exemplu, la o valoare Z
de 1 (adică 17 luni) se constată că 84% dintre copii merg la vârste mai mici de 17 luni, abia 16%
mergând mai târziu de această vârstă.
Există două de valori Z de corespunzătoare pragului 1%, una referitoare la scorurile mici (în
partea stângă a distribuţiei), care arată cei 1% dintre copii care merg cel mai timpuriu şi o altă valoare
referitoare la scorurile mari (în partea dreaptă a distribuţiei) care arată acei 1% dintre copii care merg
cel mai târziu. Pe noi ne interesează prima dintre aceste valori.

34%
34%
-2,33 14%
14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
Note z -2 -1 0 +1 +2
În tabelele statistice găsim valoarea scorului z (z=2,33) corespunzătoare probabilităţii de 1%
(numită şi punct de tăiere). În cazul nostru ea va fi –2,33 pentru că ne referim la scorurile mai mici decât
media, aflate în partea stângă a curbei de distribuţie.

168
ANALIZA COMPUTERIZATĂ A DATELOR

Etapa IV: Colectarea datelor şi transformarea lor în scoruri z. În cazul nostru colectarea datelor
înseamnă a observa vârsta la care va merge copilul pentru prima dată (8 luni). Vom transforma scorul
subiectului la variabila vârstă în scor Z, prin raportare la distribuţia populaţiei normale de comparat
folosind formula notei Z (X-M)/SD), adică pentru exemplu nostru: Z=(8-14)/3)=-2
Etapa V: Compararea notei z astfel obţinută cu nota z a punctului de tăiere. După obţinerea scorul Z
corespunzător datelor colectate, acesta trebuie comparat cu scorul Z corespunzător punctului de tăiere.
În cazul nostru, nota Z (-2) corespunzătoare scorului brut este mai mare decât a notei Z a punctului de
tăiere (–2,33). În ipoteza noastră experimentală ne aşteptam ca nota Z corespunzătoare scorului brut să
fie mai mică decât valoare Z a punctului de tăiere. În consecinţă, acceptăm ipoteza de nul, ipoteza
experimentală neconfirmându-se. Cu alte cuvinte, farmaciştii nu au reuşit să dovedească, la un prag de
probabilitate de 1% că vitamina lor are efectul scontat.
Am prezentat testul Z pentru a înţelege logica testării ipotezelor şi înţelesul pragului de
semnificaţie. Vom prezenta în continuare, succint testele de comparaţie cele mai frecvent folosite.

3. TESTUL T PENTRU COMPARAREA UNUI EŞANTION CU MEDIA POPULAŢIEI

Acest test se aplică atunci când dorim să comparăm rezultatele unui eşantion cu media
populaţiei (fără să avem informaţii despre varianţa rezultatelor populaţiei).

APLICAŢIE
Pentru a vedea cum anume se foloseşte programul SPSS în această situaţie vom crea o nouă
bază de date (baza7.sav), care conţine trei variabile: regiune (zona geografică, cu valorile: 1-
europeană, 2-asiatică şi 3-africană), ind_d (procentul anual de creştere a populaţiei) şi dens (densitatea
populaţiei pe km2). Prezentăm în continuare valorile acestor variabile:
dens: 94, 800, 87, 79, 36, 216, 55, 27, 2,8, 5, 124, 36, 47, 39, 105, 4,2, 86, 81, 227, 80, 54, 94, 111, 2,5,
283, 102, 51, 188, 330, 49, 40, 29, 58, 63, 189, 102, 143, 221
ind_d: 0,2, 2,4, 0,7, -0,2, 2,8, 2,3, 2,9, 2,9, 0,7, 2,4, 1,1, 0,5, 3,1, 0,3, 0,5, 1,5, 3,1, 0,8, 0,4, 0,8, -0,1, -
0,3, 1,1, 1,9, 1,6, 0,3, 0,2, 0,3, 3,1, 0,5, 3,3, 2,3, 2,1, 1,8, 3,1, 2,8, 1,9
reg: 1, 2, 1, 1, 3, 3, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 3, 1, 3, 2, 3, 2, 3, 2, 2

Dorim să comparăm scorurile eşantionului la variabila indice demografic cu media populaţiei,


care are valoarea 2,3. Media eşantionului nostru este mai mare sau mai mică comparativ cu cea a
populaţiei cu valoarea 2,3? Deoarece nu avem acces la alţi parametri ai populaţiei, în afară de medie
va trebui să estimăm variabilitatea sa. Vom aplica testul t pentru a compara un eşantion cu o populaţie
la care cunoaştem media.
Ipoteza de cercetare: Indicele demografic al eşantionul nostru va avea o avea o valoare diferită
de indicele demografic al populaţiei
Ipoteza de nul: indicele demografic al eşantionului va avea aceeaşi valoare cu cel al populaţiei

Folosirea SPSS pentru compararea unui eşantion cu media unei populaţii


Aplicarea testului t se face activând din meniul ANALYZE-COMPARE MEANS opţiunea ONE
SAMPLE T TESTS:

169
RUXANDRA-LOREDANA GHERASIM

După activarea acestei comenzi pe ecran apare următoarea fereastră:

2
1

Această fereastră are trei elementele importante:


1. câmpul cu toate variabilele din baza de date;
2. câmpul unde vom introduce variabilele pe care vrem să le analizăm
3. câmpul în care se introduce valoarea medie a populaţiei cu care comparăm eşantionul (cu
valoarea 2,3 pentru exemplul nostru).
Activare butonului OPTIONS duce la deschiderea următoarei ferestre:

Se observă că automat calculatorul a ales un interval de încredere (CONFIDENCE INTERVAL)


de 95%, ceea ce implică un prag de semnificaţie de 5%. Nu vom modifica pragul de semnificaţie. După
activarea butonului CONTINUE şi apoi a butonului OK al ferestrei principale, pe ecran va apare
fereastra de OUTPUT:
1
One-Sample Statistics 2
Std. Error
N Mean Std. Deviation Mean 3
procentul de crestere
37 1,489 1,149 ,189
anuala a populatiei

170
ANALIZA COMPUTERIZATĂ A DATELOR

One-Sample Test

Test Value = 2.3


95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
procentul de crestere
-4,294 36 ,000 -,811 -1,195 -,428
anuala a populatiei

4 5 6 7 8

Rezultatele sunt grupate în două tabele. Primul tabel, ONE SAMPLE STATISTICS, conţine
elemente de statistică descriptivă. Al doilea tabel, ONE SAMPLE TEST, conţine date despre testul t
propriu-zis. În continuare vom analiza elementele OUTPUT-ului:
1. în această celulă este afişată media eşantionului, în cazul nostru m=1,49
2. în această celulă este afişată abaterea standard a eşantionului, SD=1,1
3. celula cuprinde eroarea standard a mediei, mai precis deviaţia standard a populaţiei de eşantioane
de aceeaşi mărime cu al nostru (37), populaţie din care provine eşantionul nostru, m=0,19
4. nota t a eşantionului nostru comparat la populaţia de eşantioane care are media (m) 2,3 şi abaterea
standard (m) de 0,19. Valoarea lui t este obţinută după formula t=(m-  m )/  m =(1,49-2,3)/0,19-
4,26. Valoarea nu este identică cu cea din tabel datorită aproximărilor făcute.
5. cuprinde gradele de liberate pentru care a fost calculată valoarea lui t şi probabilitatea de respingere
a ipotezei de nul; în cazul nostru df=36
6. prezintă pragul de semnificaţie real, care ne spune care este probabilitatea cu care greşim dacă
respingem ipoteza de nul şi acceptăm ipoteza de cercetare. În exemplu nostru valoarea pragului de
semnificaţie este 0,000, dar se raportează ca un p0,001, pentru a arăta că probabilitatea de a
greşi este mai mică de 0,1% (calculatorul ne afişează doar primele trei zecimale).
7. celula conţine diferenţa dintre media eşantionului şi cea a populaţie la care ne raportăm.
8. prezintă intervalul de încredere al diferenţei dintre cele două medii (-1,1 şi -0,4) corespunzător
pragului de semnificaţie de 5%.
În interpretarea statistică a notei t, oricare ar fi tipul de test ales, sunt câte elemente pe care de
acre trebuie să ţinem seama:
 pragul de semnificaţie: care ne indică probabilitatea de eroare atunci când respingem ipoteza de nul.
Pentru a confirma ipoteze de cercetare, pragul de semnificaţie trebuie să fie mai mic sau cel mult
egal cu 0,05 (adică eroarea nu trebuie să fie mai mare de 5%).
 gradul de libertate: arată care este mărimea eşantionului pe care s-a făcut testarea ipotezei. Cu cât
eşantionul este mai mare, cu atât putem avea mai multă încredere în rezultatele obţinute, indiferent
dacă ele confirmă sau nu ipoteza;
 sensul diferenţei: este dat de valoarea mediilor comparate sau de semnul notei t şi arată în ce sens
apare diferenţa (care medie este mai mare).
Rezultatele pentru exemplul anterior sunt: Mediile: Meş=1,4, Mpop=2,3,
Valoarea lui t şi pragul de semnificaţie: t(36)=-4,29, p0,001.
Aceste rezultate indică faptul că diferenţa dintre medii este semnificativă, în sensul că media
eşantionului nostru este semnificativ mai mică comparativ cu cea a populaţie. Putem afirmă că
procentul de creştere a populaţie eşantionului nostru este mai mic semnificativ în comparaţie cu cel al
populaţiei.
Să analizăm acum dacă scorurile la variabila densitate din eşantionul nostru diferă de cea a
populaţiei cu valoarea de 0,9. Rezultatele testului ONE SIMPLE T TEST indică următoarele rezultate:

171
RUXANDRA-LOREDANA GHERASIM

One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
Numar de oameni/
37 261,797 895,096 147,153
kilometru patrat

One-Sample Test

Test Value = 90
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Numar de oameni/
1,167 36 ,251 171,797 -126,643 470,237
kilometru patrat

Mediile: Meş=261,7, Mpop=90


Valoarea lui t şi pragul de semnificaţie: t(36)=1,16, p=0,251.
Rezultatele indică faptul că nu există diferenţe semnificative între densitatea medie a
eşantionului şi cea a populaţie, cu valoarea 90 (dacă am accepta ipoteza de cercetare am greşi în
25,1% din cazuri). Putem spune că avem densitatea eşantionului studiat de noi este aceeaşi cu cea a
populaţiei.

APLICAŢIE
Comparaţi rezultatele subiecţilor din eşantion cu rezultatele subiecţilor din populaţia cu o medie
de 16,3 la variabila nivel sociabilitate (baza de date BD1).

172