Documente Academic
Documente Profesional
Documente Cultură
Unitatea de învăţare 5.
ELEMENTE DE STATISTICĂ INFERENŢIALĂ – ASPECTE GENERALE
1. DISTRIBUŢIA NORMALĂ
Variabilitatea rezultatelor urmează reguli care pot fi modelate matematic. Dacă un fenomen
social observat este urmărit o perioadă de timp mai îndelungată, distribuţia rezultatelor se va face după
o curbă normală, iar acest lucru poate fi demonstrat matematic.
IMPORTANT
Există trei parametri ai unei distribuţii: modalitatea (indică valorile în jurul cărora se grupează
scorurile subiecţilor), înclinarea (indică tendinţa scorurilor de a fi mai mari sau mai mici) şi turtirea (arată
cât de mult variază scorurile distribuţiei).
Din perspectiva celor trei parametri, curba normală este unimodală, simetrică şi mediu turtită. În
plus, curba normală mai posedă anumite proprietăţi speciale. Astfel, matematicienii au pus la punct
formule care permit calcularea diferitelor suprafeţe ale curbei.
EXEMPLU:
Pentru a înţelege mai uşor despre ce este vorba, să luăm drept exemplu distribuţia rezultatelor
la un test de inteligenţă. La acest test media rezultatelor este 100, iar deviaţia standard este 16. În
imaginea de mai jos ilustrăm grafic această distribuţie:
34% 34%
14% 14%
2% 2%
166
ANALIZA COMPUTERIZATĂ A DATELOR
Există o strânsă legătură între scorurile standard (notele z) şi diferite procentaje sau frecvenţe
relative. Cunoscând nota Z a unui subiect putem şti cu precizie câţi indivizi din populaţie au scoruri mai
mici sau mai mari decât al subiectului investigat. Orice manual de statistică are la sfârşit un tabel care
permite calcularea acestor procentaje cu precizie. În acel tabel, pentru fiecare notă Z, este precizat un
procent, care arată câţi subiecţi au scorurile cuprinse între medie şi nota Z. Să presupunem că o
persoană obţine la testul de inteligenţă scorul 125, putem calcula nota Z a acestui subiect, care are
valoarea 1,56 (după formula: (125-100)/16). Dacă vom consulta unul din tabelele de care aminteam
anterior, vom vedea în dreptul lui 1,56 valoarea 44,06%. Aceasta înseamnă că de la medie (100) şi
până la scorul nostru (125) sunt 44,06% dintre subiecţi. Aceasta arată că doar 5,94% dintre indivizi vor
avea scoruri mai mari (50%-44,06%) şi 94,06% (50%+44,06%) vor avea scoruri mai mici decât
subiectul ales de noi.
Pentru a vedea cum se realizează inferenţa statistică, vom analiza cel mai simplu test, testul z.
DEFINIŢIE
Testul Z permite compararea unui eşantion format dintr-un singur caz cu o populaţie ai cărei
parametri sunt cunoscuţi.
Ca exemplu vom folosi un studiu (Aron & Aron, 1995), în care un grup de farmacişti a sintetizat
o vitamină care accelerează procesele de asimilaţie la copii nou-născuţi, aceştia dezvoltându-se mai
rapid. Unul dintre efecte este scăderea vârstei la care copii încep să meargă. Farmaciştii au dorit să
omologheze vitamina, dar pentru aceasta ei trebuie să demonstreze că într-adevăr vitamina
accelerează mersul copiilor. Farmaciştii au primit dreptul să administreze vitamina unui singur copil nou-
născut, ales aleatoriu din populaţie. Copilul respectiv, după administrarea vitaminei, a început să
meargă de la vârsta de 8 luni. Pot farmaciştii să susţină că vârsta precoce la care a mers copilul se
datorează vitaminei, ştiind că vârsta la care merg copii prima dată, în populaţia normală este de 14 luni,
cu o abatere standard de 3 luni?
Pentru a răspunde cu dovezi statistice la o astfel de întrebare, trebuie să facem apel la
distribuţia normală a variabilei alese în cadrul populaţiei şi să respectăm anumite etape pentru
verificarea raţionamentului. Prezentăm în continuare curba normală corespunzătoare vârstei de debut
de la care copiii încep să meargă:
34% 34%
14% 14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
167
RUXANDRA-LOREDANA GHERASIM
34%
34%
-2,33 14%
14%
2% 2%
8 luni 11 luni 14 luni 17 luni 20 luni
Note z -2 -1 0 +1 +2
În tabelele statistice găsim valoarea scorului z (z=2,33) corespunzătoare probabilităţii de 1%
(numită şi punct de tăiere). În cazul nostru ea va fi –2,33 pentru că ne referim la scorurile mai mici decât
media, aflate în partea stângă a curbei de distribuţie.
168
ANALIZA COMPUTERIZATĂ A DATELOR
Etapa IV: Colectarea datelor şi transformarea lor în scoruri z. În cazul nostru colectarea datelor
înseamnă a observa vârsta la care va merge copilul pentru prima dată (8 luni). Vom transforma scorul
subiectului la variabila vârstă în scor Z, prin raportare la distribuţia populaţiei normale de comparat
folosind formula notei Z (X-M)/SD), adică pentru exemplu nostru: Z=(8-14)/3)=-2
Etapa V: Compararea notei z astfel obţinută cu nota z a punctului de tăiere. După obţinerea scorul Z
corespunzător datelor colectate, acesta trebuie comparat cu scorul Z corespunzător punctului de tăiere.
În cazul nostru, nota Z (-2) corespunzătoare scorului brut este mai mare decât a notei Z a punctului de
tăiere (–2,33). În ipoteza noastră experimentală ne aşteptam ca nota Z corespunzătoare scorului brut să
fie mai mică decât valoare Z a punctului de tăiere. În consecinţă, acceptăm ipoteza de nul, ipoteza
experimentală neconfirmându-se. Cu alte cuvinte, farmaciştii nu au reuşit să dovedească, la un prag de
probabilitate de 1% că vitamina lor are efectul scontat.
Am prezentat testul Z pentru a înţelege logica testării ipotezelor şi înţelesul pragului de
semnificaţie. Vom prezenta în continuare, succint testele de comparaţie cele mai frecvent folosite.
Acest test se aplică atunci când dorim să comparăm rezultatele unui eşantion cu media
populaţiei (fără să avem informaţii despre varianţa rezultatelor populaţiei).
APLICAŢIE
Pentru a vedea cum anume se foloseşte programul SPSS în această situaţie vom crea o nouă
bază de date (baza7.sav), care conţine trei variabile: regiune (zona geografică, cu valorile: 1-
europeană, 2-asiatică şi 3-africană), ind_d (procentul anual de creştere a populaţiei) şi dens (densitatea
populaţiei pe km2). Prezentăm în continuare valorile acestor variabile:
dens: 94, 800, 87, 79, 36, 216, 55, 27, 2,8, 5, 124, 36, 47, 39, 105, 4,2, 86, 81, 227, 80, 54, 94, 111, 2,5,
283, 102, 51, 188, 330, 49, 40, 29, 58, 63, 189, 102, 143, 221
ind_d: 0,2, 2,4, 0,7, -0,2, 2,8, 2,3, 2,9, 2,9, 0,7, 2,4, 1,1, 0,5, 3,1, 0,3, 0,5, 1,5, 3,1, 0,8, 0,4, 0,8, -0,1, -
0,3, 1,1, 1,9, 1,6, 0,3, 0,2, 0,3, 3,1, 0,5, 3,3, 2,3, 2,1, 1,8, 3,1, 2,8, 1,9
reg: 1, 2, 1, 1, 3, 3, 2, 3, 1, 3, 2, 1, 3, 1, 1, 3, 3, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 3, 1, 3, 2, 3, 2, 3, 2, 2
169
RUXANDRA-LOREDANA GHERASIM
2
1
170
ANALIZA COMPUTERIZATĂ A DATELOR
One-Sample Test
4 5 6 7 8
Rezultatele sunt grupate în două tabele. Primul tabel, ONE SAMPLE STATISTICS, conţine
elemente de statistică descriptivă. Al doilea tabel, ONE SAMPLE TEST, conţine date despre testul t
propriu-zis. În continuare vom analiza elementele OUTPUT-ului:
1. în această celulă este afişată media eşantionului, în cazul nostru m=1,49
2. în această celulă este afişată abaterea standard a eşantionului, SD=1,1
3. celula cuprinde eroarea standard a mediei, mai precis deviaţia standard a populaţiei de eşantioane
de aceeaşi mărime cu al nostru (37), populaţie din care provine eşantionul nostru, m=0,19
4. nota t a eşantionului nostru comparat la populaţia de eşantioane care are media (m) 2,3 şi abaterea
standard (m) de 0,19. Valoarea lui t este obţinută după formula t=(m- m )/ m =(1,49-2,3)/0,19-
4,26. Valoarea nu este identică cu cea din tabel datorită aproximărilor făcute.
5. cuprinde gradele de liberate pentru care a fost calculată valoarea lui t şi probabilitatea de respingere
a ipotezei de nul; în cazul nostru df=36
6. prezintă pragul de semnificaţie real, care ne spune care este probabilitatea cu care greşim dacă
respingem ipoteza de nul şi acceptăm ipoteza de cercetare. În exemplu nostru valoarea pragului de
semnificaţie este 0,000, dar se raportează ca un p0,001, pentru a arăta că probabilitatea de a
greşi este mai mică de 0,1% (calculatorul ne afişează doar primele trei zecimale).
7. celula conţine diferenţa dintre media eşantionului şi cea a populaţie la care ne raportăm.
8. prezintă intervalul de încredere al diferenţei dintre cele două medii (-1,1 şi -0,4) corespunzător
pragului de semnificaţie de 5%.
În interpretarea statistică a notei t, oricare ar fi tipul de test ales, sunt câte elemente pe care de
acre trebuie să ţinem seama:
pragul de semnificaţie: care ne indică probabilitatea de eroare atunci când respingem ipoteza de nul.
Pentru a confirma ipoteze de cercetare, pragul de semnificaţie trebuie să fie mai mic sau cel mult
egal cu 0,05 (adică eroarea nu trebuie să fie mai mare de 5%).
gradul de libertate: arată care este mărimea eşantionului pe care s-a făcut testarea ipotezei. Cu cât
eşantionul este mai mare, cu atât putem avea mai multă încredere în rezultatele obţinute, indiferent
dacă ele confirmă sau nu ipoteza;
sensul diferenţei: este dat de valoarea mediilor comparate sau de semnul notei t şi arată în ce sens
apare diferenţa (care medie este mai mare).
Rezultatele pentru exemplul anterior sunt: Mediile: Meş=1,4, Mpop=2,3,
Valoarea lui t şi pragul de semnificaţie: t(36)=-4,29, p0,001.
Aceste rezultate indică faptul că diferenţa dintre medii este semnificativă, în sensul că media
eşantionului nostru este semnificativ mai mică comparativ cu cea a populaţie. Putem afirmă că
procentul de creştere a populaţie eşantionului nostru este mai mic semnificativ în comparaţie cu cel al
populaţiei.
Să analizăm acum dacă scorurile la variabila densitate din eşantionul nostru diferă de cea a
populaţiei cu valoarea de 0,9. Rezultatele testului ONE SIMPLE T TEST indică următoarele rezultate:
171
RUXANDRA-LOREDANA GHERASIM
One-Sample Statistics
Std. Error
N Mean Std. Deviation Mean
Numar de oameni/
37 261,797 895,096 147,153
kilometru patrat
One-Sample Test
Test Value = 90
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Numar de oameni/
1,167 36 ,251 171,797 -126,643 470,237
kilometru patrat
APLICAŢIE
Comparaţi rezultatele subiecţilor din eşantion cu rezultatele subiecţilor din populaţia cu o medie
de 16,3 la variabila nivel sociabilitate (baza de date BD1).
172