Sunteți pe pagina 1din 34

ORGANIZAREA COLECŢIEI DE DATE

1. EVALUAREA ŞI MĂSURAREA ÎN PSIHOLOGIE

Datele obţinute prin diferite forme de investigaţie psihologică se prezintă adesea


în formă numerică sau sunt aduse, graţie unei operaţii de codare, la o formă numerică,
astfel încât se pretează la o prelucrare matematică, în particular, statistică. Spre exemplu,
într-o experienţă de laborator se înregistrează frecvenţa, durata ori amplitudinea unei
reacţii în funcţie de stimulii aplicaţi; într-o activitate sau o probă practică se numără
răspunsurile exacte, ca şi erorile; altădată, se notează timpul de execuţie a unei mişcări
sau acţiuni, timpul de reacţie pentru răspuns, timpul de evocare a unui material din
memorie ori de asociere a unor cuvinte etc. De asemenea, în probe de învăţare se
marchează numărul de repetiţii sau încercări necesare până la obţinerea curbei cu platou,
precum şi volumul materialului reţinut în diferite unităţi de timp ş.a.m.d.
Când este vorba de influenţa unor factori fizici (stimuli vizuali, acustici, tactili) se
măsoară – pe baza aparatelor cunoscute – anumiţi parametri fizici: intensitate, frecvenţă,
greutate ş.a. De notat că variabilele brute, adică şirul de numere cu care operează
psihologul rezultă fie în mod direct din citirea aparatelor – cum este cazul indicilor de
timp sau al parametrilor fizici –, fie din însumarea de puncte, cum este cazul testelor
creion – hârtie sau alte probe. Alteori, datele apar din totalizări pe rubrici ordonate ale
unui tabel sau protocol de observaţie, cum va reieşi din exemplul ce urmează.

Exemplu:
Un proces de investigare ce ia forma observaţiei pune, de regulă, în joc o grilă de
observaţie, care oferă cadrul de clasificare a datelor, rubricile tabelului de înregistrare a
faptelor urmărite.
Pentru a surprinde, de pildă, anumite trăsături de temperament în comportarea
preşcolarului sau a şcolarului mic se organizează un joc – denumit convenţional
"transportul cuburilor" – căruia i se impun anumite cerinţe. Copilul trebuie să transporte
cu lopăţica pe un traseu dat (dus şi întors) un număr crescând de cuburi (3, 4, 5, ... 10),
purtând coloana acestora cu mâna dreaptă fără să o sprijine cu cealaltă mână. În caz de
eşec (pierderea vreunui cub, răsturnarea coloanei etc.) proba se reia de la început. Se
înregistrează succesiunea probelor, reacţiile verbale şi motorii care însoţesc îndeplinirea
sarcinii, conţinutul sau felul acestor reacţii în funcţie de succes/insucces, reluarea probei
etc. Tabelul 2.1., adaptat după I. A. Samarin (1954), redă un fragment dintr-un asemenea
protocol. Rubricile tabelului alcătuiesc grila de observare a comportamentului.

1
Tabelul 2.1.
Suc- Cu- Pre- Caracterul reacţiilor Pre- Caracterul reacţiilor Alte
ce- buri zenţa zenţa Obser-
siu- trans- reac- verbale reac- motrice vaţii
nea por- ţiilor Auto- Se Re- Alte ţiilor pre- Refuz Distra- Reac-
pro- tate ver- stimu- plân- fuz re- mo- cipi- pasiv geri ţii
belor bale lare ge de acţii trice tare mo- vege-
greu- ver- ener- trice tative
tatea bale vare
sar-
cinii
1 3 +! + - - - + - - + -
2 4 + +! - - - - - - - -
3 5 +!! + + - - + - - - +
.
.
( Adaptat după I. A. Samarin, 1954)

După cum se vede, este vorba de strângerea unei informaţii mai mult calitative:
s-a notat prezenţa sau absenţa reacţiilor verbale şi motorii (cu "+", respectiv "-"), apoi
felul sau conţinutul acestora, manifestarea cu insistenţă a unei trăsături (marcată cu
semnul exclamării). Documentul care consemnează datele obţinute şi modul de recoltare
se numeşte protocol. Efectuând totalizări pe coloane în tabelul de date, se obţin frecvenţe
diferite pentru anumite tipuri de reacţii, care se pun în corelaţie cu tipul temperamental al
subiectului. Datele observaţiei ne apar condensate sub formă de efective sau frecvenţe,
corespunzător unor tipuri de răspuns.
Sub presiunea unor cerinţe de ordin practic, nevoia de măsurare s-a extins, după
cum se vede, de la măsurarea fizică la cea psihologică. Trebuie însă precizat că psihologia
nu dispune de unităţi de măsură aşa cum se întâlnesc ele în fizică. Spre exemplu, un copil
reţine dintr-o probă de memorie 8 cuvinte din 15 sau patru trasee dintr-un labirint.
Rezultatul testelor se exprimă numeric prin însumarea elementelor memorate. Nu este
precizat însă dacă traseele respective sau cuvintele sunt echivalente între ele pentru a fi
doar numărate, totalizate în cota atribuită subiectului. De asemenea, nu este precizat
modul de comparare între memoria cuvintelor şi aceea a traseelor pentru a le "compune"
într-un indice cantitativ unic. Aşadar, nu sunt conturate aici unităţi de măsură (cf. J.
Piaget, 1972).
Conceptul de măsurare este luat în psihologie în conţinutul său cel mai larg şi
anume, în sensul de operaţie prin care se atribuie numere datelor discrete sau continue ce
urmează a fi evaluate. Un exemplu familiar în această privinţă ar fi evaluarea şi notarea
şcolară, care reprezintă în final un mod de codare numerică (de la 1 la 10) a rezultatelor la
învăţătură. Numai că notele finale presupun un act de apreciere care comportă oricum un
grad de subiectivitate. În schimb investigaţiile psihologice tind şi reuşesc în numeroase
situaţii să obţină date obiective, independente de persoana care face cercetarea.
Montajele de laborator, tehnica de notare a probelor psihologice, analiza produselor
activităţii, ca şi observarea sistematică permit – cum s-a arătat mai sus – înregistrarea
unor fapte precise, colectarea în cele din urmă a unei informaţii numerice. Exprimând
anumite date în formă numerică, suntem tentaţi să facem în continuare operaţii aritmetice
cunoscute: adunarea, înmulţirea, împărţirea etc. Or, fenomenele psihice – cum vom
vedea – impun anumite restricţii în această privinţă; trebuie să existe un paralelism
(izomorfism) între tratarea numerică şi proprietăţile faptelor studiate.

2
Măsurarea psihologică, luată în sensul larg de aplicare a numărului la datele
obţinute, prezintă o anumită gradaţie, definită de tipurile de scale întâlnite în investigaţiile
concrete. Folosind terminologia lucrărilor de metodologie psihologică (Stevens, 1951;
Suppes şi Zinnes, 1963; Coombs, 1963; Faverge, 1965; Reuchlin, 1963; Rouanet, 1987
ş.a.) vorbim de diferite tipuri de scale: scale nominale, scale ordinale, scale de intervale
ş.a. Între acestea se găsesc şi tipuri intermediare, de exemplu scale hiperordinale (între
scale ordinale şi scale de interval). Felurile amintite de scări sau scale denumesc trepte
succesive de măsurare într-un domeniu dat.

● Scale nominale sau calitative – definesc primul nivel al măsurării, de fapt al


pre-măsurării. Acesta este nivelul curent în observaţie şi anchete.
A utiliza o scală nominală înseamnă a clasifica sau repartiza datele (rezultatele),
după o serie de nume sau categorii diferite (disjuncte), astfel încât fiecare element
(răspuns, observaţie etc.) să-şi găsească locul într-o categorie şi numai într-una singură.
Orice tipologie constituie în acest sens o scală nominală. În locul denumirii categoriilor
se utilizează de regulă un cod numeric (01, 02, ... ) care nu formează propriu-zis
obiectivul calculelor, ci serveşte la individualizarea acestor grupări, la repetarea lor în
cursul prelucrării statistice. Aşadar, nivelul nominal al măsurării comportă atribuire de
numere doar pentru a denumi clase de echivalenţă. Desigur, calculele obişnuite au loc,
dar ele se fac asupra efectivelor sau frecvenţelor ce se stabilesc în cadrul diverselor
categorii (clase), individualizate prin cod numeric.

Exemplu:
Se dă un chestionar referitor la orientarea profesională la o colectivitate de şcolari.
Elevii sunt solicitaţi să răspundă în scris asupra profesiunii spre care doresc să se
îndrepte. Se obţine un ansamblu de răspunsuri care vor fi grupate, repartizate în diferite
categorii după o listă sau repertoriu de profesiuni care va constitui cadrul de clasificare.
Aşadar, efectuând ancheta, mulţimea de răspunsuri obţinute se va repartiza într-un număr
de clase disjuncte, indicate prin denumirea profesiei ori un simbol ales în mod
convenţional (cod numeric) care, evident, nu face obiectul calculului. Fiecare răspuns în
parte consemnat în chestionar va fi repartizat în una din aceste categorii sau profesii. În
ancheta concretă, opţiunile exprimate nu acoperă în mod necesar întreg repertoriul de
profesiuni existent la un moment dat într-o societate; acest repertoriu este de regulă mai
larg decât protocolul obţinut. În final se numără răspunsurile din fiecare categorie sau
rubrică întâlnită şi se stabilesc frecvenţele corespunzătoare sau efectivele. Datele astfel
obţinute se pretează în continuare la o tratare numerică, utilizându-se mai ales indicii din
teoria informaţiei.

● Nivelul cel mai răspândit al măsurării în cercetarea psihologică este acela al


scalelor ordinale sau, pe scurt, nivelul ordinal. Variabilele psihologice – notează Faverge
(1965) – sunt în majoritatea lor variabile, având valori simplu ordonate. Caracteristică
acestui nivel – pe lângă propietăţile treptei anterioare – este posibilitatea de a stabili
relaţii de ordine totală între lucruri (date); fiind date elementele A, B, C, ... semnul ">"
aşezat între ele poate însemna:
A superior lui B, B superior lui C etc., sau A este preferat lui B, B preferat lui C
ş.a.m.d. Notând în general Pxxy vom citi "x superior lui y", "x preferat lui y" sau "x înaintea

3
lui y" etc. Probele sau criteriile de care ne servim conduc la clasamente ierarhice: scări de
capacitate, scări de preferinţe, scări de produse, scări de atitudini ş.a.m.d.
Când Alferd Binet lansa în 1905 cunoscuta sa "scală metrică a inteligenţei", el
pornea de la următoarele consideraţii: "... calităţile intelectuale nu se măsoară ca
lungimile, ele nu sunt superpozabile" (în limbajul nostru, ele nu satisfac cerinţa
aditivităţii); scala metrică permite – spunea Binet – "un clasament ierarhic între
inteligenţe diferite; şi pentru nevoile practicii acest clasament echivalează cu o măsurare"
(p.194-195).

Exemplu:
Ordonarea subiecţilor cu privire la atitudinile pe care le adoptă într-un domeniu
sau altul presupune o ordonare a întrebărilor ce le sunt adresate. De aici ideea de a
întocmi şi prezenta anumite grupaje sau baterii de întrebări care se referă la aceeaşi temă,
la acelaşi domeniu, pe scurt, la aceeaşi variabilă. Un asemenea grupaj, numit test sau
scală de atitudini trebuie să constituie el însuşi o scală ordinală. Răspunsurile posibile se
grupează şi ele într-o ierarhie.

● Cel de-al treilea nivel al măsurării este definit de scalele de intervale.


Acest nivel nu constituie practic nivelul curent în psihologie. Relaţiei de ordine i
se adaugă, în acest caz, mărimea exactă a intervalelor sau a distanţei care separă toate
elementele situate pe scală, ceea ce presupune o unitate de măsură comună şi constantă
(L. Coombs,1963). O procedură experimentală care să traducă practic exigenţa amintită
nu este uşor de realizat. Ea se întâlneşte în domeniul psihofiziologiei senzoriale, în
experienţe de laborator în care se înregistrează timpul de reacţie, numărul de erori, forţa
sau amplitudinea reacţiei motrice etc. De asemenea, în anumite probleme de psihologie
aplicată, cum sunt cele legate de producţie – când interesează exclusiv performanţele
comparabile, făcându-se abstracţie de orice alte considerente, utilizarea scalelor de
intervale este posibilă. În cadrul scalei de interval se conturează şi elementul compus.

● Scalele "hiperordinale", sunt caracterizate nu numai printr-o relaţie de ordine


între date (elemente), ci şi între intervalele care le separă. Aceste intervale însă nu sunt
reductibile la compuneri de unităţi (echivalente între ele), dar pot fi evaluate cu o anumită
precizie. Distanţa poate fi relevată nu în termeni numerici, ci în formă intuitivă.

Exemplu:
Prezentăm unui grup de şcolari un lot de probleme de gândire, în total 20, dispuse
în ordinea greutăţii lor crescânde, formând deci cum se spune o scală de dificultate. Într-o
asemenea probă, se presupune, dacă testul este omogen, că toţi subiecţii care au rezolvat
o întrebare de dificultate p, rezolvă de asemenea toate întrebările de dificultate inferioară
lui p. Acordăm un timp limitat pentru rezolvare, aceeaşi pentru fiecare subiect în parte.
Din ansamblul de rezultate individuale să reţinem patru performanţe; să zicem: A rezolvă
10 probleme, B rezolvă 8 probleme, C rezolvă 16 probleme şi D rezolvă 6 probleme.
Punctajul întrunit de fiecare – pe care îl vom nota cu litere mici corespunzătoare (a=10;
b=8; c=16; d=6) – este diferit şi ia, după cum se vede, o formă numerică. Variabila brută
ia naştere prin însumarea punctelor.

4
Operând în continuare asupra numerelor atribuite am fi tentaţi să spune c=2b
(întrucât 16=2 x 8), că d=c - a (întrucât 6=16 - 10), că a + d=c (pentru că 10 + 6=16)
ş.a.m.d. Asemenea operaţii ar fi din punct de vedere psihologic incorecte, deşi aritmetic
ele sunt corecte. Cine ar accepta, de pildă – vorbind în limbajul notelor şcolare – că "un
răspuns de 10" s-ar putea compune din "două răspunsuri de 5", deşi 10=5 + 5.
Fenomenele psihologice nu sunt aditive. Ceea ce putem spune în exemplul dat este că C
este superior lui A sub aspectul cercetat, că A este superior lui B, iar acesta se află
înaintea lui D (pe scurt: C>A>B>D). În plus, putem adăuga în mod intuitiv intervalul sau
distanţa care le separă: astfel, intervalul sau distanţa care-l separă pe C de D este mai
mare decât distanţa CB, că intervalul CA<CB ş.a.m.d. Stabilim, cu alte cuvinte, o relaţie
de ordine, o ierarhie a elementelor şi a intervalelor care le separă, relaţie care subzistă
statistic la a doua, a treia examinare, eventual la a n-a examinare, în condiţii identice.
Corespunzător tipurilor de scale vom avea de-a face cu variabile nominale,
variabile ordinale, variabile numerice etc. Când vorbim de variabile avem în vedere pe de
o parte, domeniul de variaţie, adică registrul de valori posibile, şi, pe de altă parte,
domeniul de definiţie, adică mulţimea de indivizi susceptibili de a prezenta aceste
modalităţi. De exemplu, o atitudine considerată ca variabilă presupune că putem preciza
o mulţime de modalităţi posibile ale acesteia şi, totodată, o populaţie care să prezinte
aceste modalităţi. Putem face ca fiecărui individ din domeniul de definiţie să-i
corespundă o modalitate şi una singură, din domeniul de variaţie.
Un protocol este o particularitate a variabilei, pentru care domeniul de definiţie
este mulţimea de indivizi I şi domeniul de variaţie o mulţime de observabile U. Noţiunea
de variabilă este mai generală: un protocol este mulţimea de observaţii (date) efective, în
timp ce o variabilă poate fi o mulţime de observaţii potenţiale (H. Rouanet, 1987, p. 50).
Prin urmare putem distinge între mulţimea de date sau observaţii efectiv înregistrate şi
mulţimea de observabile, de date ipotetice (prezumtive). Tipurile de scale descrise mai
sus reprezintă structuri pe mulţimea de date observabile.
Rezumând: în majoritatea situaţiilor, variabilele întâlnite în psihologie sunt
variabile având valori simplu ordonate (Experienţa psihologică – notează Piaget – nu ne
furnizează decât relaţii de ordine). Valorile numerice constituie repere menite să pună în
evidenţă o relaţie de ordine totală. Se introduce însă, în mai multe cazuri, o distanţă între
valorile unei variabile. În prelucrarea datelor, în funcţie de cerinţele studiului şi pentru a
ne înscrie într-o schemă statistică, noi introducem astfel o metrică, adică tratăm datele ca
şi cum s-ar situa la nivelul scalei de interval. Suprapunem deci – nu fără artificiu – scalei
hiperordinale o scală de intervale şi utilizăm operaţiile de calcul cunoscute. Se comite
astfel o eroare, care practic este adesea neglijabilă. S-a constatat că paralelismul între
modul de prelucrare a datelor ordinale şi tratarea aceloraşi date în scala de intervale a fost
de ordinul lui 0,90, adesea mai mare ca 0,90, ceea ce face acceptabilă transformarea
respectivă. Decisiv din punct de vedere practic, este faptul dacă o asemenea tratare dă loc
la predicţii valide, fapt deja verificat în psihologia aplicată.

5
2. COLECŢIA DE DATE BRUTE

De regulă, un experiment, o testare psihologică, o suită de observatii, o anchetă psiho –


socială etc. pornesc de la o întrebare chiar şi mai puţin însemnată, îşi propun deci să
rezolve o problemă.

Exemplu:
Cu ajutorul unui aparat flicker se determină în laborator frecvenţa critică de
fuziune a luminii intermitente. O suită de măsurări asupra aceluiaşi subiect ne oferă un
indice asupra eficienţei vizuale. Pentru discuţie să reţinem rezultatele obţinute de doi
subiecţi:
N.V. C.M.
47 48 50 52
47 47 50 51
48 46 52 52
49 48 48 50

Prima remarcă este că variabila rezultă direct din lectura aparatului şi că acelaşi subiect se
caracterizează prin valori care oscilează destul de puţin în jurul unei cifre – reper, motiv
pentru care volumul colecţiei de date recoltate poate fi mai restrâns.
Se pune întrebarea: care este în populaţie registrul de variaţie, al pragului de
fuziune? – ceea ce presupune extinderea determinărilor pe o colectivitate mai largă,
numită colectivitate sau grup de referinţă. Se constată că în condiţii de repaus întinderea
variaţiei este cuprinsă între 40 şi 70 Hz. Scăderea cu 3 – 4 Hz a pragului după un efort
psihofiziologic este un indiciu concret al apariţiei oboselii vizuale.
Să observăm că proba ca atare constituie într-un fel o “fereastră deschisă” spre
mai multe faţete ale fenomenului considerat. Remarca este valabilă şi pentru alte probe
psihologige. Ne poate interesa în exemplul de mai sus o măsură a stării de oboseală, un
indice asupra eficienţei vizuale la diferiţi subiecţi, fluctuaţii datorate stimulării concrete a
altor analizatori. De asemenea, poate fi vorba de studiul lateralitaţii, pornind de la
difernţa dintre pragul de fuziune al ochiului conducător în raport cu celălalt. Volumul de
date, ca şi organizarea lor internă vor depinde de problema pusă spre rezolvare şi de
gradul de împrăştiere sau variabilitate a datelor. De pildă, determinarea pragului
discriminării tactile – cu ajutorul unui esteziometru – duce la o colecţie de date având o
variabilitate de–a dreptul deconcertantă. În consecinţă, volumul colecţiei de date – având
o variabilitate sau o dispersie mare, - va trebui să fie mult mai mare. Se poate estima
acest lucru pe baza unor formule stabilite.
În psihologia aplicată cum este şi cazul exemplelor de mai sus – sunt frecvente
situaţiile în care ne interesează poziţia relativă a unui individ, respectiv a unui rezultat
specific, în cadrul unui grup mai larg. Este situaţia tipică a testării psihologice. Spre
exemplu, într-o examinare psihologică problema care se pune este situarea individului în
raport cu grupul de referinţă, a cărui investigaţie furnizează un tabel de norme sau o
tipologie. Un rezultat, o cotă individuală, luată singură reprezintă un bit de informaţie
care nu ne spune mare lucru. Trebuie să ştim ceva despre rezultatele celorlalţi subiecţi.
Interpretarea unei măsuri, a unei cote depinde de cunoaşterea poziţiei ei relative într-un
grup de referinţă, ceea ce presupune strângerea prealabilă (sau simultană) de date asupra

6
acestei colectivităţi şi întocmirea unui tabel de norme sau unei tipologii pe această
colectivitate. Investigarea grupului, respectiv a individului devin astfel complementare.

Exemplu:
Se pune întrebarea dacă o stare de tensiune psihică de încordare produce
modificări în rezultatele obţinute la un test de inteligenţă. Pentru a răspunde la această
întrebare se constituie două grupe dintr-un lot mai mare de subiecţi cuprinşi într-o testare
anterioară a inteligenţei făcută cu alt scop. În noua experienţă, fiecare subiect este supus
din nou, în mod individul, la unele probe din bateria iniţială de teste, primul grup este
retestat în condiţii de testare psihică graţie motivării date repetării examenului: s-a
explicat, de pildă, fiecărui subiect că rezultatul (CI) obţinut de el la prima testare a fost
neaşteptat de slab şi că i se oferă ocazia de a-şi îmbunătăţi scorul. Componenţii celui de-
al doilea grup sunt trataţi altfel şi anume într-o atmosferă emoţională neutră, motivându-
se că experimentatorul este interesat pur şi simplu de rezultatele unei retestări cu probe
identice.
Într-o experienţă efectivă, din subtestele aplicate, cercetătorul a reţinut datele
referitoare la volumul memoriei de numere, probă care s-a dovedit mai sensibilă la
factorul implicat: tensiunea psihică. Aceste date iau forma numerică (după Spencer şi
colab., 1968). Variabila se constituie prin însumare de puncte, de răspunsuri exacte. Cu
s1, s2,…, sn, se notează subiecţii cuprinşi în experienţă (Tab. 2.2.).
Tabel 2.2.
Grupul neutru (N) Grupul anxios (A)
(s1) 11 (s9) 11 (s17) 9 (s25) 13
(s2) 10 (s10) 11 (s18) 10 (s26) 4
(s3) 16 (s11) 14 (s19) 16 (s27) 10
(s4) 13 (s12) 16 (s20) 10 (s28) 11
(s5) 11 (s13) 13 (s21) 10 (s29) 13
(s6) 9 (s14) 10 (s22) 10 (s30) 11
(s7) 13 (s15) 13 (s23) 17 (s31) 13
(s8) 17 (s16) 17 (s24) 14 (s32) 11

În protocolul brut apar aşadar subiecţii (indivizii) reperaţi printr-un indicator (s1,
s2, …) şi rezultatele corespunzătoare fiecăruia. Transcrierea acestui protocol pe un suport
informatic va duce la constituirea unui fişier de date.
În continuare se pune întrebarea: cum să extragem informaţie din datele brute?
Trebuie să scoatem la lumină aspecte sau relaţii ascunse în colecţia de date. Asemenea
aspecte ar putea fi:
 dacă, în medie grupul N diferă de grupul A;
 dacă diversitatea s-au dispersia datelor creşte în condiţia A;
 ce rol joacă diferenţele individuale?
● dacă diferenţele constatate pot fi generalizate?

Iată suma de întrebări pe care urmeaza să le rezolve prelucrarea statistică.


Dintr-un unghi de vedere, cercetarea este practic încheiată o dată cu consemnarea
datelor experimentale; într-un alt sens, ea abia acum începe. Analiza datelor va extrage

7
informaţia psihologică pentru a răspunde la întrebarea pusă. Statistica oferă mijloace
pentru a desprinde informaţia relativă cuprinsă în colecţia de date; concluziile acestei
prelucrări se situează de fapt între frontiere largi, care pendulează între cunoaşterea
exactă şi empirismul pur.
.
3. ORDONAREA ŞI GRUPAREA DATELOR

După cum s-a arătat, în urma unui experiment, a unei observaţii sistematice sau a
unei anchete, se obţine de regulă o colecţie de date, care nu pot fi cuprinse şi examinate
printr-o simplă “inspecţie” vizuală. Trebuie să intervină o operaţie de clasificare,
ordonare şi condensare a datelor brute, care să permită relevarea unor legităţi sau
dependenţe cât mai precise.

Exemplu (după I. Radu):


Într-o experienţă efectuată cu 24 de elevi s-au consemnat răspunsurile exacte date
de aceştia în rezolvarea unei probe de verificare în cadrul unei discipline şcolare.
Rezultatele brute, redate în tabelul 2.3. indică numărul de răspunsuri corecte constatat la
fiecare elev. Transcris pe un suport informatic, acesta devine fişier de date.
Se poate observa cum datele brute, care sunt valorile unei variabile x – în
cazul nostru numărul de răspunsuri exacte – se înşiruie la întâmplare, iar din examinarea
lor imediată nu rezultă nimic precis. Se impune ordonarea şi gruparea valorilor,
prezentarea materialului într-o formă clară şi condensată. Ca prim pas este necesar să
întrevedem modul de organizare a datelor, distribuţia lor.
Dacă aruncăm o privire asupra şirului de date putem uşor constata că anumite
valori se repetă şi astfel – renunţînd la identificatori – putem sistematiza materialul
scriind într-o coloană valorile diferite în ordine crescândă (2, 3, 4, …, 8) şi notând în
dreptul fiecăreia – prin puncte, bare transversale sau steluţe – de câte ori se repetă acesta
în şirul iniţial. S-au determinat astfel – numărând punctele sau barele trasate – efectivele
corespunzătoare fiecărei valori din ansamblul rezultatelor, stabilindu-se o situaţie mai
clară a datelor obţinute, practic o distribuţie de efective. (Tab. 2.4.).

Tabelul 2.3. Tabelul 2.4


(s1) 5 (s9) 6 (s17) 7 
.
(s2) 2 (s10) 4 (s18) 4 
N=2
(s3) 5 (s11) 3 (s19) 5 4  

(s4) 3 (s12) 7 (s20) 6   

(s5) 6 (s13) 5 (s21) 6    

(s6) 8 (s14) 5 (s22) 4      

8
(s7) 5 (s15) 6 (s23) 8       

(s8) 7 (s16) 4 (s24) 5 x 1 2 3 4 5 6 7 8

Ne aflăm în faţa unui protocol sistematizat, clasificat: diagrama de steluţe.


Sistematizarea, clasificarea unui protocol şi constituirea colecţiei de date, a grupului de
observaţii reprezintă proceduri statistice liminare, în sensul că se situează în pragul
analizei statistice, pregătind aplicarea tehnicilor ulterioare de prelucrare.
După cum s-a văzut, constituirea colecţiei de date, a grupei de observaţii este
însoţită de suprimarea indicatorilor şi totdeauna fără pierdere de informaţie.
Datele primare odată grupate pot fi centralizate în anumite tabele, sau pot fi
prezentate sub diferite forme grafice (diagrama în dreptunghiri, în steluţe etc).
Este necesar să reamintim că cercetările experimentale au loc pe loturi sau grupe
de indivizi extrase dintr-o populaţie. Tot aşa, observaţia şi metodele de anchetă cuprind în
aria investigaţiilor colectivităţi mai restrânse dintr-o populaţie mai largă. Pe de altă parte,
analiza produselor activităţii supune aprcierii o mulţime de produse, lucrări piese etc.
Alteori se efectuează un lot de măsurări asupra aceleaşi persoane, practicându-se un
număr de înregistrări succesive. În toate situaţiile amintite, se obţine o colecţie de date
care constituie un fragment reprezentativ, un eşantion din multimea datelor sau
măsurătorilor posibile. Se impune astfel distincţia între eşantion şi populaţie sau
colectivitatea mai largă. Termenul de populaţie ori colectivitate nu are aici un sens
sociologic sau demografic, ci indică pur şi simplu ansamblul statistic vizat prin cercetare.
Evident, o investigaţie ştiinţifică recoltează efectiv o colecţie reprezentativă sau un
eşantion de date, dar extinde concluziile sale asupra populaţiei. Pentru ca o asemenea
generalizare sau inferenţă să fie justificată, se cere ca lotul sau grupul să fie constituit
după regulile selecţiei aleatoare, precizate în îndreptarele curente de statistică.

4. CONDENSAREA DATELOR ÎN TABELE ŞI GRAFICE

În fiecare tabel distingem coloane şi linii sau rânduri. Fiecare linie şi fiecare
coloană are un titlu, o explicaţie prescurtată, precizându-se totodată unităţile de măsură.
Tabelul însuşi poartă un titlu - notat deasupra -, care redă concis conţinutul său. De
regulă, variabilele independente sunt acelea care servesc la gruparea populaţiei, iar datele
cifrice din tabel reflectă variabila dependentă.
Pentru a nu fi prea încărcate, în tabele reducem uneori numărul claselor sau
categoriilor stabilite, contopind intervale sau categorii învecinate. Precizarea numărului
de subiecţi care compun grupele studiate este obligatorie pentru orice tabel. Când N este
mic nu se recurge la exprimarea procentuală, pentru că aceasta ar exagera proporţiile.
Plecând de la datele sistematizate în tabel, urmează să preciză forma distribuţiei
servindu-ne de reprezentarea grafică a ansamblului de date.
Graficul de bază este - aşa cum s-a spus - histograma.

Exemplu:
În tabelul 2.5, sunt prezentate rezultatele unei probe de memorie efectuată pe un
eşantion de 51 subiecţi (N=51).Variabila prezintă valori între 3 şi 26. Deci întinderea

9
varianţei este: (Xmax- Xmin ) +1, (26-3)+1=24. Datele se vor condensa în grupuri de câte
trei:
3,4,5,
6,7,8
.......
deci intervalul (I), este 3. Valorile aflate la mijlocul fiecărui interval se notează cu xk.

Tabelul 2.5. Rezultatele obţinute de studenţi în cadrul probei de memorie


X Xk Determinarea efectivelor n
3–5 4 III 3
6–8 7 IIIII 5
9 – 11 10 IIIII IIII 9
12 – 14 13 IIIII IIIII IIIII I 16
15 – 17 16 IIIII IIIII 10
18 – 20 19 IIII 4
21 – 23 22 III 3
24 - 26 25 I 1
N = 51

Pe axa abciselor (Ox) marcăm opt intervale continue egale, deoarece avem opt
clase de efective. Fiecărui interval îi corespunde o clasă, care se notează în dreptul său (3
- 5, 6 - 8 etc). Pe ordonată( Oy) formăm 16 diviziuni corespunzător efectivului celui mai
mare. Pe fiecare din intervalele marcate pe abcisă se construiesc apoi dreptunghiuri având
înălţimi proporţionale cu efectivele distribuţiei (Fig. 2.1.). Întreaga procedură se poate
executa pe calculator. Dacă unim acum mijlocul bazelor superioare ale dreptunghiurilor
histogramei prin segmente de dreaptă, se obţine poligonul efectivelor / frecvenţelor (Fig.
2.2.).
Pe această bază, putem formula o ipoteză cu privire la forma distribuţiei
caracteristicii studiate în sânul populaţiei sau a colectivităţii mai largi, ceea ce constituie
un bit de informaţie valoros despre distribuţie. O asemenea ipoteză se poate enunţa şi pe
baza unor studii anterioare, deci a informaţiei acumulate în domeniul respectiv (de
exemplu, despre distribuţia CI).

10
Fig.2.2. Poligonul frecvenţelor.
În investigaţiile psihologice se întâlnesc mai frecvent trei tipuri de forme ale unei
distribuţii sau histograme experimentale şi anume: distribuţii simetrice sau normale,
distribuţii asimetrice şi distribuţii în formă de i.
Distribuţiile simetrice, numite şi normale, se caracterizează prin aceea că valorile
efectivelor situate de o parte şi de alta a clasei cu efectivul maxim sunt egale sau diferă
destul de puţin între ele. Un exemplu de acest gest îl oferă datele din tabelul 2.5
reprezentate grafic în histograma din figura 2.1. Se poate observa că intervalul cu
efectivul maxim este 12 - 14, iar de o parte şi de alta efectivele, respectiv frecvenţele
descresc în aceeaşi manieră (diferă puţin între ele). Dacă s-ar mări volunul de date, uşoara
asimetrie a poligonului de efective s-ar retuşa treptat. La limită, s-ar putea trasa o curbă în
formă de clopot (Fig. 2.3), numită curbă normală, a cărei expresie matematică (ecuaţie)
este:
2

y
=1e

(
x
m

)
2
2


2
în care  şi e sunt două numere a căror valoare este cunoscută, iar m şi  reprezintă
media respectiv abaterea standard la nivelul eşantionului studiat.

Fig. 2.3. Distribuţia normală Fig. 2.4. Distribuţii asimetrice

11
Fig. 2.5. Distribuţie în formă de I Fig. 2.6. Distribuţie bimodală Fig. 2.7. Diagramă de
comparaţie

În practică dispunem însă de un volum limitat de date, iar histograma obţinută


este mai mult sau mai puţin simetrică. Redând forma de organizare a datelor concrete,
histograma ne sugerează însă aspectul sau forma distribuţiei teoretice. După cum am
văzut, un grafic în formă aproximativă de clopot şi cu o tendinţă netă de simetrie
sugerează o lege normală de repartiţie. Proprietăţile distribuţiei normale sunt precizate
din punct de vedere matematic şi ne bazăm pe ele în inferenţa statistică.
În cazul distribuţiilor asimetrice sau disimetrice, redate în formă stilizată prin
graficele din Fig. 2.4, majoritatea efectivelor se polarizează în mod evident de o singură
parte, fie în partea dreaptă, fie în partea stângă a clasei centrale.
`Aşa se întâmplă, de exemplu, când se înregistrează timpul de reacţie simplă a
unui subiect sau timpul de execţie a unei lucrări (operaţii de muncă). În aceste cazuri se
obţin de cele mai multe ori histograme asimetrice, clasele cu efective mai mari
corespunzând timpilor inferiori mediei. Este posibil să se ajungă în anumite situaţii la
distribuţii normale dacă se modifică proba prin care se obţin datele sau se schimbă
condiţiile de administrare (de exemplu, se elimină elementele grele, se prelungeşte timpul
de examinare etc). Alteori se pot înlocui datele brute prin logaritmul lor (de exemplu în
cronometrări) şi se retuşează asimetria. Există situaţii în care disimetria este caracteristică
fenomenului studiat; "corectarea" iregularităţilor ar însemna aici distorsionarea datelor.
Metodele de prelucrare statistică vor fi diferite.
La distribuţiile în formă de i curba este constant descrescătoare. De pildă,
curba erorilor în seria exerciţiilor de formare a deprinderii este constant descrescătoare
(Fig. 2.5). La fel, timpul de execuţie al unei acţiuni în procesul exerciţiului prezintă
aceeaşi alură de variaţie.
În anumite cazuri particulare putem întâlni şi distribuţii având efectivele
polarizate în două grupe: clasele cu efective mari se împart în două grupe despărţite de
clase cu efective mici. Este vorba atunci de o distribuţie bimodală, care sugerează ipoteza
existenţei a doi factori diferiţi sau grupe diferite (Fig.2.6).
Când rezultatele sunt grupate doar în câteva categorii sau procente, se folosesc
diagramele de comparaţie, care constau adeseori în coloane (dreptunghiuri) paralele
având aceeaşi bază sau lăţime. Un exemplu în acest sens oferă figura 2.7. Coloanele,
proporţionale ca înălţimea cu efectivele sau procentele pe care le reprezentăm, pot fi
aşezate vertical sau orizontal, având alăturată o scară cu diviziuni marcate.
Tipurile de grafice menţionate cuprind situaţii consemnate la un moment dat.
Alături de acestea, există grafice care redau evoluţia în timp a unor procese, punând în
evidenţă anumite tendinţe, schimbări de alură, "denivelări", evoluţia spre platouri etc. De
exemplu, desfăşurarea unui proces de învăţare este urmărită cu ajutorul unor asemenea
grafice.

12
INDICI STATISTICI DE START

1. DETERMINAREA "VALORII CENTRALE"


SAU A "TENDINŢEI CENTRALE"

În exemplul analizat în Modulul 2 (Fig. 2.2. şi Tab. 2.5.) s-a putut constata cum
datele tind să se concentreze parcă în jurul unei valori centrale; efectivele cele mai mari
(16 şi 10, respectiv 9) corespund în acest caz claselor situate la mijlocul şirului.
Acest aspect îl întâlnim destul de frecvent în experimentele psihologice. În
anumite situaţii, majoritatea rezultatelor pot să graviteze fie în partea dreaptă, fie în
partea stângă a seriei de variaţie. Se vorbeşte atunci de distribuţii asimetrice. Şi în aceste
cazuri datele tind să graviteze în jurul unor valori. Indicii prin care se determină în mod
curent "tendinţa centrală" a rezultatelor sunt media, mediana şi modul.
Media, pe care o notăm cu m, nu este altceva decât suma valorilor, a datelor
numerice, împărţită la numărul acestora. Formula ei de definiţie este m=∑x/N, în care ∑
înseamnă "sumă de", x reprezintă valorile sau rezultatele individuale, iar N constituie
efectivul grupei studiate. În capitolele ce urmează va fi vorba de formule de definiţie,
necesare pentru înţelegerea unui indice statistic şi de formule de calcul, care indică
procedurile statistice aplicabile pentru determinarea unui indice (media, abaterea
standard, varianţa etc). Psihologul care beneficiază de serviciile unui calculator, dotat cu
programe informatice pentru prelucrarea statistică a datelor, se poate dispensa de
cunoaşterea şi stăpânirea formulelor de calcul. Calculatorul oferă la cerere, rezultatul
calculului, indiferent de procedura aplicată. Ca exerciţiu preliminar, parcurgerea acestor
tehnici este utilă pentru a ne da seama de transformarea ce se produce asupra datelor

13
brute. De asemenea, în absenţa serviciilor unui calculator sau a programelor informatice
necesare, stăpânirea formulelor de calcul devine necesară, eventual în vederea
improvizării unui program.
Revenind la formula de definiţie a mediei, întrucât N este totdeauna dat, urmează
să stabilim procedee de calcul pentru ∑x (suma valorilor numerice), pe care o notăm cu T
(iniţiala cuvântului "total").
Când volumul datelor noastre este destul de restrâns, pentru a-l determina pe T
facem o simplă adunare fără să mai grupăm valorile.
Metoda da calcul presupune distribuţie statistică dată, ca aceea din tabelul 3.1.
Precizăm că, pentru a păstra notaţia acreditată de lucrări clasice în domeniu, cu f am notat
efectivele şi nu frecvenţa relativă (proporţiile), raportată la întreg.
Vom avea trei coloane: valorile lui x grupate în clase, valorile centrale xk, şi
efectivele corespunzătoare f. Pentru calcularea lui T adăugăm o coloană în plus cu
produsele fxxk. Aşadar înmulţim fiecare valoare centrală xk cu efectivul corespunzător
clasei respective, iar produsele înscrise în coloana fxxk le adunăm şi obţinem totalul T.
Ştiind că m = T/N, vom efectua împărţirea şi vom obţine media.
În exemplu nostru: m = 672/51 = 13,17.

Tabelul 3.1
Calcularea mediei

x xk f fxxk

3-5 4 3 12
6-8 7 5 35
9-11 10 9 90
12-14 13 16 208
15-17 16 10 160
18-20 19 4 76
21-23 22 3 66
24-26 25 1 25
N = 51 T = 672

Aşa cum s-a precizat, media pune în evidenţă tendinţa centrală a rezultatelor
constate într-o experienţă. Prin calcularea mediei obţinem o măsură a nivelului mediu
relativ la un eşantion studiat, fapt care permite apoi comparaţii între grupe.
Mediana este un alt indice al tendinţei centrale, care se utilizează mai ales când
avem de-a face cu distribuţii asimetrice. De exemplu, în cronometrări se înregistrează
succesiv timpul de execuţie a unei operaţii de producţie la un muncitor; distribuţia
empirică obţinută este, de regulă, asimetrică şi atunci se reţine mediana ca măsură a
timpului de lucru.

14
Pentru a găsi mediana - pe care o notăm cu med - trebuie să aranjăm, în cazuri mai
simple, toate datele (valorile) în ordine crescândă sau descrescândă.
Mediana este acea valoare care împarte şirul ordonat în două grupe egale ca
număr. Cu alte cuvinte, mediana se găseşte la mijlocul şirului: jumătate din valori se află
deasupra, iar cealaltă jumătate dedesubt. Locul sau rangul pe care îl ocupă mediana în
şirul ordonat se detrmină cu ajutorul formulei (N+1)/2 (care nu este formula de definiţie
pentru med).
Când valorile constituie un număr fără soţ, mediana va corespunde determinantei
din mijloc. Astfel, în seria valorilor: 4, 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, med = 7 pentru că 7 este
valoarea care împarte şirul ordonat exact în două. Formula (N + 1)/2 ne indică locul pe
care se găseşte mediana. În cazul nostru med este valoarea situată pe locul al 6- lea în
şirul ordonat [(11 + 1)/2 = 6].
Dacă valorile ordonate sunt în număr cu soţ, mediana se va găsi la mijlocul
şirului, între două valori consecutive.
Fie datele ordonate: 3, 4, 4, 5, 6, 7, 7, 8, 8, 9; deci 10 valori. Mediana se va găsi
pe locul 5,5 deoarece (N + 1)/2 este în cazul acesta (10 + 1/2) adică 5,5. Căutând în şirul
dat valoarea situată pe locul 5,5 constatăm că ea se găseşte între două valori
consecutive:6 şi 7. În consecinţă vom face media celor două valori: med va fi egală cu
6,5.

Tabelul 3.2. Calculul medianei în cazul datelor grupate


Interval xk f fc
24-26 25 1 51
21-23 22 3 50
18-20 19 4 47
15-17 16 10 43
12-14 13 16 33
9-11 10 9 17
6-8 7 5 8
3-5 4 3 3
i=3 N = 51

Când datele sunt grupate ca în tabelul 3.2 localizăm mai întâi intervalul în care se găseşte
mediana luând ca reper N/2. În exemplul citat N/2 = 51/2 = 25,5 deci mediana se află în
intervalul (12 - 14) ale cărui limite exacte sunt 11,5 şi 14,5 (variabila fiind considerată
continuă). Formula care ne dă valoarea medianei este următoarea:
N
 Fs
med  l  2 i
fi
în care:
l este limita inferioară a intervalului reperat,
Fs este totalul frecvenţelor situate sub l (în exemplul dat 3 + 5 + 9 = 17),
fi= frecvenţa corespunzătoare intervalului localizat, iar N şi i sunt notaţii
cunoscute

15
În exemplul ales vom avea:
25,5  17
med  11,5   3  13,09
16
Spre deosebire de medie, mediana prezintă avantajul de a nu fi afectată de
variaţiile extreme ale seriei, fapt care o face potrivită pentru studiul distribuţiilor
asimetrice.
Modul este valorea care se repetă mai des într-un şir de rezultate, adică valoarea
care prezintă frecvenţa cea mai mare.
De exemplu, în seria de date 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, modul este 7, deoarece 7
este valoarea cu frecvenţa cea mai mare.
Când datele sunt grupate, modul este clasa care reuneşte cei mai mulţi din
subiecţi, mai precis - valoarea centarală a acestei clase. De exemplu, în tabelul 3.2., clasa
care întruneşte frecvenţa maximă este 12 – 14, a cărei valoare centrală este 13.
După cum se vede, modul poate fi determinat prin simpla examinare a valorilor,
fără să fie necesare operaţii de calcul. Ca indice al tendinţei centrale, modul este foarte
aproximativ şi se ia în considerare mai ales la prima inspecţie a datelor. În cazul
distribuţiilor normale modul, mediana şi media coincid sau prezintă valori foarte
apropiate.

2. DETERMINAREA INDICILOR DE DISPERSIE

Media, mediana şi modul caracterizează un singur aspect al distribuţiei statistice:


tendinţa generală a datelor. Este necesar să cunoaştem şi modul în care se repartizează
diferite rezultate în jurul "valorii centrale", adică organizarea interioară a distribuţiei. De
exemplu, două distribuţii statistice - cum sunt cele redate în figura 3.1. - pot avea aceeaşi
medie, dar ele să fie totuşi foarte diferite sub aspectul variabilităţii, respectiv al
omogenităţii.

Figura 3.1.

Se pune deci problema de a găsi indicatori prin intermediul cărora se poate


măsura variaţia sau împrăştierea datelor în jurul mediei. Aceşti indicatori sunt: dispersia
sau varianţa, şi abaterea standard.Cu ajutorul lor se obţin informaţii asupra variabilităţii
grupului studiat.
Dispersia şi abaterea standard

16
Dispersia sau varianţa se notează cu σ2 sau cu s2 şi are ca formulă de definiiţie:

 2  s2 
 ( x  m) 2
N 1
în care (x-m) reprezintă abaterea fiecărei valori de la media calculată, iar N este efectivul
grupei de măsurări.
Abaterea standard sau abaterea tip - care se notează cu σ sau cu s - nu este altceva
decât rădăcina pătrată din valoarea dispersiei:    2 Aşadar, pentru a determina
abaterea standard trebuie oricum să aflăm mai întâi dispersia σ2.
Indicele de dispersie cel mai exact şi mai des utilizat este de fapt abaterea
standard, având avantajul de a fi exprimat în aceleaşi unităţi ca şi datele iniţiale pe care le
prelucrăm. De exemplu, dacă studiul se bazează pe note, abaterea standard este exprimată
tot în note, permiţând să se analizeze mai corect gradul de variabilitate al grupului.
Abaterea tip se foloseşte, de asemenea, în discutarea distribuţiilor normale.
Dispersia are avantajul de a nu cuprinde radicalul în expresia ei algebrică şi astfel se
pretează mai uşor la calcule teoretice.
Dacă analizăm formula de definiţie a dispersiei ne dăm seama că numai expresia
de la numărător, adică suma pătratelor abaterilor de la medie, ridică probleme mai dificile
pentru calcul. Vom numi pe scurt această expresie suma pătratelor.
Determinarea sumei pătratelor nu se face utilizând expresia de definiţie Σ(x-m)2
deoarece comportă operaţii laborioase şi de cele mai multe ori cu numere zecimale.
Transformând expresia de definiţie, se obţine o formulă convenabilă de calcul:
T2
 ( x  m ) 2
  x 2

N
în care notaţiile sunt deja cunoscute. Σx2 reprezintă totalul pătratelor celor N rezultate
(valori) care compun grupul iniţial de date.
Formula de calcul a dispersiei devine astfel:
T2
 x 2

N
2 
N 1
De notat că T2 şi Σx2 sunt valori cu totul diferite, ceea ce se poate verifica în
tabelul 3.3.
În ceea ce priveşte determinarea disprsiei, având datele grupate, ne referim din
nou la cele două metode utilizate pentru calculul mediei.
Metoda de calcul ilustrată prin tabelul 3.3, ne-a condus la determinarea lui T prin
însumarea produselor fxx, ştiind că Σfxx'T. Ridicând acum la pătrat pe T şi împărţind apoi
cu N (efectivul grupei), avem stabilit T2/N din formula de calcul a sumei pătratelor
stabilită mai sus. Ne rămâne să calculăm doar Σx2. Pentru aceasta la tabelul care a condus
la determinarea lui T mai adăugăm o coloană fxx2 în care vom înscrie produsele (fxx) x x
(adică produsele fxx notate în coloana precedentă se mai înmulţesc o dată cu valorile x).
Pentru ilustrare să urmărim exemplul din tabelul 3.3.

Tabelul 3.3.
Note, x f fxx (fxx)xx
3 2 6 18

17
4 2 8 32
5 3 15 75
6 7 42 252
7 10 70 490
8 8 64 512
9 4 36 324
10 2 20 200
2
N = 38 T = 261 ∑x = 1903

Însumând produsele înscrise în coloana (f x x) x x sau, pe scurt fxx2, se obţine Σx2


şi în felul acesta avem asigurate toate elementele necesare pentru determinare sumei
pătratelor potrivit formulei.
Exemplul ales constituie oarecum un caz particular, având ca interval de grupare i
= 1. Valorile centrale xk coincid cu valorile lui x. Aceasta este situaţia seriilor de variaţie
mai mici, când distanţa dintre valorile extreme nu este mai mare şi permite o grupare mai
simplă a datelor (de pildă, în cazul notelor şcolare).
Când intervalul de grupare este mai mare decât 1 şi lucrăm cu valori centrale x k,
produsele vor fi fxxxxxk, adică fxxk2.
Făcând înlocuirile necesare în exemplul dat vom avea:
68121
 ( x  m) 2  1903  38  110,4
Pentru a determina dispersia sau varianţa, împărţim rezultatul obţinut la N - 1.
110,4
2  3
37
În continuare extragem rădăcina pătrată din σ2 sau s2 şi obţinem abaterea tip:
  3  1,7
Se poate observa că pentru determinarea dispersiei în tabelul de calcul utilizat la
medie se adaugă doar încă o coloană fxx2. Pentru uşurarea caculelor trebuie utilizate
tabele matematice uzuale, care ne dau n2 şi n pentru orice numere până la 10.000.

În încheiere sunt necesare două precizări esenţiale:


● În prezent, determinarea indicilor statistici se face cu ajutorul calculatorului,
care preia munca de rutină a cercetătorului. Acesta din urmă decide însă ce indici va
calcula, ce tabele şi grafice sunt necesare în funcţie de natura datelor, va întrevedea forma
distribuţiei şi obiectivele cercetării. Programele informatice aplicate vor sugera modul în
care trebuie pregătit şi organizat materialul brut pentru prelucrarea statistică; psihologul -
cercetător stăpâneşte datele de intrare şi "citeşte" datele de ieşire pe care le interpretează.
● Datele numerice sunt culese pe loturi sau grupuri extrase dintr-o colectivitate
mai largă numită populaţie. Elementele unui lot sau grup trebuie alese după regulile
selecţiei aleatoare pentru a putea formula concluzii valabile. Notăm indicii obţinuţi pe
eşantion cu m şi respectiv cu 

3. SEMNIFICAŢIA ABATERII STANDARD

18
Distingem: σ abaterea standard în populaţie;  abaterea standard obţinută pe o
colecţie de date (eşantion dintr-o populaţie).
Distingem, de asemenea, variabilitatea inter-individuală (între indivizi) şi
variabilitatea intraindividuală (pentru acelaşi individ). De exemplu, distribuţia CI pe o
colectivitate reflectă varianţa inter iar distribuţia timpilor de reacţie la un singur individ
arată varianţa intra. Fenomenul variabilităţii inter şi intra este atât de obişnuit şi nu ne
mai întrebăm asupra cauzei sau sursei deoarece se îmbină aici mai multe surse.
Abaterea standard poate fi luată ca unitate de măsură pe abscisa unui poligon sau
a unei curbe de frecvenţă, în cazul unei histograme experimentale simetrice
Dorim deci, să luăm abscisa în unităţi  . Pentru aceasta pornim de la medie în
dreapta şi în stânga. Adăugăm 1  =5 la m =25 şi obţinem 30. Distanţa dintre 25 şi 30
este de 1  , ea are o întindere de 5 unităţi brute. La fel este situat 35 la distanţa de +2 
deasupra mediei şi-i corespunde o întindere în unităţi brute de 10. Mai adăugăm 1  la 35
şi obţinem 40; observăm că distanţa totală între m şi 40 este de +3  Într-o distribuţie
simetrică ideală, aproximativ 3  acoperă distanţa între m şi cota cea mai mare a
distribuţiei.
În acelaşi fel procedăm în partea stângă, adică sub medie. Scădem succesiv 5 din
25, şi apoi 5 din 20, şi 5 din 15, adică întâi -1  apoi -2  şi -3  . Deci într-o distribuţie
simetrică tipică există numai aproximativ 3  deasupra mediei şi -3  sub medie, ceea ce
putem scrie 3  . Înseamnă că amplitudinea sau întinderea variaţiei - notată cu V - este
de aproximativ 6  sau că abaterea standard este a şasea parte din V. Abaterea standard
devine o unitate de măsură pentru întinderea variaţiei. Relaţia arătată se verifică pe
măsură ce N creşte (de exemplu la N = 50, raportul V/  este de cca 4,5, la N = 90,
raportul devine 5 etc).
Să reţinem două idei:
  măsoară distanţa la care se află o cotă oarecare în raport cu m ,
  devine unitate de măsură pentru V.
În practică, este necesară utilizarea unor registre diferite de variaţie. De exemplu
în cazul inteligenţei se operează în mod curent cu registrul 70-140, într-o probă de
memorie se obţin valori între 2-12, în cazul măsurării timpului de reacţie se înregistrează
fracţiuni de secundă. Se pune problema comparării şi combinării acestor date heterogene.
Soluţia este oferită de cotele z.

Cote z
O distanţă, un interval dat în cote brute poate fi exprimat în unităţi  , împărţind
distanţa respectivă (x- m ) cu  . În felul acesta avem un punct de referinţă zero. Luând
 drept unitate trecem de la cotele brute x la cote transformate z. Această nouă variabilă
z se numeşte variabilă standardizată.
Cota z: o valoare care ne arată cât se distanţează, în unităţi  , o cotă brută de
media distribuţiei respective.
Formula de trecere de la variabila brută x la variabila normată sau standardizată z

19
este următoarea:
xm
z

Într-o distribuţie tipic normală, în care există trei abateri standard deasupra mediei
şi trei dedesubt, cea mai mare cotă z pe care o putem obţine este + 3, iar cea mai mică - 3.
Amplitudinea cotelor z este între + 3 şi - 3 trecând evident prin zero.

Exemplu:
Avem un test de inteligenţă şi altul de aptitudine mecanică. Rezultatul final
condensat este:
Tabelul 3.5.
m 
Aptitudinea mecanică 100 10
Inteligenţă 60 6

Transpunerea cotelor brute x în cote z permite compararea lor directă. Cu ajutorul


cotelor z avem abaterea unei valori de la medie în termeni de unităţi  . Odată cu acestea,
variabile diferite sunt aduse la un numitor comun, fiind exprimate în aceleaşi unităţi,
devin deci comparabile.
Media şi abaterea standard servesc la interpretarea datelor; semnificaţia lor se
stabileşte în cadrul unor raţionamente bine precizate, care vor fi prezentate în Capitolul 4.
În încheiere trebuie să precizăm că valorile caracteristice studiate (m, med ,  ) nu
se determină pentru orice distribuţie statistică. Dacă distribuţia rezultatelor este normală
sau aproape normală, se deterină media, dispersia şi abaterea standard; dacă distribuţia
este asimetrică, se determină mediana. În cazul distribuţiilor particulare, în formă de i sau
j de exemplu, este bine să ne mulţumim cu un grafic (P.Fraisse, 1963) şi să determinăm
modul, respectiv frecvenţa.

4. FRECVENŢA

Alături de medie şi abaterea standard, un indice statistic adesea utilizat este


frecvenţa. Într-o colecţie de date, fiecare element fie că prezintă o caracteristică A, fie că
nu. Notăm cu N efectivul total al unui grup şi cu n numărul de elemente care prezintă
caracteristica A. Frecvenţa caracteristicii A în lotul studiat este n din N sau n/N, care se
mai numeşte şi frecvenţă relativă.
Se vorbeşte, de pildă, de frecvenţa accidentelor de circulaţie, clasificându-le după
diferite criterii, sau de frecvenţa muncitorilor accidentaţi într-o uzină ş.a.m.d. De
asemenea, când se aplică un test se vorbeşte de frecvenţa persoanelor care au obţinut un
anumit rezultat, o cotă determinată.
Procentajele se obţin plecând de la frecvenţe conform formului:
n/N x 100.
Exemplu (după Faverge):
Într-o statistică asupra erorilor de la casierie, s-au observat 134 erori în plus şi 289
erori în minus. Frecvenţa f a erorilor în plus este:

20
f = 134/423 = 0,32; (423 = 134 + 289).
De reţinut: distincţia dintre frecvenţe absolute sau efective - notate, de regulă, cu
n - şi frecvenţe relative sau proporţii, notate cu f. În exemplul de mai sus se poate urmări
modul de trecere de la frecvenţa absolută la cea relativă.

INFERENŢA STATISTICĂ

1. PROPRIETĂŢILE DISTRIBUŢIEI NORMALE

După cum s-a arătat, datele obţinute în cursul unei experienţe, a unei observaţii
sistematice sau anchete, constituie un eşantion pe care îl considerăm extras dintr-o
“colectivitate” mai largă sau populaţie. În final, extrapolăm de la eşantion la populaţie,
extindem concluziile asupra întregii colectivităţi vizate prin cercetare.

Să luăm câteva exemple:


1o. Ne propunem să determinăm, pe baza unor metode precizate, volumul
vocabularului la copiii de 5 ani. Prin enunţul ei, sarcina sau problema stabileşte populaţia
pe care o avem în vedere: copiii de 5 ani. Ancheta noastră nu poate cuprinde în mod
practic decât o subcolectivitate limitată, un eşantion de populaţie, în care un număr de N
copii sunt aleşi la întâmplare. Înregistrările făcute pe acest lot stabilesc un volum al
vocabularului să zicem de 2024 de cuvinte. Un alt cercetător, propunându-şi aceeaşi
problemă, ajunge la o cifră uşor diferită, să zicem 1936 de cuvinte. Repetând procedura,
un al treilea cercetător găseşte 2000 de cuvinte.

2o. Cerinţe de ordin practic ne impun determinarea procentului tulburărilor de


vorbire în clasele I-II, pentru a aproxima schema de organizare a reţelei logopedice.

21
Determinările efectuate pe câteva eşantioane ne evidenţiază un procent de circa 12-13 %.
Se ridică întrebarea dacă această frecvenţă caracterizează populaţia şcolară din clasele
menţionate.

3o. Pentru organizarea reţelei de învăţământ special se ridică problema estimării


proporţiei de deficienţi mintali pentru palierul de vârstă 6-7 ani. Determinările arată un
procent de circa 2%, dacă se consideră ca prag psihometric al debilităţii mintale IQ = 70.
Dacă se fixează un prag mai sever, evident procentul va fi mai mare.
Aceste diferenţe de la un eşantion la altul se datoresc hazardului şi se numesc
fluctuaţii de eşantionare. Situaţia este identică şi în alte condiţii. Compoziţia
eşantioanelor prezintă variaţii, diferenţe întâmplătoare în diferite studii pe aceeaşi
populaţie. Dacă vom lua de pildă, şase clase paralele de elevi dintr-o şcoală şi le vom
supune aceleiaşi probe vom constata diferenţe sau fluctuaţii în rezultatele obţinute de la o
clasă la alta. Este vorba despre fluctuţii de eşantionaj datorate factorilor aleatori. Un grup
natural intact, luat în compoziţia sa dată, constituie un eşantion la întâmplare, dacă nu au
intervenit factori de selecţie controlaţi de noi.
Prelucrarea statistică, aşa cum am văzut, reduce datele brute la câteva valori
caracteristice: frecvenţe sau procente, medii, abateri standard etc. Se pune întrebarea: în
ce măsură datele obţinute sunt relevante pentru populaţie. Această operaţie se numeşte
inferenţă statistică.
Datele obţinute asupra eşantionului se apropie de indicii adevăraţi ai populaţiei,
această apropiere sau aproximaţie fiind cu atât mai mare cu cât volumul eşantionului N
este mai mare.
Practic, nu reuşim să determinăm exact indicii caracteristici ai populaţiei. Indicii
eşantionului constituie estimări ale parametrilor populaţiei. În exemplul ales mai sus,
volumul mediu m – stabilit pe baza studierii grupului de copii – reprezintă o estimare a
mediei adevărate a colectivităţii generale. Întrucât nu se pot cerceta toţi copiii de 5 ani ne
bazăm în afirmaţiile noastre pe datele asupra eşantionului cercetat. Luând ca bază indicii
eşantionului, extrapolându-i deci la populaţie, comitem o anumită eroare, a cărei valoare
probabilă trebuie să fie, evident, cât mai mică.
În felul acesta, în legătură cu indicii stabiliţi asupra eşantionului – medii sau
frecvenţe – se pune problema erorii probabile pe care o comitem bazându-ne pe ei în
extrapolarea la populaţie.
Raţionamentul se întemeiază pe proprietăţile distribuţiei normale, schiţate deja în
capitolul precedent în legătură cu semnificaţia abaterii standard. În psihologie, ca şi în
alte domenii, modelul distribuţiei normale este un model privilegiat, pentru că îl regăsim
în numeroase situaţii.
S-a stabilit că ±2σ, mai exact ±1,96σ, în raport cu media acoperă 95% din
rezultate (elemente). Cu alte cuvinte, 95% din elemente cad în intervalul m ± 1,96σ, iar
5% cad în afara acestui interval. Procentul de 5% se compune din 2,5%, respectiv 2,5%
de o parte şi de alta a mediei spre extremităţile distribuţiei.De asemena, s-a stabilit că
99% din rezultate (elemente) sunt cuprinse în intervalul m ± 2,58σ , în timp ce 1% (0,5%
+ 0,5%) din elemente sunt exterioare acestui interval. (Fig. 4.1.).

22
Figura 4.1. Proprietăţile distribuţiei normale

Pentru a evita o anumită variabilitate a situaţiilor se introduce o distribuţie –


standard. Variabila brută x se înlocuieşte cu variabila normată z pe baza formulei de
transformare deja amintite:
xm
z ,

prin care se împarte fiecare abatere de la medie (x – m) cu abaterea standard σ. Graţie
transformării amintite, orice distribuţie normală, are media egală cu zero şi varianţa egală
cu 1. Pentru această ultimă distribuţie s-a întocmit un tabel, care permite să avem
proporţia de elemente pentru care variabila este exterioară unui interval oarecare centrat
pe medie.
Este vorba de tabelul legii normale reduse , care ne permite să vorbim în cele din
urmă în limbajul şanselor, al probabilităţilor. Variabila redusă | z | prezintă de regulă
valori între 0 şi 3,00 (cu două zecimale). Figura 4.2 redă un exemplu pentru | z | = 1,00.
Variabila iniţială x este înlocuită cu variabila standardizată z, având m = 0. Din punctele z,
respectiv - z, ridicăm ordonatele corespunzătoare, care indică punctele de inflexiune ale
curbei şi haşurăm spre cele două extremităţi suprafaţa exterioară benzii cuprinse între
cele două ordonate (Fig. 4.2).

Fig. 4.2.

Pentru | z | = 1,00 corespunde o valoare de 0,317, ceea ce înseamnă că pentru un


element extras la întâmplare din mulţime există 317 şanse dintr-o mie ca acesta să cadă în
una din suprafeţele haşurate – într-o parte sau alta- deci să-i corespundă o valoare | z |
>1,00. Reţinem în continuare două repere: pentru | z | =1,96 corespunde 0,05 , iar pentru
| z | = 2,58 , valoarea 0,01. Cu alte cuvinte, există 5 şanse din 100 ca unui element
considerat la întâmplare din mulţime să-i corespundă o valoare | z | > 1,96, după cum
există o şansă din 100 ca | z | să fie mai mare decât 2,58. De aceste două repere, frecvent
utilizate, se leagă deci şanse sau probabilităţi precizate: 5%, respectiv 1%.

23
Rezumând: într-o distribuţie normală standard avem 95% din valorile z cuprinse
între –1,96 şi + 1,96; de asemenea avem 99% din valorile z cuprinse între –2,58 şi +2,58.
De aici se poate face pasul spre o distribuţie normală oarecare având media m şi abaterea
standard σ. Întrucât variabila standardizată z s-a obţinut – plecând de la variabila iniţială
x – graţie formulei:
xm
z ,

reiese că: a spune că z este cuprins între –1,96 şi +1,96 înseamnă a spune că
-1,96 < (x-m)/σ < 1,96
sau
(m – 1,96σ) < x < (m + 1,96σ),
ceea ce s-a enunţat la început.
Cu alte cuvinte, există 95% din valorile x interioare intervalului :
[m – 1,96σ; m +1,96σ],
după cum există 99% din valorile x interioare intervalului:
[m – 2,58σ; m + 2,58σ].
Afirmaţiile făcute anterior au devenit astfel propoziţii motivate.

2. PROBLEME DE ESTIMARE

Aşa cum s-a arătat, marcăm indicii eşantionului cu o bară aşazată deasupra m , f
,  , iar parametrii populaţiei îi notăm în mod obişnuit: m, f, σ. Pornind de la indicii
eşantionului stabilim cu o anumită probabilitate valoarea parametrilor. În mod obişnuit nu
putem determina exact valoarea parametrului, ci stabilim un interval în care se găseşte cu
certitudine practică parametrul respectiv. Cu cât acest interval este mai mic, cu atât
informaţia noastră asupra adevăratei valori în populaţie este mai precisă . Se cere deci o
concentrare a masei de probabilitate într-o regiune restrânsă. Intervalul menţionat se
numeşte interval de încredere.

2.1. Semnificaţia unei medii

Semnificaţia unei medii depinde pe de o parte de volumul eşantionului studiat (N),


iar pe de altă parte, de variabilitatea populaţiei (σ) din care s-a extras grupul dat. Cu cât
volumul datelor creşte, cu atât media devine mai stabilă şi deci mai reprezentativă.
S-a numit eroarea standard a mediei cantitatea σ/ N care se notează cu E.
Aceasta ne oferă un etalon pentru a evalua eroarea ce o comitem luând drept bază media

24
eşantionului m în locul mediei adevărate m a colectivităţii generale (pe care practic nu
reuşim de cele mai multe ori să o determinăm).
În relaţia de mai sus σ reprezintă abaterea standard a colectivităţii generale, care
rămâne aproape întotdeauna necunoscută, fiind înlocuită în calcule cu  determinată pe
baza datelor eşantionului (când N este destul de mare).
Reluând tabelul din tabelul 3.4, avem:
N=51; m  13,17 ;   4,74 ;

Făcând înlocuirile:

4,74
E  0,66 .
51
În mod curent nu ne putem aştepta să determinăm valori punctuale pentru
parametrii populaţiei. În acest sens se stabilesc intervale. Pe baza erorii standard a mediei
E se stabilesc limitele între care se găseşte, cu o probabilitate dată adevărata valoare m a
colectivităţii generale. Aceste limite se numesc limite de încredere, iar intervalul delimitat
de ele este intervalul de încredere. Întrucât mediile prezintă distribuţie normală, se
stabilesc drept limite de siguranţă : m -1,96E şi m +1,96E.
În exemplul menţionat vom avea: L1 = 13,17 - (1,96 x 0,66) şi L2 = 13,17 + (1,96
x 0,66). Efectuând înmulţirile obţinem: 13,17 +/- 1,29, adică 11,88 şi 14,46. Acestea sunt
limitele între care se găseşte aproape sigur (cu o probabilitate de 95%) adevărata medie m
a colectivităţii generale.Afirmând că media adevărată se va găsi între 11,88 şi 14,46
riscăm totuşi să greşim în 5% din cazuri.
Se obişnuieşte să se noteze şi riscul pe care ni-l asumăm de a greşi făcând o
aserţiume sau alta. Aceasta a căpătat denumirea de prag sau nivel de semnificaţie. Astfel,
intervalul ( m -1,96E; m +1,96E) se numeşte interval de încredere la pragul de p = 0,05,
ceea ce înseamnă că în 5% din cazuri adevărata medie se află în afara intervalului ales.
În practică, se ia adeseori pragul p = 0,01, ceea ce indică riscul de a greşi în 1% din
cazuri. Limitele de încredere vor fi atunci L1= m -2,58E şi L2= m +2,58E.

2.2. Semnificaţia frecvenţei

Transpunând noţiunile prezentate anterior, putem spune că eroarea - tip a


frecvenţei este:
pq
E
N
şi că limitele de încredere, la pragul de p = 0,05vor fi:
 f  1,96 p  q ; f  1,96 p  q . 
N N
Practic, N fiind mai mare (>100), vom comite o eroare foarte mică înlocuind în
calculul limitelor de încredere pe p prin f , şi pe q prin 1- f. După înlocuire vom avea:

25
f  (1  f ) f  (1  f )
( f  1,96 , f  1,96 ).
N N
Exemplu (după Faverge)
Să considerăm un exemplu.
Într-o statistică a erorilor de la casierie s-au observat 134 de erori în plus şi 289
de erori în minus. Frecvenţa f a erorilor în plus este:
134
f   0,32 (423 = 134 + 289).
423

Vom avea:
f (1  f ) 0,32(1  0,32)
E   0,020 .
N 423
La pragul de semnificaţie de p = 0,05, limitele de încredere se obţin calculând:
1,96 x 0,020 = 0,04.

Ele sunt:
0,32 + 0,04 = 0,36,
0,32 - 0,04 = 0,28.
Cu alte cuvinte, admiţând că eşantionul nostru face parte din cele 95% pentru care
parametrii se situează în intervalul de încredere, putem afirma că procentajul erorilor în
plus va fi cuprins între 36% şi 28%.

3. SARCINI SAU PROBLEME DE COMPARAŢIE

În chip frecvent intervin în cercetările psihologice probleme de comparaţie.


Astfel, se compară între ele mediile obţinute într-o experienţă şi se pune întrebarea dacă
diferenţele constatate sunt semnificative sau nu, se pot extinde la populaţie sau nu.

Exemplu (după I. Radu):


Într-o experianţă de instruire programată au fost cuprinse două clase paralele. La
probele de control date în post- test s-a constatat la clasa experimentală - cu un efectiv de
33 elevi - o medie a notelor de 7,7, iar în clasa de control (N = 34), media la aceleaşi teste
a fost de 6,7. Diferenţa dintre medii este 1,00. Se pune întrebarea dacă această diferenţă
este semnificativă, dacă putem extrapola la populaţie, ceea ce ne indică dacă metoda de
instruire încercată este mai bună decât cele curente.
Rezultatele unei investigaţii pot să apară exprimate şi sub formă de frecvenţe sau
proporţii. În exemplul citat mai sus rezultatele experimentului ar putea fi exprimate şi în
frecvenţe, indicând proporţiile consemnate de răspunsuri corecte şi de răspunsuri greşite.
Şi în cazul acesta se pune întrebarea dacă diferenţele constatate sunt semnificative sau nu.
Răspunsul la întrebarea pusă s-ar putea obţine repetând experienţa. Dacă rezultatele se
menţin statornice vom putea conchide asupra semnificaţiei lor. Cum experienţele nu se
pot repeta indefinit - procedeu de altfel neeconomic - s-a conturat un mecanism logic prin
care se infirmă ipoteza hazardului, notată H0.

26
În condiţiile experienţei obişnuite ne-am putea mulţumi cu diferenţe între medii
de 0,5 sau 0,7 ori 0,9 ş.a.m.d., după cum diferenţe de 5%, 7% etc între frecvenţe ar părea
doveditoare.
Experimentul ştiinţific nu poate face extrapolări la populaţie bazate doar pe
simpla evaluare intuitivă. Întrebarea este: de la ce nivel (0,5 sau 0,7, respectiv 5%; 7%;...)
diferenţele pot fi considerate semnificative?
În orice experienţă studiem procesul dat în anumite condiţii, într-un anumit
context: la lecţie, la joc, în activităţile practice, în condiţii de laborator etc. Trebuie să
admitem că, într-un fel sau altul, întâmplarea poate interveni în desfăşurarea fenomenului
cercetat prin condiţii neaşteptate, prin compoziţia grupului, prin deosebiri în
personalitatea profesorului etc. Datele obţinute sunt afectate în felul acesta de un element
aleator (întâmplător). În consecinţă, alături de ipoteza specifică (Hs), ce stă la baza
experienţei respective şi care este o ipoteză psihologică sau pedagogică se poate formula
şi o altă ipoteză care să atribuie numai întâmplării tendinţele sau diferenţele constatate.
Aceasta din urmă este "ipoteza întâplării"sau ipoteza nulă (H0) şi se enunţă pentru toate
cazurile în aceiaşi termeni. De notat că atât ipoteza nulă (H0) cât şi ipoteza alternativă
(Hs) se referă la populaţie, nu la eşantioane ca atare.
Preocupat să dovedească în mod temeinic justeţea ipotezei specifice, cercetătorul
va admite în mod provizoriu –în raţionamentul său – ipoteza nulă şi va determina şansele
(probabilitatea) ca diferenţele obţinute în experiment să aibă loc numai pe baza " legilor
întâmplării" (care sunt legi de probabilitate bine studiate). Ştim că probabilitatea ia valori
între 0 şi 1, iar transcrisă în procente – între 0 şi 100%.
Dacă probabilitatea obţinerii diferenţei date, în baza ipotezei nule, este foarte
mică (de pildă, mai mică decât 0,05 ceea ce se scrie p < 0,05), atunci respingem ipoteza
hazardului şi arătăm toată încrederea ipotezei specifice. Dacă însă, probabilitatea
determinată în lumina ipotezei nule este mai mare (de pildă, p > 0,10 putând merge până
la 1), atunci nu ne putem asuma riscul respingerii ipotezei nule şi vom considera
diferenţele efectiv obţinute ca fiind încă nesemnificative.
Prin urmare se acceptă ca semnificative acele rezultate care au şansele de a se
produce prin simpla întâmplare numai într-un număr mic de cazuri: sub 5% din cazuri,
uneori sub 10%. Şansele de a obţine rezultatele respective prin simplul joc al factorilor
aleatori se află în acest caz sub 10%, respectiv 5% ( ceea ce se scrie p < 0,10 respectiv p
< 0,05). Înseamnă că, acceptând rezultatele unei experienţe drept proba justeţei ipotezei
specifice, ne asumăm totodată riscul de a greşi în mai puţin de 10%, respectiv 5% din
cazuri. Fiecărei aserţiuni i se asociază astfel un prag de semnificaţie, care indică riscul de
a greşi pe care ni-l asumăm.
Rezumând: mecanismul logic al ipotezei nule permite infimarea ipotezei
hazardului şi acceptarea în consecinţă a ipotezei alternative (H s). Ipoteza nulă şi ipoteza
alternativă sunt contradictorii; a respinge ipoteza nulă înseamnă a accepta ipoteza
specifică. Dacă plasăm pe o axă probabilităţile amintite vom avea situaţia din figura 4.3.

1 0,05 0,01 p
|-------------------- . . . -----------------|------------------|------------------>
H0 nu se consideră infirmată | H0 se consideră infirmată

27
şi se suspendă decizia | şi se acceptă Hs
limita semnificativităţii
Fig. 4.3

Respingând ipoteza nulă şi accepând existenţa unui efect al variabilei independente –


ceea ce susţine Hs - ne asumăm un risc de a greşi destul de mic: 5% respectiv 1%.
Măsurarea acestui risc, notată cu α, constituie pragul de semnificaţie, care însoţeşte
fiecare aserţiune.
Se poate întâpla ca ipoteza nulă să nu fie infirmată, z cal fiind mai mic decât 1,96
(deci p > 0,05). În cazul acesta nu se conchide că H0 ar fi validată, ci, pur şi simplu, că nu
se poate decide; intervine o zonă de suspendare a judecăţii. Valoarea | z | care separă cele
două zone - zona de respingere a ipotezei nule şi zona de suspendare a judecăţii - se
numeşte valoare critică. Ea corespunde valorii z cal având o probanbilitate asociată egală
cu α. Riscul de a greşi α se poate lua 10%, 5%, 1%. Tradiţia a acreditat pragul de p≤ 0,05
sau p≤ 0, 01. În funcţie de cerinţele cercetării se alege pragul indicat.
De notat că ipoteza nulă nu poate fi niciodată acceptată; a nu se respinge H0 nu
echivalează cu acceptarea ei. În schimb, ipoteza specifică nu poate fi niciodată respinsă.
Fiind o ipoteză statistică imprecisă nu se poate calcula distribuţia de eşantionaj sub
ipoteza alternativă (Abdi, 1987).
Valorile cririce ale criteriului z, t, ş.a. au fost calculate pentru diferite praguri 
fiind prezentate sub formă de tabele ce urmează doar a fi consultate. Regula de decizie
este precizată:
- dacă criteriul z, calculat pe eşantionul experimental este mai mare sau egal cu
valoarea critică (z critic), probabilitatea sa asociată este mai mică sau egală cu pragul α
(se decide respingerea H0);
- dacă criteriul z cal, calculat pe eşantionul experimental, este mai mic decât
valoarea critică (z critic), probabilitatea asociată este mai mare decât pragul α. În
consecinţă intervine suspendarea judecăţii: nu se va respinge nici accepta H0. În sens
strict, se va decide de a nu se decide ...(Abdi, 1987).
În probleme de comparaţie statistică urmează să se facă disticţia între eşantioane
independente şi eşantioane perechi.
O clasă de elevi, spre exemplu, poate fi considerată practic ca un eşantion la
întâmplare extras dintr-o colectivitate mai largă. Dacă se consideră o altă clasă, paralelă,
în vederea unei experienţe determinate, atunci alegerea poate fi făcută în două feluri. Se
pot alege în mod independent cele două eşantioane: faptul că un element sau altul din
primul eşantion a fost ales nu are nici o influenţă asupra alegerii elementelor din
eşantionul al doilea. Compoziţia celor două grupe nu este reglementată pe baza unei
probe prealabile; cele două clase sunt considerate în compoziţia lor stabilită prin " legile
întâmplării". În acest caz este vorba despre eşantioane independente.
Se poate proceda şi altfel. Se pot constitui eşantioane perechi. În cazul acesta,
fiecare element dintr-un eşantion corespunde unui element dintr-un alt eşantion (formează
o pereche cu el). De exemplu, pentru a compara două metode de instruire se constituie
două grupe cu acelaşi număr de elevi, astfel ca fiecărui elev dintr-o grupă să-i corespundă
un elev din cealaltă grupă, având acelaşi nivel de cunoştinţe, eventual acelaşi C.I. În felul
acesta, compoziţia grupelor este precizată pe baza unei probe anterioare, în virtutea căreia
elementele celor două eşantioane nu se determină la întâmplare. Fiecare individ dintr-o

28
grupă are "corespondent” în grupa a doua, având aceeaşi notă (sau acelaşi nivel) în proba
preliminară. Situaţia este identică şi în cazul când acelaşi grup de subiecţi este supus de
două ori la probe diferite (de exemplu, înainte şi după acţiunea unui anumit factor
experimental). Se obţin atunci două grupe de măsurări efectuate pe aceiaşi subiecţi, care
constituie perechi.
Prin urmare putem alege grupele de studiu în mod independent şi atunci este
vorba de o alegere la întâmplare a elementelor; sau putem asocia într-un anumit fel - pe
baza unui criteriu precis - elementele celor două eşantioane, două câte două, şi atunci
compoziţia lor este determinată de regulă în virtutea unei probe prealabile: test de
inteligenţă, test de cunoştinţe etc.

3.1. Semnificaţia diferenţei între două medii în cazul


eşantioanelor independente

Probele de semnificaţie diferă în funcţie de două situaţii:


●când numărul de măsurători (N) în fiecare eşantion este destul de mare (mai mare ca
30);
●când numărul de măsurări sau volumul eşantionului este mai mic dacât 30.
În experimentele cu caracter instructiv de la care am pornit N1= 33 şi N2 = 34, deci
ne aflăm în prima situaţie.
Pentru a vedea dacă cele două medii constatate diferă semnificativ, facem
raţionamentul care urmează.
Admitem pentru moment ipoteza nulă şi stabilim care este şansa de a fi verificată.
Cu alte cuvinte presupunem că diferenţa între cele două medii m1 şi m 2 se datoreşte
întâmplării şi că nu există diferenţe reale între eşantioanele considerate. În limbaj statistic
înseamnă că cele două grupe constituie eşantioane extrase la întâmplare din aceeaşi
populaţie.
Pentru a testa ipoteza nulă se utilizează criteriul sau raportul:
m1  m 2
z
2 2
1  2 ,

N1 N 2
în care notaţiile sunt deja cunoscute.
Calculând valoarea raportului de mai sus, notat cu | z |, ne vom referi la
proprietăţile curbei normale schiţând valorile calculate (z cal) în raport cu valorile critice
(1,96 şi 2,58). Dacă valoarea ce va corespunde indicelui z cal este mai mare decât 1,96,
atunci diferenţa între cele două medii este semnificativă la pragul de p < 0,05, iar dacă z
cal > 2,58, atunci diferenţa este semnificativă la pragul de p < 0,01. Bineînţeles, dacă
vom avea z cal < 1,96, atunci ipoteza nulă nu va fi infirmată, iar diferenţa obţinută în
cadrul experienţei nu va fi considerată concludentă pentru a proba justeţea ipotezei
specifice (vom suspenda decizia).
2
În exemplul considerat trebuie să cunoaştem cu privire la fiecare grup m , N şi 
.

29
2
m1  7,7; N 1  33; 1  3,15;
2
m 2  6,7; N 2  34; 2  3,5;
Utilizând formula stabilită obţinem:
7,7  6,7
 2,33
3,15 3,5 .

33 34
Raportul găsit este mai are decât 1,96 şi mai mic decât 2,58, deci p < 0,05. Făcând
un calcul de interpolare se află p = 0,02; deci diferenţa este net semnificativă, ipoteza
nulă fiind infirmată.

Când volumul datelor obţinute în fiecare eşantion este mai mic (numărul de
măsurări este mai mic decât 30) se utilizează un procedeu întrucâtva diferit.
Ipoteza nulă se enunţă la fel: presupunem că cele două grupe de date sunt două
eşantioane întâmplătoare ce provin din aceeşi colectivitate generală. Verificăm apoi şansa
acestei ipoteze pe baza criteriului t:
m1  m 2
t 
1 1 .
s2 (  )
N1 N 2

Pentru a obţine o estimare a dispersiei colectivităţii - care este notată în formulă


2
cu s - se combină datele celor două eşantioane:
2
s 
 ( x  m1 ) 2   ( x  m 2 ) 2
N1  N 2  2
Formulele de la numărător ne sunt cunoscute de la calcularea dispersiei (sumei de
pătrate referitoare la cele două grupe), iar N1 şi N2 sunt efectivele celor două eşantioane.
Există un tabel special (întocmit de Student) în care figurează probabilităţile
raportului | t | corespunzător numărului "gradelor de libertate" care depinde de volumul
eşantioanelor (vezi Anexa 1.1.). În cazul nostru numărul acesta - notat n - este:
n = N1 + N2 - 2.

Să luăm un exemplu.
În procesul învăţării eşalonarea repetiţiilor este mai productivă decât concentrarea
lor. Într-o experienţă se ia câte o grupă formată fiecare din câte 10 subiecţi şi se
experimentează în cele două situaţii prevăzute: repetiţii eşalonate sau concentrate în timp.
Încă din prima perioadă subiecţii manifestă o diferenţă. Vrem să ştim dacă ea este
semnificativă (după P. Oleron).
Datele consemnate de autor sunt:
m1  13,3; N1  10;  ( x  m1 ) 2  82,1;
m 2  14,2; N 2  10;  (x  m 2 ) 2  97,6;

2 82,1  97,6
s   9,98
18

30
14,2  13,3
t   0,63
1 1
9,98  
 10 10 

| t | fiind calculat, ne referim la tabelul distribuţiei | t | întocmit de Student. Acest tabel


prezintă o coloană n sau v, care corespunde gradelor de libertate. În tabelul de mai sus n =
10 +10 - 2 = 18. Căutăm în coloana n pe 18. După ce l-am fixat, mergem pe rândul
respectiv şi căutăm valoarea lui | t | la pragul de 0,05 şi 0,01 (probabilitatea o citim în
prima linie de sus a tabelului unde găsim de la dreapta spre stânga: 0,01; 0,02; 0,05;
0,10). În cazul nostru tabelul indică 2,10 pentru | t | la pragul de 0,05 respectiv 2,88 la
oragul de 0,01. Valoarea calculată în exemplul ales este 0,63, deci este mult mai mică
decât 2,10 căreia îi corespunde p = 0,05. Putem spune atunci că pentru | t | = 0,63 avem p
> 0,05. şi astfel ipoteza nulă nu este infirmată. Considerăm diferenţa dintre medii ca
nesemnificativă, mai exact suspendăm decizia.
În general, dacă valoarea găsită prin calcul este mai mică decât valoarea | t |
indicată în tabel la pragul p = 0,05, atunci considerăm că ipoteza nulă nu este infirmată,
iar diferenţele obţinute în experienţă ca nesemnificative. Dacă valoarea calculată de noi
este mai mare decât valoarea | t | la pragul 0,05, dar mai mică dacât valoarea lui | t | la
pragul de 0,01, vom spune că diferenţa este semnificativă la pragul de 0.05. În sfârşit,
dacă valoarea găsită de noi este mai mare decât valoarea | t | indicată în tabel pentru
p = 0,01, atunci vom spune că diferenţa este semnificativă la pragul de 0,01.
Observăm că respingerea ipotezei nule se face considerând un prag de
semnificaţie ales în prealabil (cel mai riguros este p = 0,01). De reţinut este faptul că
ipoteza nulă nu se consideră niciodată demonstrată; ea poate fi doar infirmată. Efectul
admiterii sau respingerii ipotezei nule se răsfrânge asupra ipotezei specifice.
Neinfirmarea ipotezei nule pune sub semnul întrebării ipoteza specifică, infirmarea
ipotezei nule consolidează foarte mult ipoteza specifică. Cele două ipoteze H 0 şi Hs sunt,
cum s-a spus, contradictorii.

3.2. Semnificaţia diferenţei între două medii în cazul


eşantioanelor perechi

Când elementele celor două eşantioane sunt asociate într-un anumit mod două
câte două (de exemplu, rezultatele înregistrate înainte şi după acţiunea unui factor
experimental), procedeul cel mai simplu constă în a raţiona asupra diferenţelor pe care le
prezintă fiecare pereche de date asociate, corelate.
Să notăm cu x rezultatele din primul grup de măsurări (eşantion) şi cu x' valorile
asociate din eşantionul al doilea. Diferenţa corespunzătoare fiecărei perechi de note x - x'
o însemnăm cu d. Se obţin astfel patru coloane.

Exemplu:
Cu o grupă de 10 elevi s-a încercat la geografie, în decursul trimestrului II al
anului şcolar, o metodă nouă de învăţare individuală, pe baza unor întrebări de control

31
fixate pe cartonaşe. S-au înregistrat notele elevilor la geografie la începutul experienţei,
adică la sfârşitul trimestrului I şi apoi la încheierea trimestrului II. Vrem să ştim dacă
metoda respectivă aduce o îmbunătăţire semnificativă a situaţiei şcolare.
Pentru a determina acest lucru întocmim un tabel în care vom înscrie subiecţii,
rezultatele obţinute în cele două situaţii şi vom calcula diferenţele dintre ele (Tab.4.1.).
Se observă din tabel că avem diferenţe nule, pozitive şi negative.
Formulăm ipoteza nulă, adică atribuim numai întâmplării diferenţele constatate,
Dacă s-ar datora numai întâmplării, aceste diferenţe ar fluctua în jurul lui 0 într-un sens
sau altul, iar media lor ar fi egală cu zero md= 0 (cu md am notat media diferenţelor).

Tabelul 4.1
Note trim. II Note trim. I
Subiecţi x` x d d2
A 8 6 +2 4
B 7 5 +2 4
C 5 5 0 0
D 6 4 +2 4
E 5 6 -1 1
F 6 4 +2 4
G 6 5 +1 1
H 5 4 +1 1
I 4 6 -2 4
K 7 5 +2 4
2
N=10 Σd = +9 Σd = 27

Vom însuma algebric coloana d (ţinând deci seama de semne) şi vom afla
∑d = T. Apoi, făcând raportul T/N, vom afla media diferenţelor md.
În exemplul ales, md = T/N = 0,09, deci md diferă de zero; nu ştim dacă diferenţa
aceasta este suficient de mare pentru a putea fi considerată semnificativă sau nu.
Se utilizează criteriul:
md
t 
d
N

în care cunoaştem m d şi N, dar nu cunoaştem  d (abaterea standard a diferenţelor).


Tratăm diferenţele aşa cum am considerat înainte datele brute.
Calculăm mai întâi dispersia diferenţelor:
T2
2  d 2

N
d 
N 1
şi
2
d  d
În exemplul ales adăugăm în tabel o coloană d2, pe care însumând-o obţinem
2
Σd =27.

32
Făcând înlocuirile:
2 27  81 / 10
d   2,1
9
de unde
 d  2,1  1,4
Deci
0,9
t   2,0
1,4
10
Căutăm în Anexa 1.1. | t | ţinând seama de faptul că în acest caz numărul gradelor
de libertate este N - 1 (şi nu N1+N2- 2, ca în primul caz).
În exemplul de mai sus, N - 1 = 9. Căutând în tabel găsim pentu 9 grade de
libertae,la pragul de p = 0,05 cifra 2,26. Valoarea calculată de noi este inferioară acestei
cifre. Înseamnă că nu s-a demnostrat falsitatea ipotezei nule şi, în felul acesta nu se poate
spune că rezultatele experienţei sunt semnificative.
Când N este destul de mare (>60) putem raporta valoarea găsită prin calcul la
valorile z (1,96 şi 2,58) fără să mai facem apel la Tabelul lui Student.
Trebuie reamintit în încheiere că atât raportul | z | cât şi criteriul | t | presupun
drept condiţie aspectul normal al distribuţiilor supuse comparaţiei.

ANEXA 1.1.

Distribuţia t

P 0.10 0.05 0.02 0.01


n
1 6.34 12.71 31.82 63.66
2 2.92 4.30 6.96 9.92
3 2.35 3.18 4.54 5.84
4 2.13 2.78 3.75 4.60
5 2.02 2.57 3.36 4.03
6 1.94 2.45 3.14 3.71
7 1.90 2.36 3.00 3.50
8 1.86 2.31 2.90 3.36
9 1.83 2.26 2.82 3.25
10 1.81 2.23 2.76 3.17
11 1.80 2.20 2.72 3.11
12 1.78 2.18 2.68 3.06
13 1.77 2.16 2.65 3.01
14 1.76 2.14 2.62 2.98
15 1.75 2.13 2.60 2.95
16 1.75 2.12 2.58 2.92

33
17 1.74 2.11 2.57 2.90
18 1.73 2.10 2.55 2.88
19 1.73 2.09 2.54 2.86
20 1.72 2.09 2.53 2.84
21 1.72 2.08 2.52 2.83
22 1.72 2.07 2.51 2.82
23 1.71 2.07 2.50 2.81
24 1.71 2.06 2.49 2.80
25 1.71 2.06 2.48 2.79
26 1.71 2.06 2.48 2.78
27 1.70 2.05 2.47 2.77
28 1.70 2.05 2.47 2.76
29 1.70 2.04 2.46 2.76
30 1.70 2.04 2.46 2.75
35 1.69 2.03 2.44 2.72
40 1.68 2.02 2.42 2.71
45 1.68 2.02 2.41 2.69
50 1.68 2.01 2.40 2.68
60 1.67 2.00 2.39 2.66
 1.64 1.96 2.33 2.58

34