Sunteți pe pagina 1din 9

2.2.

EROAREA STATISTIC I RISCURILE RESPINGERII IPOTEZEI NULE


Trinicia relaiilor funcionale este dat de repetabilitatea lor. Un scop major n tiin este
acela de a permite prognoza fenomenelor naturale.
Atingerea acestui obiectiv se face prin descoperirea relaiilor sistematice ntre variabilele
predictive (independente, exogene, extrinseci, cauzale, stimuli) i variabilele de ieire,
rezultative (dependente, endogene, intrinseci, efect, reacie).
Dac variaia datelor conforme variabilei predictive corespunde n acelai mod cu variaia
datelor variabilei rezultative, atunci avem o relaie funcional i putem prognoza rezultatul pe care
nc nu l-am aflat (observat) cunoscnd doar valoarea variabilei independente. Din pcate, ne
nfruntm cu surse variate de eroare ce provin din mediul din care am extras datele, din greelile
legate de identificarea unor relaii ntmpltoare, greeli de calcul sau rotunjire, din existena i
neluarea n calcul a mai multe surse de influen simultan i altele.
Cteodat se realizeaz o relaie sistematic ntre
dou variabile pur i simplu din
intmplare, cnd nimic, cu excepia Erorii, nu opereaz. Din aceast cauz trebuie s
fim
permanent n poziia de a distinge ntre rezultatele experimentelor care se produc doar datorit
ansei sau erorilor mediului i acelea care indic prin repetabilitate o relaie sistematic ntre
variabile.
Problema ncrederii n datele furnizate de o relaie este dat de repetabilitate, aa nct
trinicia unei relaii este repetabilitatea ei. Dac exist cu Adevrat o relaie sistematic ntre
variabile atunci una dintre ele va prezice cu regularitate valorile celeilalte. Dac aceast relaie se
datoreaz mai degrab Erorii sau ntmplrii, atunci nu ne putem baza pe ea i nu ne este de folos n
prognoze.
Dar ce facem cu fenomenul socio-economic, unde sunt miriade de relaii ntre variabile,
funcii compuse i compuneri de funcii? Cercettorul ori experimentatorul care caut s
deslueasc aceaste fenomene trebuie s tind, poate, pentru nelegere ctre poetica lumii lui
Eminescu. Acesta avnd o lume a lui, personal, secret, destinat unei experiene solitare. Plin
de fulguraii i umbre, de strbateri uluitoare i de ciudate fracturi i stagnri, de struine i de
renateri a cror lege interioar uneori se las regndit, alteori nu. Un labirint de miraje, ecouri
i oglinzi, de uitri i de anamneze, de masive construcii i de paragini, n care i-au lsat urmele
i clipele i eonii, i timpul din lume i cellalt.1
Mersul ideilor Demiurgului ctre Luceafr este la Petru Creia urmtorul: mi ceri s-i iau
eternitatea ca s poi muri, ca s te poi ntoarce n vecinicul repaos dup care, cuprins de ispita
iubirii, atta nsetezi. Dar eu:
a) Nu pot s-i dau condiia de muritor pentru c, noi fiind cosubstaniali, ar nsemna s
m neg pe mine nsumi, s tgduiesc adevrul care ne cuprinde pe amndoi n venicia
lui
b) Chiar dac te-a face muritor, te-a integra ntr-o lume n care moartea la care aspiri
este pur aparen, de vreme ce entitile pieritoare din care este fcut umplu nite
1 Petru Creia, Testamentul unui eminescolog, Editura HUMANITAS, 1998, pag.36.

tipare, nite Forme inalterabile, pe veci nepieritoare, sustrase timpului i devenirii; i-ai
pierde doar identitatea, fr s te poi stinge n repaos, pierind i renscndu-te mereu
n neodihna venic a naterilor i pierderilor care se perind prin eternitatea formelor.
Mai mult, pentru a-i face i mai evident teza aceasta, vorbete cu el ca i cum a devenit
deja, sau pur i simplu ar fi, o fiin pieritoare (Petru Creia, pag. 126,127, op. cit).
Este subliniat juxtapoziia a dou teze exprimate n prima parte a vorbirii Demiurgului: a)
cea a diferenei i incompatibilitii dintre ordinea eternului i cea a efemerului i b) cea a eternitii
formelor sau a tiparelor efemerului.
Dar cum putem recunoate c relaia observat este datorat sau nu ntmplrii (erorii)? De
cele mai multe ori metoda pe care oamenii de tiin o ntrebuineaz este o versiune mai organizat
a bunului sim. S ne reamintim poezia Luceafrul creat de genialul Eminescu.
Ctlina: l vede azi, l vede mni/Astfel dorina-i gata/El iar privind de sptmni,/i
cade drag fata. (repetabilitatea ce justific trinicia relaiei)
Cauza genereaz efectele, rezultatele, reacia:
M dor de crudul tu amor/A pieptului meu coarde,/i ochii mari i grei m dor, Privirea
ta m arde.
Consecina este cererea:
Dar dac vrei cu crezmnt/S te-ndrgesc pe tine, /Tu te coboar pe pmnt, /Fii muritor
ca mine.
Situaia grea n care se afl Hyperion este aceea a unui experimentator. Ambii doresc s
afle dac ceea ce s-a ntmplat (chemrile repetate, oaptele) este datorat unui ceva important.
n ambele cazuri ei trebuie s se ngrijoreze dac reaciile obinute (datele) sunt produse de
fluctuaiile necontrolate ale unor factori neinteresani. Ar trebui s se ntrebe pe ei nii Am
primit un mesaj important, sau este datorat zgomotului din mediu (variabilitii
mediului)?
Hyperion nu tie dac toate aceste chemri nu au fost alarme false, adic ceea ce
experimentatorul va numi erori de tip I, eroarea lui fiind n acest caz renunarea la nemurire
cnd de fapt nu exist dragoste. Cu alte cuvinte crede n existena variabilei independente (amor),
cnd aceasta nu exist. Dar mai exist un tip de eroare. Ce se ntmpl
dac El nu renun
la nemurire i dragostea exist? Experimentatorul tie c este eroarea de tip II.
Prin impunerea interveniei Demiurgului i evidenierea comportamentului Ctlinei,
Eminescu ne convinge c Lucifer iubete i noi tim c Luceafrul cade n primul tip de eroare.
- Tu-mi cei chiar nemurirea mea /n schimb pe-o srutare,/Dar voi s tii asemenea/Ct te iubesc
de tare;
Ctlina face eroarea de tip II, ea fiind convins c Hyperion nu va renuna la nemurire:
Lucete c-un amor nespus /Durerea s-mi alunge,/Dar se nal tot mai sus/Ca s nu-l pot
ajunge.

Eroarea de tip I este corectat, acel ceva important nu exist, se pare c reaciile obinute
sunt produse de fluctuaiile necontrolate ale unor factori neinteresani (muritorii Ctlin i
Ctlina). Prin urmare, El tremur ca alte di/n codrii i pe dealuri, / Cluzind singurti/De
mictoare valuri;, Dar nu mai cade ca-n trecut / n mri din tot naltul;/- Ce-i pas ie, chip de
lut,/Dac-ai fi eu sau altul ?
Dac judecm n continuare la rece, statistic, reaciile celor doi atunci ajungem la un punct
fundamental al experimentului i anume ncercarea de a detecta un semnal n prezena unui mediu
zgomotos. oaptele naturii, ale mrii, ale pdurii, ale vntului trebuiesc difereniate de
oaptele iubitei; apariiile misteriosului Luceafr trebuie discriminate de apariiile altor frumoi
tineri (Ctlin).
Decidentul dorete s afle dac rezultatele obinute cu un tratament experimental difer destul
de mult de ceea ce se ntmpl n lipsa acestuia pentru a decide dac variabila experimental este
eficient. n mod natural avem ncredere n date dac variabilele independente produc reacii
previzibile. Vom decide acest fapt prin compararea nivelului de zgomot, variaie, analiznd datele
n i fr prezena tratamentului. Trebuie s discriminm ntre zgomotul de fond i cel produs atunci
cnd semnalul este prezent. Trebuie s deosebim combinaia de zgomot + semnal de zgomotul n
sine ntrebndu-ne ct de probabil este s se produc evenimentul dac este doar zgomot. Hyperion
auzea un nivel sigur al larmei provenit de pe pmnt. Unele zgomote ori oapte puteau fi o
chemare. oaptele ca zgomote erau puin peste zgomotul de fond i puteau fi chemri. Ne
putem imagina ce se putea ntmpla cnd Ctlina i-ar fi spus iubirea mea. Atunci, cu mari anse,
s-ar fi produs evenimentul dragoste, dar i eroarea, prezumtiv, de tip II: odat ajuns muritor,
relaia acceptat de ctre Ctlina cea uuratic, s fie temporar.
Tehnic, suntem interesai de un raport algebric ntre oaptele auzite i fonetele naturale.
Dac oaptele se confund sau au acelai nivel cu larma obinuit atunci raportul este, algebric, 1.
Dac zgomotul este altfel dect larma obinuit, raportul este mai mare, caz n care, dac depete
un anumit nivel de contientizare, produce reacia, deci apariia frumosului Luceafr.
Pentru experimentator raportul este observaie / eroarea estimat. Rezult o privire asupra
diferenei ntre tratament i condiiile de control n contrast cu diferenele ce se observ fr
tratament. Dac raportul (semnal + zgomot) / zgomot este destul de mare n raport cu
zgomot/zgomot atunci exist acel ceva, semnalul. n cazul nostru oapte + larm.
Cum pot ns, n practic, decide experimentatorii c rezultatele sunt de ncredere. n primul
rnd prin inspectarea acestora. Uneori este att de evident distorsionarea datelor nct este clar
intervenia variabilei tratament doar
prin analiza experimental a comportamentului
acesteia. Alternativa tiinific presupune ns analiza statistic deoarece ochiul i judecata
obinuit sunt relativ insensibile n identificarea pragului de ncredere.
Nu trebuie uitat
c rezolvm cu greutate, fr creion sau calculator, dou ecuaii cu dou necunoscute. Cu att mai
mult dac considerm n experiment mai multe variabile independente. Poate ajuta doar reducerea
nivelului de zgomot prin mrirea gradat a controlului experimentului ceea ce nseamn intervenie
i artificializare.

De aceea este preferat analiza statistic modern.


Ideea fundamental n cadrul aplicaiilor statistice moderne este
aceea c amplific abilitatea de a discrimina efectele tratamentelor
experimentale.

Riscurile respingerii ipotezei


nule.

Ce se ntmpl cnd dorim s aflm dac variabila independent are influen; spre exemplu,
Hyperion poate raiona astfel: independent de el exist o mulime de zgomot pe Pmnt. Una
dintre variabilele independente este oapta Ctlinei: Cobori. Statistica ncearc s rezolve
acest dubiu, decizia de a rspunde la apel, prin cuantificarea probabilitii evenimentului ca
parte a zgomotului de fond. S presupunem c Luceafrul are o baz de date cu toate sunetele,
zgomotele, fonetele, chemrile ntmplate sear de sear. Pentru simplificare, s lum numrul
de date
egal cu 1000. Teoretic orice nou sunet, chemare, oapt, o
poate compara cu cele
1000. Dac chemarea Cobori s-a ntmplat s spunem de mai mult de 200 de ori el poate
conchide c este ceva normal, se ntmpl tot timpul i deci nu este o oapt de dragoste. Dar dac
nu s-a mai ntmplat, ansele s fie din mediu sunt de 1/1000 i poate presupune altceva (dorina
ateptat).
n experimente, aceasta nseamn s comparm descoperirile cu ateptrile (cunoaterea)
provenite din fluctuaiile aleatoare sau erori. Pentru o bucat de vreme presupunem c totul se
produce dintr-o ntmplare, eroare, i cutm s aflm ct de des ne putem atepta ca observaia s
se produc dac presupunerea noastr este adevrat. Acest fapt este identic cu a presupune c
variabila independent nu are efect, numit n statistic ipoteza nul.
n secolul XVIII, Blaise Pascal a creat un model matematic pentru situaii de joc pentru a nu fi
nevoii s repetm experimentul de 1000 de ori, cazul nostru. Modelul se cheam distribuie
binomial.Conform anexei create de aceast distribuie, i presupunnd c Luceafrul coboar de 7
ori din cele 10 chemri netiind dac este iubit sau nu, atunci probabilitatea este 0,172. Aceasta
nseamn c ne putem atepta s coboare la orice oapt n 17% din cazuri fr s tie dac este
realmente dorit sau nu. Considerm c sunt cam riscante att de multe teleportri fr efect.
Dar care este probabilitatea pe care s o acceptm ca evenimentele cercetate s se produc
doar datorit ansei. Din punct de vedere logic, decizia este arbitrar dar n practic se accept 5%
sau mai puin. Aceasta este probabilitatea de a respinge ipoteza nul i este cunoscut ca nivel
(alfa).
Mrimea acestei variabile ne spune proporia n care ne ateptm s greim n respingerea
ipotezei nule. La nivelul de 5% ne ateptm s respingem, n mod fals (incorect), ipoteza nul
n 5% din cazuri sau o dat n douzeci de experimente. Respingerea incorect a ipotezei nule
este eroarea de gen I.
Pentru muli decideni, a gndi att de des eronat este inacceptabil. Ei vor dori s aeze
pragul probabilitii mai jos (3%, 1%) deci 3 n 100 de experimente sau doar unul, ori chiar odat
n 1000 de experimente (nivel 0,001). Dar cu
ct se micoreaz nivelul alfa, crete riscul de a
identifica
o variabil independent care lucreaz. Aceasta este eroarea de genul II.
Probabilitatea acesteia este denumit beta i nu este un singur numr ci un set de numere. Valoarea
ei depinde de proprietile populaiei examinate pe care de obicei nu o cunoatem.

n analiza cazului de mai sus, ipotezele H0 i H1 pentru Luceafr, respectiv Ctlina sunt
urmtoarele:
LUCEAFR

H0 nu exist diferene semnificative n comportament la diferitele ntlniri, nu m iubete, decizia:


voi rmne nemuritor;
H1 exist diferene de la ntlnire la ntlnire, m iubete, renun la nemurire.
CTLINA
H0 nu exist diferene n comportamentul Luceafrului, decizia va fi c voi accepta flirtul lui
Ctlin;
H1 exist diferene, vrea s fie muritor ca i mine, m iubete i face sacrificiul suprem.
Cum am apreciat anterior, eroarea Luceafrului este de genul nti, respinge ipoteza Ho dei
n realitate ea este adevrat n timp ce Ctlina face o eroare de genul al doilea, accept Ho cnd
ipoteza e fals2.
Reacie - Ipotez H0 fals
H0 adevrat
Accept - Ctlina
Eroare gen II
Resping - Luceafrul
Eroare gen I
Probabilitatea erorii de genul I se numete risc de
genul I, reprezint un prag de
semnificaie notat cu (alfa), iar probabilitatea erorii de genul doi se numete risc de genul II i se
noteaz cu (beta).
(1)
(2)

O decizie just este luat pe baza seleciei de date (sau observaii ori informaii) i atunci:
acceptm H0 cnd este adevrat evitnd eroarea de genul I i
respingem H0 cnd este fals i astfel nu comitem o eroare de genul II.

Analiza dispersional permite testarea semnificaiei relaiei ntre dou sau mai multe tipuri de
clasificri, determinnd importana factorilor respectivi asupra acestor relaii. Cu alte cuvinte,
analiza dispersional stabilete contribuiile pe care le aduc la dispersia total a eantionului
de date, dispersiile factorilor utilizai drept criterii pentru clasificarea observaiilor.

2.3.ACIUNEA SIMULTAN A FACTORILOR N TABELELE DE CONTINGEN

2 Mihi N.V., Eseu privind incertitudinea i comunicarea, Sesiunea tiinific a cadrelor didactice,
Univ.George Bariiu, Braov, mai, 2000.

Vom lua n considerare acelai exemplu din tabelul 2.1, dar n acest caz socotim c variaia
datelor din tabel se datoreaz att operatorilor (coloanele tabelului de contingen) ct i zilelor
sptmnii, rndurile tabelului.
Modelul matematic este urmtorul:

x ij = + i j + ij
(2.19)
n care fiecare variabil observat xij este egal cu media populaiei, care sufer abaterea liniei i,
abaterea coloanei j i a erorii experimentale ij.
Se expliciteaz dou ipoteze statistice:
1. Pentru rnd (zi din sptmn)
H0
numrul de chestionare nu este influenat de intervievarea ntr-o anume zi;

() i , i = 0
H1

(2.20)

numrul de chestionare este influenat de intervievarea ntr-o anume zi.

() i , i 0

(2.21)

2. Pentru coloan (eantionul operatorilor)


H0
numrul de chestionare nu este influenat de hrnicia operatorului de interviu; vor fi
valabile relaiile (2.8), (2.9)

() j , j = 0
sau, oricare ar fi media pe coloana j, j
1 = 2 = 3 = .j = . = c
H1
numrul de chestionare este influenat de hrnicia operatorului de interviu; exist diferene
semnificative ntre operatori. vor fi valabile relaiile (2.10), (2.11)

( ) j , j 0
sau cel puin dou medii pe coloan nu sunt egale:
1 .j

Se calculeaz numrul de grade de libertate df1 pentru fiecare factor de influen i numrul
de grade de libertate df2 pentru ntregul tabel.3
df1 = r - 1 = 4
df1 = c - 1 = 9
df2 = (r - 1)(c - 1) = 36
i pentru = 0,05
Fr (4, 36) = 2,63
iar
Fc (9, 36) = 2,15
Se determin factorul de corecie C:

C=

2
T..
rc

(2.22)
2

4.000
C=
320 .000
10 5

Se determin suma ptratelor pe fiecare factor de influen n parte:

SPR =

r T2
i. - C

i =1

SPR =

(2.23)

830 2 + 790 2 + 750 2 + 820 2 + 810 2


- 320.000 = 400
10

SPC =

4852 + 3252 + 350 2 .... + 455 2


- 320.000 = 6.810
5

SPC =

c T2
.j

j=1

-C

(2.24)

3 Hicks, Charles R., Fundamental Concepts in the Design of Experiments., New York: Holt, Rinehart and
Winston, Inc. 1964

Se determin suma ptratelor pe ntregul tabel (conform relaiei 2.14):

SPT =

xij2 - C

i =1 j =1

SPT 992 + 702 + 902 ... + 892 - 320.000 = 9.948

Se determin suma ptratelor pe eroarea experimental:


SPE = SPT SPC SPR

(2.25)

SPE= 9.948 6.810 - 400 = 2.738


Se determin media ptratelor MP fiecrui factor de influen:
SPR
MPR =
df 1
(2.26)
MPR =

400
= 100,00
4

Pentru coloan relaia este (2.16)

MPC =

SPC
df 1

MPC =

6.810
756 , 67
9

Se determin media ptratelor pe eroarea experimental (conform relaiei 2.17)

MPE =

SPE
df 2

MPE =

2.738
76,06
36

Se determin raportul Fisher calculat pentru fiecare factor de influen:

MPR
MPE

Fr =

(2.27)

Pentru factorul coloan vom folosi relaia (2.18)

Fc =

MPC
MPE

Valorile rapoartelor sunt:

Fr

100,00
1,31
76,06

Fc

756,67
9,95
76,06

Se compar valoarea tabelar cu valoarea calculat:


Fr = 1,31 < F =2,63, se accept ipoteza nul, deci ziua n care se face ancheta nu influeneaz
numrul de chestionare, iar Fc =9,95 > F =2,15, se respinge ipoteza nul, deci operatorii de
interviu introduc varian n realizarea unui numr de chestionare, indiferent de ziua n care se face
intervievarea. Cu ct avem mai mult ordine, mai multe variabile controlate, sau datele sunt mai
organizate cu att, mai ales n condiiile influenei simultane a factorilor, rezultatele vor fi mai
aproape de adevr i decizia, realist.