Sunteți pe pagina 1din 17

1.

Introducere n statistica matematic


Statistica matematic este una dintre ramurile moderne ale
matematicii, cunoscnd cea mai mare dezvoltare n ultimul timp i n cele
mai variate domenii. Provenind din cuvntul latinesc status, adic Stat,
termenul de statistic este folosit ncepnd cu secolul al XVIII-lea pentru a
desemna datele sub form de cifre pe care Statul, ncepnd de la formarea
sa n antichitate i pn astzi, are rolul s le strng i s le claseze n
vederea cunoaterii bogiilor i bunurilor pe care cetenii si le posed,
date necesare pentru stabilirea taxelor i impozitelor. Primele asemenea
date tabelate au fost ntocmite n China antic nc din anul 2238 .Ch., la
ordinul mpratului Yao, i ele se refereau la ceea ce azi ar reprezenta
tabelele statistice agricole. Tot din timpul antichitii, aflm de la Tacit c
mpratul Augustus a dispus efectuarea recensmntului tuturor bunurilor
existente la acea vreme n Imperiul Roman. Chiar i civilizaiile antice
care nu cunoteau scrierea ntocmeau situaii statistice, acestea fiind
prezentate pe piei scrijelite -un fel de rbojuri, sau prin sforii cu noduri.
ncepnd cu prima parte a secolului al XX-lea ns, impulsionat
puternic de teoria probabilitilor, statistica a cunoscut o dezvoltare
teoretic i practic fr precedent. S-au dezvoltat noi metode de analiza
datelor i metode mai sofisticate de testare a ipotezelor statistice. Folosirea
n partea a doua a secolului trecut a computerelor a dus la o dezvoltare
exponenial a sa, ajutat de puterea enorm de calcul a acestora. Aceste
metode moderne de lucru ale statisticii, cunoscute pe scurt ca statistic, au
devenit astzi un mijloc foarte important care ne ajut s descoperim legile
ce guverneaz realitatea nconjurtoare. Pentru c nu avem puterea s o

cunoatem n totalitatea ei, ncercm s-o pipim cu mijloacele puse la


ndemn de statistic pentru a o putea ptrunde i nelege suficient. S ne
amintim c, actualmente, nu mai exist nici o domeniu de cunoatere, fie
el din fizic, chimie, biologie, medicin, demografie, economie,
meteorologie, psihologie, istorie, geografie, .a.m.d. care s nu o utilizeze
cu succes.

1.1. Despre Statistic


Media de toate felurile ne bombardeaz zilnic cu tot felul de
statistici, care de care mai complexe sau mai bizare. Ziarele, jurnalele
televizate, rubricile economice, sociale, politice sau chiar militare din
media actual, abund de tot felul de informaii statistice referitoare la
sntate, omaj, industrie i comer, accidente rutiere sau de munc,
prognoze meteorologice, economice sau politice, sondaje de opinie pe
teme social-politice, analize strategice, etc. In multe situaii, spre exemplu
n cazul sondajelor de opinie cu int politic, sunt prezentate i anumite
detalii tehnice privind volumul eantionului din populaie care a fost luat
n consideraie, gradul de certitudine a rezultatelor prezentate, dar n cele
mai multe cazuri ne lovim doar de cifre seci privind creteri sau descreteri
procentuale i nimic mai mult despre metodologia de recrutare a
subiecilor, gradul de reprezentativitate .a.m.d. Este evident din cele
artate mai sus c sunt statistici de ncredere i statistici cu tent mai
mult de popularizare a anumitor date sau de propagand, fr nici o
pretenie de complexitate sau de consisten.

O statistic prezentat n media este, de cele mai multe ori, rezultatul


unei cercetri. Puini tiu ns ce se ascunde n spatele cuvntului
cercetare, care au fost de fapt metodele folosite, ct de corecte au fost
datele procesate sau dac au fost verificate ipotezele de lucru. Ceea ce este
prezentat este doar un mesaj de tipul studii statistice au demonstrat c
metoda X este cu 28% mai eficient dect metoda Y, medicamentul Z este
de 3 ori mai eficace dect medicamentul W sau venitul mediu a crescut pe
luna n curs cu Q% n timp ce inflaia a sczut cu R%, etc., fr a pune la
dispoziie i metodologia dup care s-a lucrat. Evident, pentru o persoan
oarecare este nerelevant filosofia din spatele unor asemenea afirmaii,
important fiind rezultatul n sine, dar exist o puternic tendin de a
prezenta rezultate mistificate, nvluindu-le ntr-o hain de elevat
cercetare tiinific.
O alt problem, de aceast dat des ntlnit n mediul medical, este
cea referitoare la prezentarea unor cazuri sau situaii particulare, valabile
pe un numr insignifiant de subieci, ca fiind reprezentative, extrapolndule la ntreaga populaie. Aici problema se pune n ceea ce privete
reprezentativitatea eantionului, att ca numr ct i ca stratificare. Pe de
alt parte, tot n acest context, prezentarea unor simple caracteristici
statistice ca, de exemplu,

medie, dispersie, eroare standard, etc., sau

prezentarea unor histograme frumos colorate, ine loc unei cercetri


statistice serioase. Folosirea n ultimul timp de ctre nespecialiti a unor
programe de computer, fr s se cunoasc prea bine condiiile pe care
trebuie s le verifice datele sau modul de introducere a acestora, duce la
obinerea unor rezultate despre care nu se poate afirma cu certitudine
absolut nimic.

In principiu, exist dou abordri graduale i complementare n


cadrul unui studiu statistic. Este, pe de o parte, abordarea primar, iniial
a datelor, explorarea i descrierea lor prin tehnicile clasice ale statisticii
descriptive reprezentri grafice i parametri numerici clasici i, pe de alt
parte, procesarea ulterioar, complex a datelor, utiliznd modele
probabiliste i folosind proceduri de estimare i teste statistice, ceea ce
constituie inferena statistic. Abordarea gradual a celor dou metode i
folosirea cu rigurozitate a metodologiile corespunztoare, duce, n final, la
obinerea de rezultate consistente i relevante privind domeniul studiat.
In final, s menionm c exist percepia, destul de rspndit c,
folosind statistica, se poate demonstra aproape orice. Nimic mai fals. Intradevr, prezentnd numai anumite aspecte, de cele mai multe ori rupte de
adevratul context sau fr verificarea ipotezelor de lucru, se pot face
afirmaii favorabile sau nu unei anumite idei. In principiu, trebuie s
plecm de la ideea de baz c statistica clarific anumite aspecte mai
confuze ale realitii, limitnd incertitudinea noastr, dar nicidecum nu
poate demonstra ceva. Ea doar oglindete cifric realitatea, nu o
construiete sau modific. Plecnd de la acest principiu, putem folosi
corect i eficient tehnicile puse la dispoziie de statistic, sondnd cu
ajutorul ei eficient realitatea nconjurtoare.

1.2. Proiectarea analizei statistice


Atunci cnd avem n vedere efectuarea unui studiu statistic, trebuie
mai nti s elaborm (proiectm) un plan de lucru. De fiecare dat cnd
colectm date spre a fi procesate, trebuie s avem n minte o schem

prestabilit privind ceea ce vrem s obinem din procesarea lor. Este


important s tim acest lucru a priori deoarece vom ti astfel de ce fel de
date este nevoie i forma sub care trebuie culese. Prezentm mai jos o
schem privind planul unei cercetri statistice generale (Altman, 1991).

Planificare

Proiectare

Execuie
(colectarea datelor)

Procesarea datelor

Analiza datelor

Prezentarea rezultatelor

Interpretarea rezultatelor

Publicarea
Atunci cnd vrem s studiem un anumit aspect al realitii
nconjurtoare, nu o putem face studiind toate obiectele sau subiecii
corespunztori. Dac vrem s studiem o anumit caracteristic a unei
populaii, nu vom analiza toat populaia, ci vom considera un anumit
eantion din ea. Dac, de exemplu, suntem interesai de efectele telefoniei
mobile asupra sntii celor care o folosesc, vom face o investigaie
printre utilizatori, considernd un anumit numr dintre acetia, luai la
ntmplare i innd seama de timpul pe care l consum vorbind de la un
mobil. Rezultatul unei asemenea cercetri se vrea extrapolat la toi
utilizatorii telefoniei mobile, deci eantionul ales trebuie s fie
reprezentativ pentru ntreaga populaie a utilizatorilor. Cu toate c, aa
cum am spus mai sus, subiecii supui testrii vor fi alei la ntmplare,
totui, din punct de vedere practic, exist o ntreag metodologie de a
recruta subiecii, despre care vom mai vorbi n aceast carte.
Atunci cnd se ncepe o cercetare statistic i se recruteaz subiecii,
este ndeobte obligatoriu s se precizeze criteriile dup care au fost inclui
sau exclui din studiu, precum i caracteristicile principale ale
eantionului. In acest mod cercetare este transparent i oricine poate s
evalueze ct de reprezentativ a fost lotul de subieci pentru scopul propus.
In cazul unui studiu comparativ, este necesar aceiai prezentare pentru
fiecare eantion i, n plus, trebuie verificat ca diferena dintre volumele
loturilor comparate s nu fie semnificativ, denaturnd rezultatele
comparaiei.

O alt chestiune important care trebuie avut n vedere la


proiectarea unei cercetri statistice este alegerea unui volum minim al
eantionului care s implice un grad suficient de reprezentativitate. In acest
context vom meniona c diferite metode statistice cer anumite volume de
eantion i astfel, nainte de nceperea propriu-zis a studiului, trebuie s
asigurm numrul suficient de subieci analizai.
Cea mai important parte a unui studiu statistic serios rmne
metodologia folosit. Aceast parte include, de fapt, tot ceea ce am amintit
mai sus. Partea intitulat generic Material i metode va cuprinde
descrierea detaliat a modului de recrutare al subiecilor, caracteristicile
eantionului, gradul de reprezentativitate al su i rezultatele statistice
complete.

1.3. Analiza i interpretarea datelor


In strns legtur cu ceea ce am spus mai nainte, odat stabilit
eantionul, este de o importan vital alegerea adecvat a tehnicile
statistice folosite pentru procesarea datelor. Exist foarte multe tehnici
statice folosite n analiza datelor i este ntr-adevr de multe ori dificil s
alegem metoda sau metodele cele mai bune pentru studiul unui anumit caz
particular. Pentru a uura aceast alegere i pentru a ne feri de a folosi n
mod eronat tehnicile statistice este absolut necesar s se cunoasc foarte
bine filosofia ce st n spatele fiecrei metode. Sunt foarte multe cazuri
cnd necunosctori, care posed vagi cunotine n domeniu, folosesc
diferite programe statistice dup ureche, fr s cunoasc nici ipotezele
de lucru, nici condiiile pe care trebuie s le ndeplineasc datele i nici

mcar modul de introducere al datelor. Se obin n astfel de cazuri rezultate


care nu spun nimic din punct de vedere statistic dar care dau numai
impresia, total fals, c ar fi rezultate tiinifice riguroase, doar pe baza
faptului c au fost obinute cu ajutorul statisticii i al computerelor.
Dup procesarea datelor urmeaz o parte foarte important a
studiului care rezid n interpretarea rezultatelor. Dac scopul propus a fost
clar i metodologia bine aleas, n principiu nu sunt probleme privind
interpretarea

rezultatelor.

Singura

problem

rmne

compararea

rezultatelor obinute cu ceea ce se tia sau bnuia n domeniul respectiv,


pentru ca studiul statistic efectuat fie s confirme, fie s infirme anumite
rezultate sau preri deja cunoscute. Sunt i cazuri n acest context cnd,
analiznd anumite date, se descoper anumite legturi intime i fenomene
necunoscute pn atunci i care, fr puternicul i eficientul mecanism
statistico-informatic, ar fi fost imposibil de identificat.

2. Tipuri de date
Obiectele cu care lucreaz statistica sunt reprezentate de date, adic
acele

caracteristici

numerice

sau

nenumerice

care

descriu

obiectele/subiecii unui studiu statistic. Vorbim, de exemplu, de


caracteristici numerice, cantitative ale unei populaii ca nlimea sau
greutatea, precum i de date calitative, nenumerice ca, de exemplu,
culoarea prului, diagnosticul unei boli, sexul .a.m.d. Din cele spuse mai
sus, rezult c exist, n principiu, dou tipuri importante de date: date

numerice (cantitative) i date categoriale (calitative), cu toate c n


statistic sunt folosite, mai rar, i alte tipuri de date.

2.1. Date numerice


Datele numerice, cantitative, sunt, la rndul lor, de dou feluri: date
discrete i date continue. Datele discrete apar atunci cnd este vorba de
observaii numerice ntregi privitoare la un anumit proces de numrare ca,
de exemplu, numrul de copii, pulsul, numrul de consultaii pe an la care
a fost supus un pacient, etc. Spre deosebire de datele numerice discrete,
obinute de regul n urma unui proces de numrare, datele numerice
continue se obin ndeobte n urma unor msurtori, de exemplu
nlimea, greutatea, tensiunea arterial, colesterolul, etc. Aceste date sunt,
de regul, exprimate prin numere reale, spre deosebire de cele discrete care
sunt restricionate la numerele ntregi. Vom meniona aici c, de multe ori,
datele discrete sunt tratate ca date continue, de exemplu numrul de bti
pe minut al inimii. Pentru ca analiza unor asemenea date (discrete, dar
considerate continue) s nu aib de suferit, trebuie s dispunem de un
numr suficient de mare de valori diferite posibile ale acestora care s
creeze premisele continuitii lor.

2.2. Date categoriale


Spre deosebire de datele numerice, datele categoriale sau calitative
sunt acele date care, aa cum le spune i numele, mpart subiecii n
diferite categorii, ca de exemplu:

1. brbat/femeie
2. cstorit/necstorit/vduv
3. fumtor/nefumtor
4. hipertensiv/hipotensiv
5. stadii n cancer: I, II, III, IV
6. existen simptoame: DA, NU
7. tip diagnostic: A, B, C, D, etc.
S observm c, dac datele numerice discrete sunt cteodat tratate
ca date categoriale, de exemplu numrul de copii nscui de o femeie, e.g.
0, 1, 2, 3, 4, mprind lotul mamelor n categoriile corespunztoare;
important n aceast situaie este s se ignore noiunile de ordine sau de
parametri numerici ca, de exemplu, media. Invers, nu este corect s
interpretm datele categoriale ca date numerice, de exemplu, la stadiile n
cancer stadiul IV nu este de dou ori mai ru dect stadiul II, .a.m.d.
Sintetic, putem afirm c datele sunt categoriale dac nu exist
pentru ele noiunea de medie, ca n cazul celor numerice.
Datele categoriale, calitative, sunt de dou tipuri: nominale i
ordinale:
Datele nominale sunt datele ce reprezint mai multe categorii, de
exemplu: grupa sanguin (A/B/AB/O) sau specia florilor de Iris din
baza de date Fisher (cele trei tipuri clasice: Iris Setosa, Virginica i
Versicolour)-http://en.wikipedia.org/wiki/Iris_flower_data_set.
Aceste date pot fi de tip logic, spre exemplu 0 sau 1; da/nu; adevrat
/fals. Datele nominale pentru care nu este definit o ordine se numesc
date de tip enumerativ, exemple n acest sens fiind categoriile

socio-profesionale sau statutul marital (cstorit/necstorit/vduv/


divorat).
Datele ordinale sunt date enumerative ordonate, spre exemplu
situaia fumatului (nefumtor, fost fumtor, fumtor amator,
fumtor nrit),rspunsurile la o anchet de opinie (foarte
mulumit, mulumit, nemulumit, foarte nemulumit) etc.

3.3. Alte tipuri de date


nafar de cele dou mari tipuri de date, numerice sau categoriale,
descrise mai sus, n statistic se mai opereaz cteodat i cu alte tipuri de
date. Enumerm mai jos tipurile cele mai cunoscute de astfel de date.
Rangul reprezint locul pe care l ocup un subiect ntr-o ierarhie
(e.g. competiie sportiv, examinare, preferina pacienilor pentru un
anumit tratament, etc.)
Procentajul aa cum arat i numele descrie o anumit proporie
(raport) ntre dou cantiti (e.g. procentajul de brbai dintr-o
populaie, greutatea corporal relativ (raportul dintre greutatea
observat i greutatea ideal), procentajul de stngaci dintr-o
populaie, etc.)
Rate i rapoarte referitor la frecvena observat a unui fenomen sau
rapoartele dintre dou mrimi, altele dect procentajele (e.g.

mortalitatea raportat la mia de locuitori, rata de apariie a unei boli


pe sexe sau arii geografice, etc.)
Scorul este folosit atunci cnd nu este posibil o msurtoare direct
i trebuie totui cuantificat o anumit mrime (e.g. scorul Apgar la
nou-nscui, gravitatea unei boli cuantificat ca uoar, moderat,
sever, coloraia pielii n anumite maladii, etc.)
Scale vizuale analogice folosite mai ales n studiile medicale, atunci
cnd subiectul este rugat s indice pe o scal (i.e. un segment cu o
anumit lungime dat) punctul care este considerat a ilustra cel mai
bine gradul de durere, de exemplu. Cu toate c este o reprezentare
foarte subiectiv, aproape imposibil de cuantificat numeric,
reprezint totui un mijloc de a msura un anumit fenomen.

2.4. Date cenzurate


Sunt cazuri n care o anumit observaie nu poate fi bine precizat.
De exemplu, n analiza supravieuirii, o tehnic clasic n statistic, care
studiaz dinamica timpului de supravieuire dup o anumit operaie sau
tratament, o parte dintre subiecii inclui n lotul de studiu decedeaz n
perioada de observaie, dar o alt parte dintre subieci supravieuiesc n
aceast perioad sau se retrag benevol i astfel momentul decesului nu mai
poate fi nregistrat. Un alt exemplu este atunci cnd se efectueaz anumite
msurtori i aparatul respectiv nu poate nregistra valori mai mici sau mai
mari dect scala sa. Rezumnd, n orice situaie n care o anumit dat
exist dar, din diferite motive, nu poate fi precizat clar, spunem c avem
de-a face cu date cenzurate.

2.5. Variabilitatea datelor. Modelul probabilist


Atunci cnd procesm datele n cursul analizelor statistice este
absolut necesar s existe aa numita variabilitate a lor. Prin variabilitate
nelegem orice fel de modificare care are loc ntr-o mulime de date,
indiferent de tipul lor, cu alte cuvinte variabilitatea este opusul constanei
datelor. Trebuie tiut faptul c nu se poate face analiz statistic pe
variabile care sunt constante. O bun parte a analizelor statistice clasice
(e.g. regresia) fac apel la legturile care exist ntre diferite date referitoare
la aceiai subieci, studiind modul cum variaia unora influeneaz variaia
altora (e.g. legtura dintre nlime i greutate, ntre factorii de risc i
probabilitatea declanrii unei maladii). Ori, dac un factor din analiza
statistic nu are variabilitate (i.e. este constant) atunci el este ca i
inexistent n analiz. Cu ct variabilitatea datelor este mai mare cu att
analiza statistic este mai bogat n rezultate consistente.
In cele expuse n acest capitol privind datele statistice, am accentuat
doar partea descriptiv a lor, fr a ncerca s le definim n context
probabilist. Deoarece statistica nu poate fi rupt de teoria probabilitilor,
care i ofer mijloacele de investigaie, este absolut necesar s definim
datele n acest context. S presupunem c avem la dispoziie o anumit
mulime de obiecte/subiecii (o aa-numit populaie statistic) i suntem
interesai de analiza principalelor lor caracteristici care reprezint, aa cum
am artat mai sus, date statistice (sau caractere statistice). ncercm acum
s definim, din punct de vedere probabilist noiunea de dat Statistic.
Matematic vorbind, prin dat (sau caracter) vom nelege o aplicaie
definit pe mulimea ce reprezint populaia i cu valori ntr-o anumit

mulime ce depinde de data respectiv. Mai mult, considernd un cmp de


probabilitate ( , , P), unde este chiar populaia considerat, iar este
o -algebr de pri ale lui (n cazul n care este finit, coincide
cu mulimea prilor lui ), data X a populaiei statistice este o
variabil aleatoare pe cmpul de probabilitate ( , , P), atunci cnd data
este numeric. O astfel de variabil aleatoare, din punct de vedere
probabilistic, mai este cunoscut, din punct de vedere statistic, ca variabil
statistic. In cazul n care X nu ia valori numerice, se poate ca n unele
cazuri, pe baza unor echivalri numerice a acestor valori, s privim pe X
tot ca pe o variabil aleatoare.

Exemplu.
1) Considernd ca populaie o clas de elevi, o dat (caracter)
referitoare la aceast populaie, notat X, poate fi reprezentat prin
nlimea elevilor, cu alte cuvinte prin variabila aleatoare X: R.
Pentru un elev A, avnd nlimea de 1, 75 cm, avem X (A) = 1, 75.
2) Considernd ca populaie pacienii dintr-o secie a unui spital, o dat
(caracter) referitoare la aceast populaie, notat X, poate fi reprezentat
prin glicemia pacienilor, adic variabila aleatoare X: R, astfel nct
pentru un pacient A avnd glicemia de 128, avem X (A) = 128.
n practic, de cele mai multe ori datele sunt stocate sub forma unei
matrice. Prin convenie, valorile variabilelor (atributelor/caracteristicilor)
sunt stocate pe coloan n timp ce observaiile (obiectele) sunt stocate pe
linii, crend astfel o baz de date.

Considernd m variabile (atribute) i n observaii (obiecte) asupra


lor, vom avea din punct de vedere matematic n vectori de dimensiune m;
notaia xik se refer la a i-a variabil (atribut/caracteristic observat) a
vectorului xk (observaia/obiectul numrul k).
observaia variabila 1 ... variabila i .. variabila m
x1

x11

xi1

x1m

x1k

xik

xmk

x1n

xin

xmn

xk

xn

Datele din tabelul de mai sus pot fi reprezentate sub forma unei
matrice X, cu n linii i m coloane:
x11

...
X = x1k

...
xn
1

...

xi1

...

... ... ...


... xik ...
... ... ...
... xin

...

x1m

...
xmk .

...
x mn

Exemplu.
O baz de date medicale conine datele unor pacieni, atributele acestora
fiind: numrul de consultaii pe an la care a fost supus pacientul -nr. cons.
(dat numeric discret), sex -S (dat nominal), vrsta -V, indicele masei

ponderale -IMC, glicemia -glyc, colesterolul -Ch, trigligeride -trigl (toate


considerate date numerice continue), gradul fumatului -gr F (dat
ordinal), i cele dou categorii/clase crora le aparin pacienii: pacient
hipertensiv - 1 sau pacient sntos - 2 (dat nominal). Prezentm
ilustrativ un eantion din aceast baz, format din 5 pacieni.

nr. cons S

V IMC glyc Ch trigl


30

gr F

clasa

92 286 349

fost fumtor

79 180 145

nefumtor

F 60

F 40 23,2

M 55 25.1 128 230 210 fumtor amator

M 65

29

110 295 310

fumtor nrit

F 58

27

95 260 230

fost fumtor

n vederea pregtirii pentru procesare cu ajutorul computerului, vom face


urmtoarele codificri, noile date fiind nominale:

- pentru feminin/F-0, pentru masculin/M-1;


- gradul fumatului: nefumtor -0, fost fumtor -1, fumtor
fumtor nrit -3;
- pacient hipertensiv 1 -1, pacient sntos 2 -0,
obinnd astfel urmtoarea matrice ataat datelor:

amator-2,

9
2

5
1

286 349 1 1
180 145 0 0
1 55 25.1 128 230 210 2 1

1 65 29 110 295 310 3 1


0 58 27
95 260 230 1 0
0 60 30
0 40 23.2

92
79

In final, trebuie subliniat faptul c alegerea unei metode statistice sau


a alteia este intim legat de tipul de date cu care se lucreaz. Exist
tendin din partea necunosctorilor, mai ales dintre cei care utilizeaz
necontrolat cu ajutorul computerelor programele statistice, s foloseasc
alandala tot felul de programe pentru datele de care dispun, fr s se
intereseze de tipul de date cerute. De multe ori programele respective nu
au o funcie de avertizare n acest sens i produc rspunsuri care nu au nici
o relevan att statistic ct i logic. Din fericire, programele
profesioniste, pe lng Help-ul obligatoriu, au i indicaii privind tipul de
date agreat (e.g. date numerice/date categoriale, date discrete/date
continue, ranguri, etc.).