Cursul I

Biostatistică - Cursul I
CURSUL I
INTRODUCERE, INDICATORI STATISTICI
1.Introducere
Statistica este asociată cu un anumit tip de prelucrare a informaţiilor din lumea înconjurătoare şi anume acel
tip de prelucrare care clasifică, centralizează informaţiile în tabele, şi grafice, grupează informaţiile,
descoperă legături între ele, descoperă eventuale cauzalităţi, analizează fenomene complexe. În plus,
statistica face şi generalizări ale unor ipoteze descoperite de obicei empiric. Chiar dacă nu avem o idee
precisă, cu toţii gândim despre această ştiinţă că nu operează cu informaţii referitoare la un pacient sau o
plantă sau un obiect sau la un număr foarte restrâns de astfel de entităţi. Ştim că statistica este ştiinţa care
prelucrează informaţii care se referă la un număr mare de entităţi cum ar fi pacienţi sau indivizi sănătoşi sau
sau plante sau obiecte de altă natură.
Utilitatea statisticii este pusă mai bine în evidenţă atunci când trebuie studiate fenomene complexe în care
intervin factori sau mărimi care se află în relaţii complexe ce nu pot fi descrise satisfăcător prin ecuaţii sau
formule, sau prin relaţii cantitative de dependenţă. De exemplu, în tehnică, dacă suntem la un moment dat
interesaţi de consumul de carburant al unui motor, există în mod sigur o determinare destul de exactă a
acestuia în funcţie de puterea motorului, tipul său, viteza de deplasare, şi alţi câţiva parametri. Cunoscând
parametrii de care depinde consumul, aplicăm o formulă şi obţinem consumul de carburant al acelui motor.
Ceea ce obţinem este valabil pentru orice motor de acelaşi tip şi care funcţionează în aceleaşi condiţii.
Atunci când vorbim de prelucrarea statistică a informaţiilor, folosim expresia “prelucrare a datelor”.
Informaţiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele,
prenumele, vârsta, sexul, afecţiunea şi celelalte informaţii despre un anume pacient, mărimea sau greutatea
unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea plantă.
Informaţiile referitoare la mai mulţi pacienţi sau indivizi sănătoşi, sau animale de experienţă, sau plante, sau
alte obiecte pe care le studiem, le vom numi tot date. Când ne referim la prelucrarea informaţiilor, ca scop
important al statisticii, vom spune prelucrarea datelor. Când vorbim despre înregistrarea pe calculator a
acestor informaţii vom spune înregistrarea datelor.
Astfel, statistica are ca unul din scopuri, înregistrarea şi prelucrarea datelor. Totuşi, nu orice tip de
înregistrare de date şi orice prelucrare, ţin de obiectul statisticii. Înregistrarea evenimentelor cosmice în
astronomie, înregistrarea facturilor în contabilitatea unei firme, înregistrarea poziţiei unui mobil în fizică, şi
alte înregistrări asemănătoare, nu sunt legate de statistică şi nu obligă la prelucraări de natură statistică.
Definiţie:
Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a fenomenelor de masă,
dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum şi
regularităţile sau legile care le guvernează.
Volumul unui fenomen de masă se referă la amploarea lui numerică, la numărul de indivizi cuprinşi sau
afectaţi de fenomenul repectiv. Astfel, o afecţiune foarte răspîndită ca HTA (Hipertensiunea Arterială
Esenţială), este un fenomen de un volum mai mare ca o afecţiune rară cum ar fi Sindromul Down.
Prin structură a unui fenomen de masă, înţelegem modul în care acesta afectează diferite categorii de
indivizi, cum ar fi în cazul studierii unei afecţiuni răspândite, structura afectării pe sexe, rase, religii, grupe
de vârstă, ocupaţie, zone geografice, etc. De asemeni, structura reflectă relaţiile de legătură între mărimile
prin care descriem fenomenul.
1
De exemplu, în cazul studierii legăturii între starea socială şi intenţiile de vot, structura presupune şi
descrierea diferitelor categorii de indivizi pe sexe, rase, stări sociale, ocupaţie, etc, cât şi legăturile între
acestea şi intenţia de vot, exprimată numeric, în procente, etc.
Prin dinamică a unui fenomen de masă, înţelegem modul cum evoluează acesta în timp. Conexiunea
fenomenelor este indicată de relaţiile de legătură şi, eventual, de relaţiile de dependenţă între ele.
De exemplu, fenomene economice pot influenţa evoluţia incidenţei unor afecţiuni în cadrul unei populaţii.
Anumite tendinţe de evoluţie a incidenţei unei maladii, sau de modificare a valorilor normale la pacienţii cu
o anumită afecţiune, pot căpăta caracter de regularitate. Statistica este cea care pune în evidenţă aceste
regularităţi sau legi, care sunt valabile numai la modul general, ca tendinţă, nu neapărat la fiecare individ în
parte. Tot ca exemplu, dacă ştim că o anumită fracţiune leucocitară este crescută în alergii, nu înseamnă
neapărat că fiecare alergic are acea fracţiune leucocitară crescută, ci că există numai o tendinţă în acest sens.
Definiţie:
Biostatistica este ştiinţa care se ocupă cu aplicarea metodelor statisticii în ştiinţele vieţii.
Astfel, toate capitolele importante ale statisticii ca: statistica descriptivă, teoria sondajelor, teoria estimaţiei,
teoria corelaţiei, regresiile, capitole care vor fi studiate sumar şi în acest curs, au aplicabilitate şi în ştiinţele
vieţii ca: medicina, biologia, psihologia, sau discipline mai înguste ca biochimia, biofizica, stomatologia,
fizioterapia, farmacologia, etc. Metodele cu aplicabilitate în ştiinţele vieţii au fost impulsionate în
dezvoltarea lor chiar de domeniul lor de aplicare. Astfel, capitolul statisticii care se ocupă cu studiul şi
estimarea supravieţuirii, are o aplicabilitate largă în medicină şi biologie şi dezvoltarea lui a fost influenţată
pozitiv de acest fapt. Aceasta deoarece medicina a avut mereu nevoie de metode mai perfecţionate, pe care
statistica a fost nevoită să i le pună la dispoziţie.
În multe situaţii, apar confuzii între două cuvinte care exprimă discipline diferite, şi anume între biostatistică
şi statistica medicală. Aceasta din urmă, este un capitol al celei dintâi, şi anume:
Definiţii:
Statistica medicală este ştiinţa care se ocupă cu aplicarea metodelor statisticii în medicină.
Biostatistica este ştiinţa care se ocupă cu aplicarea metodelor statisticii în toate ştiinţele vieţii,
ca medicină, psihologie, farmacie, agricultură, horticultură, etc.
Medicina modernă este de neconceput fără cercetarea medicală, iar un segment din ce în ce mai consistent al
acestei cercetări are la bază statistica. Nu se mai poate face cercetare de laborator sau clinică, iar rezultatele
să fie raportate doar prin comparări puerile între numărul de cazuri sau procente sau medii. Fără asigurarea
statistică, nici o cercetare nu are valoare. Acele simple comparări între valorile mediilor pot duce la
concluzii total greşite. Nici o revistă ştiinţifică medicală serioasă, de 30-40 de ani nu mai publică rezultate
neprelucrate statistic, diferenţe de medii între loturi, fără deviaţii standard şi teste de semnificaţie (cel puţin,
vezi cursul al şaselea).
***
Introducem câteva noţiuni specifice cu care operează statistica şi cu care vom lucra în cursurile ce urmează.
Fiind o ştinţă care nu lucrează cu fenomene strict deterministe, toate afirmaţiile statisticii se referă nu la
evenimente sau obiecte singulare ci sunt deduse prin observarea unei mulţimi cât mai cuprinzătoare de
obiecte sau fenomene. Nu se pot face generalizări pripite din studierea unui caz sau a câtorva cazuri şi este
destul de clar pentru oricine că o generalizare este cu atât mai valoroasă cu cât au fost observate un număr
mai mare de cazuri. Aici însă apare problema de a face o apreciere corectă a numărului de observaţii efectiv
realizate, raportat la numărul posibil de observaţii.
Dacă ne propunem să facem un studiu asupra unei afecţiuni foarte răspândite, cum ar fi hipertensiunea
arterială esenţială (HTA), concluzii valabile nu se pot trage decât pe baza unui număr de cazuri de cel puţin
câteva mii sau zeci de mii, dar în cazul unei maladii rare cum sunt unele din anomaliile cromozomiale de
exemplu, un astfel de număr de cazuri pur şi simplu nu poate fi găsit în aria de cercetare considerată, uneori
nici pe întregul glob. Oricum, în general vorbind, este bine ca, în limita posibilităţilor, studiul să se facă pe
un număr cât mai mare de indivizi.
2
1.1 Noţiunile de bază. Cea mai generală noţiune pe care trebuie să o discutăm este cea care se referă la
totalitatea cazurilor, elementelor, obiectelor care au în comun trăsătura sau proprietatea studiată de noi.
Definiţie:
Vom numi populaţie statistică o mulţime de elemente care au una sau mai multe însuşiri
comune şi care fac obiectul unei cercetări statistice.
De obicei, prin populaţie statistică, în mod empiric, înţelegem o mulţime de persoane umane:
 persoanele din judeţul Dolj care suferă de HTA, sau
 persoanele din judeţul Dolj de sex feminin care suferă de HTA, sau
 persoanele din România care suferă de cancer de colon şi care au fost operate, etc.
Cum de cele mai multe ori, loturile studiate trebuie comparate cu loturi de normali, ne vom mai referi şi la
populaţii ca:
 persoanele normale dintr-o arie geografică dată, sau
 persoanele de sex feminin din Dolj, sau
 copiii normali între 2 şi 14 ani, etc.
Exemplele de populaţii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar să se
considere aproape pentru fiecare nou studiu statistic o populaţie specifică la care se referă, numită populaţie
ţintă.
Pe de altă parte, de obicei în statistică, o populaţie nu este o mulţime de persoane. De exemplu, în studiile
demografice se iau câteodată ca elemente fundamentale grupuri sociale ca aşezări omeneşti sau instituţii,
intreprinderi, populaţia aşezărilor umane din România, populaţia şcolilor dintr-un judeţ, etc. Avem deci în
acest caz populaţii de grupuri socio-umane. Ele nu sunt alcătuite din indivizi umani ci din grupuri de indivizi
umani.
Mai mult, populaţiile pot să nu aibă o legătură directă cu indivizi umani ci mai degrabă indirectă, şi anume se
poate vorbi despre populaţii de evenimente (accidentele de circulaţie dintr-o arie geografică, accidentele
cardiace pe o perioadă anume de timp, etc) sau despre populaţii de măsurători (tensiunea arterială a unui
pacient considerată la intervale regulate de timp).
Vom avea deci ca tipuri mai importante de populaţii:
 Populaţii de indivizi umani (normali, afectaţi de o afecţiune, expuşi la un risc, etc)
 Populaţii de grupuri socio-umane (localităţi, şcoli, intreprinderi, spitale, etc)
 Populaţii de evenimente (la oameni, la animale de experienţă, la celule, etc)
 Populaţii de măsurători (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la
mitocondrii, etc).
Deci, când vorbim despre o populaţie, nu este vorba neapărat despre populaţia unei ţări sau oraş, adică
despre grupuri de oameni.
Indiferent despre ce tip de populaţie discutăm la un moment dat, unitatea fundamentală cu care avem de a
face este individul statistic.
Definiţie:
Vom numi individ statistic un element al unei populaţii statistice indiferent de natura acesteia.
Astfel noţiunile de individ uman şi de individ statistic nu se suprapun deoarece aşa cum rezultă din această
definiţie, individul statistic poate fi:
 persoană umană (individ sănătos, pacient),
 un grup socio-uman (o şcoală, o localitate, un spital, etc),
 un eveniment,
 o măsurătoare, etc.
Mai mult, nu orice individ uman poate fi şi individ statistic ci, pentru aceasta trebuie să fie cuprins într-o
populaţie statistică. Relativ la indivizii statistici, preocuparea fundamentală este studiul anumitor
3
caracteristici ale acestora, anume acele caracteristici care au legătură cu cea avută în vedere atunci când am
considerat populaţia statistică.
1.2 Caracteristici, variabile, tipuri de date, scale. Organismul uman, cel mai complex sistem existent în
natură, nu poate fi descris exact nici prin tomuri întregi de descriere în cuvinte şi nici prin numre oricât de
multe am folosi. Omul este capabil să descrie numai anumite trăsături sau proprietăţi ale organismului său.
Trebuie să fim conştienţi că deşi numărul de trăsături ale organismului pe care le studiază anatomia,
biochimia, biofizica, fiziologia şi toate celelalte discipline este enorm, niciodată nu vom fi capabili să
descriem exact organismul uman, căci numărul de trăsături de care am avea nevoie este practic infinit.
Trăsăturile sau proprietăţile organismului uman sunt denumite în statistică caracteristici şi sunt cuprinse în
categoria generală de date, aşa cum sunt descrise mai sus.
Definiţie:
Numim caracteristică o proprietate comună tuturor indivizilor dintr-o populaţie statistică
dată.
Caracteristicile sunt ceea ce în limbajul obişnuit înţelegem prin atribut, calitate. Atribute ce caracterizează
organismul uman şi prezintă interes medical, sunt extrem de multe.
Cele mai simple sunt cele antropometrice, adică înălţime, greutate, circumferinţa toracelui, circumferinţa
craniului, culoarea părului, a ochilor, constituţia corporală, şi multe altele.
Altele, caracterizează starea organismului ca fiziologică sau patologică şi sunt de obicei obţinute cu ajutorul
instrumentelelor sau analizelor de laborator, însă pot fi aprecieri subiective: tensiunea arterială (presiunea
arterială, de fapt), frecvenţa cardiacă, ritmul respirator, glicemia, calcemia, hemoglobina, lipemia,
colesterolemia, bilirubina, fosfataza acidă, creatinina, antigenul HBS, prezenţa albuminei în urină, culoarea
urinei, consistenţa ficatului, etc.
Din punctul de vedere al statisticii medicale, caracteristicile sunt de două tipuri fundamentale: cantitative şi
calitative.
 Caracteristicile cantitative sunt acelea care prin natura lor sunt măsurabile, adică pentru care există
unităţi de măsură şi o convenţie de măsurare general acceptată. În această categorie intră toate
constantele fiziologice, biochimice, biofizice, unele anatomice, care în general pot fi determinate
prin măsurători uzuale sau de laborator: înălţime, greutate, vârstă, glicemie, calcemie, hemoglobină,
număr eritrocite, forţă musculară, viteză de reacţie, nivel de inteligenţă (QI), dar şi mărimile
referitoare la celule, organite, sinapse, vezicule, membrane, etc. Ele sunt totdeauna exprimate cifric
într-un mod precis, obiectiv.
 Caracteristicile calitative, sunt cele care nu pot fi măsurate prin metode obiective, cantitative, ci se
exprimă descriptiv prin termeni calitativi: culoare, formă, consistenţă, aspect, etc. Caracteristicile
calitative nu au o unitate de măsură general acceptată şi deci nu pot fi exprimate cifric, ca rezultat al
unor măsurători. Ele sunt adesea subiective şi de obicei exprimate analogic şi nu numeric.
Variabile. Deşi sunt unele aspecte care se menţin constante la o aceeaşi specie, şi în particular la om, unele
se schimbă de la individ la individ, adică sunt variabile. Aşadar, atunci când indivizii statistici sunt oameni,
caracteristicile care se studiază sunt de multe ori variabile.
Definiţie:
O caracteristică care se schimbă de la individ la individ sau la acelaşi individ în timp sau
ca răspuns la condiţiile de mediu, de boală de medicaţie, etc, se numeşte variabilă.
***
Un alt criteriu de clasificare, şi cel mai important se referă la simbolurile pe care le folosim pentru a
reprezenta datele experimentale pe care dorim să le înregistrăm şi care sunt dependente de natura intrinsecă a
datelor. Aceasta înseamnă că, pentru înregistrarea datelor putem folosi fie numai numere (spunem că
înregistrăm date numerice), fie numai simboluri consacrate pe plan internaţional sau naţional, ori simboluri
convenite local (spunem că înregistrăm date nominale, sau date ordinale), fie simboluri amestecate cu
numere (caz în care spunem că înregistrăm date alfanumerice). Datele înregistrate ca numere sau prin
simboluri consacrate sau convenite se numesc scalate, în timp ce restul le numim alfanumerice.
4
Astfel, scala numerică va permite celui care înregistrează date să scrie numere reale sau întregi. Scala
ordinală şi cea nominală, scale asemănătoare, permit înregistrarea după coduri şi prescurtări. De exemplu,
grupa sanguină, stadiul evolutiv al unei afecţiuni maligne, tipul de afecţiune, tipul de tumoră, etc sunt de
obicei standardizate prin convenţii internaţionale la scară continentală sau mondială.
Scala numerică
Datele înregistrate pe scala numerică descriu acele caracteristici ale pacientului care sunt prin excelenţă
cantitative şi se exprimă prin numere întregi sau zecimale. De obicei este stabilită o margine superioară şi
inferioară pentru ele (nu putem spune că un pacient are temperatura mai mare ca 44 oC, de exemplu).
Măsurătorile pe scala numerică sunt de aşa natură încât o unitate pe scală are aceeaşi magnitudine pe întreaga
scală. De exemplu, înregistrarea greutăţii, presupune că o greutate de 40 kg, este de două ori mai mică decât
una de 80 kg, iar diferenţa de 1 kg este aceeaşi şi de la 40 kg la 41 kg, dar şi de la 80 kg la 81 kg.
Totuşi, scalele numerice nu permit totdeauna interpretări comparative. Astfel, este greşit să se spună că un
pacient cu hemoglobina Hb=8 este de două ori mai anemic decât unul cu Hb=16, bazându-ne pe faptul că
hemoglobina le cel de-al doilea are o valoare dublă. La fel cu glicemia, calcemia, tensiunea, colesterolemia şi
aproape toate celelalte analize de laborator exprimate numeric şi în general cu caracteristicile cantitative
exprimate pe această scală.
Pe scala numerică sunt reprezentate caracteristici cantitative continui şi caracteristici cantitative discrete. De
exemplu, numărul de naşteri sau numărul de avorturi la o pacientă se înregistrează numeric, discret, adică
din 1 în 1, neavând sens valori zecimale. Majoritatea analizelor de laborator însă, se înregistrează numeric,
prin numere zecimale, de obicei cu una sau două zecimale. În cazul înregistrării cu zecimale, se spune că se
foloseşte scala continuă.
Scala nominală
Datele înregistrate pe scala nominală descriu o caracteristică sau o variabilă pentru înregistrarea căreia se pot
folosi un număr finit de simboluri, alese la întâmplare sau prin convenţie, care reprezintă categoriile posibile,
exhaustiv şi mutual exclusiv. De exemplu, pentru grupa sanguină, simbolurile 0, A, B, AB sunt categorii
exhaustive (orice individ intră în exact una din ele) şi mutual exclusive (un individ nu poate intra în două
categorii în acelaşi timp) şi sunt date de tip nominal; Măsurătorile nominale constau în asignarea pacienţilor
la grupuri sau categorii. Nu este înregistrată nici o informaţie cantitativă şi nu există o ordine a categoriilor.
Pe scala nominală se înregistrează caracteristici calitative. Exemplu: preferinţe religioase, rasa, sexul, mod de
alimentaţie, tip de temperament, culoarea ochilor, a părului, etc.
Pe scala nominală, indivizii
ndivizii sunt împărţiţi în câteva clase:
 Exhaustive (fiecare individ aparţine unei singure clase)
 Mutual exclusive (nici un individ nu poate aparţine la două clase, simultan)
 Numele claselor sunt simbolice şi de obicei sunt fixate de practica medicală sau de convenţii
internaţionale, naţionale, locale
 Doi indivizi din aceeaşi clasă sunt echivalenţi pe scala considerată (chiar dacă din alte puncte de
vedere sunt diferiţi)
 Nu are sens să ordonăm clasele crescător sau descrescător după nici un criteriu
De exemplu, tot pe o scală nominală este bine să se înregistreze ocupaţia, starea civilă, tipul de afecţiune,
tipul de educaţie primită, etc. Pentru variabila ocupaţie,
ocupaţie, uneori este suficient să se aleagă numai câteva clase,
care ar putea fi intitulate: muncitor, intelectual, funcţionar, elev, student, pensionar, fără ocupaţie. Avem
astfel 7 clase. Trebuie să ne asigurăm că fiecare individ din cei pe care îi studiem, aparţine la una din aceste
clase. Evident nici unul nu aparţine la două clase în acelaşi timp. În ce priveşte starea civilă, cel mai simplu
exemplu de alegere a claselor este să luăm două: căsătorit şi necăsătorit.
necăsătorit. Uneori, se iau patru clase,
căsătorit, necăsătorit, divorţat şi văduv.
văduv. Se pot alege şi alte seturi de clase. Şi în acest caz, trebuie urmărit
ca fiecare individ să aparţină exact la una din clasele alese. Numele claselor este ales după dorinţă, numele
putând fi şi prescurtate pentru a economisi timp dacă trebuie înregistraţi un număr foarte mare de pacienţi.
De exemplu, în cazul ocupaţiilor, putem folosi prescurtările: munc, intel, func, elev, stud, pens, fără. fără. În
toate cazurile însă trebuie avut în vedere să nu apară situaţii în care se înregistrează odată cu nume complet al
clasei, altădată cu nume scurt, căci apar complicaţii.
5
Scala ordinală
Descriu o caracteristică pentru înregistrarea căreia se folosesc tot simboluri ce definesc categorii exhaustive
şi mutual exclusive, dar care sunt ordonate gradat, de obicei crescător. De exemplu, stadiul evolutiv în
anumite afecţiuni ca cele maligne (stadiul 0, 1, 2, 3 şi 4). Deosebirea faţă de caracteristicile nominale, deşi
pare neimportantă, conduce la principii diferite de tratare statistică şi de aceea, este important de stabilit dacă
o caracteristică o înregistrăm ca nominală sau ordinală. Măsurătorile pe scala ordinală sunt ordonate. Totuşi,
intervalele între două clase consecutive nu sunt în mod necesar egale. De exemplu, dacă un pacient apreciază
starea de confort indusă de un medicament contra astmului pe o scală de la 0 la 3, diferenţa între 0 şi 1 nu
este neapărat egală cu diferenţa între 1 şi 2, sau între 2 şi 3. De altfel nici nu s-ar putea descrie cantitativ
aceste diferenţe, ele sunt subiective şi lăsate la latitudinea observatorului care în exemplul de mai sus este
chiar pacientul. Nivelul 0 este ales absolut arbitrar, la fel de bine scala putea fi de la 3 la 6 sau de la -1 la 2.
Totuşi, este mai intuitiv să se înceapă în aceste cazuri de la nivelul 0. Tot astfel, în cazul stadiilor evolutive în
afecţiunile maligne stadiile sunt din ce în ce mai grave, dar diferenţa de gravitate nu este aceeaşi când trecem
de la un stadiu la altul.
Pe scala ordinală, indivizii
ndivizii sunt împărţiţi în câteva clase:
 Exhaustive (fiecare individ aparţine unei singure clase)
 Mutual exclusive (nici un individ nu poate aparţine la două clase, simultan)
 Numele claselor sunt simbolice şi de obicei sunt fixate de practica medicală sau convenţii
internaţionale naţionale, locale
 Doi indivizi din aceeaşi clasă sunt echivalenţi pe scala considerată (chiar dacă pot fi diferiţi din alte
puncte de vedere)
 Clasele pot fi ordonate crescător sau descrescător, dar diferenţele între clase nu exprimă cantităţi, nu
contează decât ordinea lor
A se observa că primele patru puncte sunt identice la scala ordinală şi respectiv, nominală. Singura diferenţă
este dată de posibilitatea ordonării claselor, care la cele ordinale nu este posibilă, în timp ce la cele
ordinale este posibilă.
Există o legătură între scala de măsurare şi metodele statistice folosite. De exemplu, este absurd să calculăm
media datelor nominale. Folosirea mediei pentru datele ordinale este încă controversată. Pentru calculul
mediei sau a altei statistici ce impune calcule, trebuie să avem date numerice.
1.3 Tabele de frecvenţă. Datele culese şi înregistrate pot conţine informaţii despre diverşi parametri care au
fost urmărite fie din necesitatea de a face un studiu anume fie, pur şi simplu pentru că urmărirea lor are
importanţă pentru indivizii la care au fost măsurate sau pentru cel care face studiul, adică pentru medic.
Tabelele din care este alcătuită o bază de date conţin datele nesistematizate, ele urmează de obicei o ordine
aleatoare, sau sunt ordonate după un criteriu cum ar fi cel alfabetic, sau în ordinea codurilor. Un exemplu, la
care ne vom opri ceva mai mult este cel din tabelul 1.1. Este un exemplu de tabel, care pentru simplitate nu
are dacât câteva linii, adică înregistrări, şi câteva coloane, pe care le vom numi câmpuri, cum se mai spune
în limbajul uzual pentru programarea pe calculator.
Tabelul este o mică parte dintr-un tabel mare în care au fost înregistraţi un număr de peste 230 de pacienţi cu
afecţiuni hepatice grave (ciroză hepatică, cancer hepatic, etc), trataţi de-a lungul timpului în clinica de boli
interne a Spitalului de Urgenţă din Craiova.
Înţelesul câmpurilor este evident pentru aproape toate (FO=Numărul foii de observaţie, Nume, Prenume,
Vârsta, Sex, Mediu, Diagcod.= Cod diagnostic, HAV= Dacă pacientul a suferit în trecut de hepatită acută
virală). Pe coloana HAV se observă că au fost înregistrate doar două posibilităţi: da = “pacientul a suferit de
HAV în trecut" şi nu pentru ceilalţi. În multe programe de calculator este indicată folosirea lui “Y” şi”N” în
loc de “da” şi “nu” (Y=yes, N=no, din limba engleză), deoarece aceste câmpuri sunt considerate de unele
programe câmpuri speciale, pe care noi le vom numi câmpuri de tip logic, şi sunt tratate prin procedee
speciale. Deci, vom numi câmpuri de tip logic, acele coloane pe care este natural ca datele să fie introduse
folosind “Da” şi “Nu”.
6
Tabelul 1.1. Modul de înregistrare a unor date despre pacienţi (nume fictive)
De multe ori, numărul de linii al unui tabel cu date brute, adică al unei baze de date, este atât de mare, de
ordinul sutelor sau miilor, încât înşiruirea elementelor unei serii de valori (de exemplu seria vârstelor), este
dificilă şi lipsită de semnificaţie.
Un mod util de clasificare a pacienţilor după vârste este clasificarea pe grupe de vârstă de 5 sau 10 ani şi
alcătuirea unui tabel în care în dreptul fiecărei grupe de vârstă să se înscrie numărul de pacienţi din grupa
respectivă, în acest fel obţinând de fapt o grupare mai sintetică a datelor. Iată cum arată distribuţia pe grupe
de vârstă a pacienţilor din baza de date de care am vorbit mai sus:
Tabelul 1.2 Tabelul de frecvenţă a vârstelor, pe grupe de vârstă de 10 ani, pentru 234 de pacienţi.
Nr. Frecvenţa
Frecvenţa, Nr. relativă,
pacienţi procentul
Clasa Fi fi Ficc Ficd ficc ficd
1 25 - 30 5 2.14% 5 234 2.14% 100.00%
2 30 - 35 6 2.56% 11 229 4.70% 97.86%
3 35 - 40 9 3.85% 20 223 8.55% 95.30%
4 40 - 45 26 11.11% 46 214 19.66% 91.45%
5 45 - 50 30 12.82% 76 188 32.48% 80.34%
6 50 - 55 50 21.37% 126 158 53.85% 67.52%
7 55 - 60 53 22.65% 179 108 76.50% 46.15%
8 60 - 65 32 13.68% 211 55 90.17% 23.50%
9 65 - 70 14 5.98% 225 23 96.15% 9.83%
10 70 - 75 5 2.14% 230 9 98.29% 3.85%
11 75 - 80 4 1.71% 234 4 100.00% 1.71%
Total 234 100%
Se observă că prin împărţirea frecvenţelor de apariţie ale vârstelor la numărul de pacienţi, se obţin
frecvenţele relative care se exprimă de obicei în procente.
Frecvenţele relative se calculează cu formula:
Este clar că prin adunarea frecvenţelor absolute, se obţine numărul total de indivizi din tabel, în cazul nostru
234:
7
De asemeni, prin adunarea frecvenţelor relative (sau valorilor lor exprimate în procente), se obţine 1 (sau
100%):
Pe coloana a cincia a tabelului de frecvenţe, apar aşa-numitele frecvenţe relative cumulate crescător (f icc).
Frecvenţa relativă cumulată crescător, de pe o anumită linie, este suma frecvenţelor relative din celulele din
coloana frecvenţelor relative, suma făcându-se de la începutul tabelului şi până la linia pe care se află
frecvenţa pe care o calculăm.
Astfel, vom avea pentru frecvenţe relative cumulate crescător, formulele:
 f1cc=f1=2,14
 f2cc=f1+f2=2,14+2,56=4,70
 f3cc=f1+f2+f3=2,14+2,56+3,85=8,55, şi aşa mai departe.
Aceste formule ne ajută să găsim procentul de indivizi care au valoarea din serie sub o limită dată. De
exemplu, în tabelul 1.2, avem 32,48%% din indivizi sub 50 de ani, deoarece în dreptul valorii 50 pe coloana
Vârsta, avem ficc=32,48% care se obţine prin cumularea tuturor procentelor vârstelor sub 50 de ani, inclusiv
50.
Să urmărim şi celelalte coloane şi să încercăm să le subliniem la fiecare din ele utilitatea. Mai întâi să
amintim că Fi, reprezintă frecvenţele absolute, sau numărul de indivizi care au vârstele cuprinse în limitele
claselor respective. Ficc, sunt frecvenţele absolute, cumulate crescător, adică se obţin după formulele:
De exemplu, F4cc = F1 + F2 + F3 + F4 = 5+6+9+26=46, aşa cum se poate vedea în linia a patra a tabelului,
pe coloana a cincia. Să remarcăm că aceste frecvenţe cumulează frecvenţele tuturor claselor, până la clasa
curentă, şi deci ele răspund la întrebări de tipul : “câţi indivizi mai tineri decât 45 de ani sunt în seria de
vârste”? Răspunsul se caută în dreptul clasei 40-45 ani, adică în a patra clasă, pe coloana Ficc : 46.
Frecvenţele de tipul Ficd au o semnificaţie analogă, cu diferenţa că se cumulează descrescător, la fiecare nouă
clasă se scade frecvenţa absolută a clasei precedente, iniţial plecându-se de la numărul total de indivizi din
lot, în acest caz, 234.
Frecvenţele relative fi, sunt, aşa cum am mai precizat, procentele fiecărei clase, luând întregul lot ca 100%, şi
se obţin ca raportul între frecvenţele absolute şi numărul total de indivizi din lot, apoi fiind înmulţite cu 100
pentru a se obţine procente. Frecvenţele ficc şi ficd, sunt obţinute pe acelaşi principiu ca şi Ficc şi Ficd, cu
diferenţa că s-au cumulat crescător şi respectiv descrescător, frecvenţele relative şi nu cele absolute.
În sfârşit, câteva cuvinte despre intervalele care constituie clasele. După cum se observă, din cauza faptului
că nu s-au înregistrat vârste decât numere întregi, clasele au o lungime uşor de stabilit în mod natural: 25-30,
30-35, etc. Indivizii de 30 de ani se numără în clasa 30-35 şi nu se numără în clasa 25 – 30.
În cazul variabilelor la care înregistrarea se face cu una sau două zecimale, se obişnuieşte ca acest lucru să se
reflecte în modul de alcătuire a claselor prin faptul că se ia la dreapta intervalului una sau două zecimale
egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru înregistrarea hemoglobinei, sau intervale care se termină în 99,
sau chiar 999 pentru alte variabile.
Strict matematic, acest mod de lucru nu este foarte corect, deşi este foarte practic. Poate să apară un caz în
care într-o bază de date s-au prevăzut intervalele [13 - 13,9] şi [14 - 14,9] şi după un timp ceva mai lung,
aparate mai specializate să dea un rezultat la o analiză de 13,92, care nu este încadrabil în nici una din clase.
Corect este ca, de exemplu, o clasă să fie reprezentată printr-un interval închis la stânga şi deschis la dreapta,
caz în care orice valoare ar apare ea este încadrabilă în exact una din clase.
De exemplu, dacă hemoglobina la o serie de valori este cuprinsă între 9,6 şi 15,9, clasele din 1 în 1 ar fi: [9 -
10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). În acest fel, fiecare valoare din serie va intra
exact în una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu conţine şi valoarea 10, care este
conţinută de clasa următoare, şi tot aşa pentru fiecare clasă.
8
Intervalele trebuie să acopere complet plaja posibilă de valori ale variabilei şi trebuie alese de aşa manieră
încât numărul de clase care rezultă să nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum
sunt datele distribuite să fie cât mai uşoară. Este recomandabil ca numărul de intervale pentru un astfel de
tabel statistic să fie de la câteva, pentru loturi de câteva zeci de indivizi, până la câteva zeci, dacă lotul este
foarte mare, de mai multe sute sau mii de indivizi.
De obicei, programele de calculator realizează aceste tabele după ce utilizatorul a furnizat lungimea clasei.
Pentru a nu ajunge în situaţii când un astfel de tabel are un număr total neindicat de clase, de obicei se
calculează lungimea aproximativă a unei clase în aşa fel încât numărul de clase să fie cel dorit. Acest lucru se
poate realiza dacă se caută cea mai mică şi cea mai mare valoare din seria de date (notate mai jos cu min şi
max), şi se ia ca lungime a unei clase, aproximativ rezultatul următorului calcul:
max min
L
nr . clase
De exemplu, pentru tabelul de mai sus, cel mai tânăr pacient are 26 de ani, iar cel mai vârstnic are 78, deci
pentru a obţine 6 clase (număr de clase indicat pentru vârste de adulţi), avem L= (78 - 26) / 6 = 8,6. Deci este
indicat să se ia clase de 10 ani, prin rotunjire. Dacă însă se doresc mai multe clase, să zicem 10, atunci
obţinem: L = (78 - 26) / 10 = 5,2 şi este indicat să se ia clase din 5 în 5 ani. Prima clasă va fi [25,30), iar
următoarele: [30, 35), [35, 40),….[75, 80).
Numărul de clase nu este neapărat 10, el se alege de fapt de către cel care face calculul, astfel ca să se piardă
cât mai puţină informaţie, dar şi numărul de clase să nu fie prea mare căci atunci luăm în considerare aspecte
prea nesemnificative.
Ca regulă generală, este bine să se reţină că:
 Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă tabele
cu 2-4 clase
 Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative
Întrucât cei care nu au experienţă nu ştiu cum să aleagă numărul de clase, recomandăm:
 Pentru câteva zeci de valori, să se aleagă 4 - 6 clase
 Pentru câteva sute de valori, să se aleagă între 8 şi 12 clase
 Pentru câteva mii de valori, să se aleagă peste 15 clase
Nu se recomandă folosirea a mai mult de 20 – 30 de clase decât în cazuri speciale, în studii cu multe mii de
cazuri. Nici mai puţin de 4 – 6 clase nu este recomandat să se folosească. Nu se recomandă folosirea acestor
tabele dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un
tabel de frecvenţă.
Alte exemple:
Dacă avem de clasificat într-un tabel de frecvenţă valorile pentru hemoglobină, iar minimul este 8,13 iar
maximul este 16,23, atunci, pentru a obţine 10 clase, vom face calculul:
În acest caz, vom rotunji la 1 şi vom lua clasele din 1 în 1, începând de la 8: [8, 9), [9,10), [16,17).
În cazul Imunoglobulinei G, din cei 234 de pacienţi din acelaşi lot ca cel pentru vârste de mai sus, valoarea
minimă a fost 112, în timp ce maximul a fost 900. Dacă dorim tot 10 clase, atunci calculul este
Vom lua clasele din 100 în 100, începând de la 100: [100,200), [200,300) …. [800,900), [900-1000).
Informaţia sintetizată într-un astfel de tabel este deosebit de utilă şi este de multe ori completată prin
reprezentarea grafică a ei care se face cu ajutorul histogramei. Se poate spune că sintetizarea informaţiei
conţinută de o serie de valori într-un tabel de frecvenţă, este primul pas în studiul datelor brute, adică aşa
cum au fost inregistrate.
9
2. Indicatori statistici
2.1. Serii de valori. Aşa cum s-a văzut în capitolul anterior, uneori este necesar să urmărim mai întâi o
singură variabilă numerică din multitudinea de variabile înregistrate într-un tabel de date. În acest caz, datele
numerice pe care le avem la dispoziţie sunt un simplu şir de numere asociate, fiecare din ele, unui individ.
Aceste şiruri de numere rezultate din datele culese le vom numi serii statistice sau serii de date sau serii de
valori.
Ceea ce trebuie urmărit în primul rând la o serie de valori este modul în care valorile din serie sunt
distribuite în plaja de valori între un minim şi un maxim, cum se distribuie în jurul mediei, care este tendinţa
centrală a seriei, care sunt valorile cel mai des întâlnite, etc.
Caracterizarea sintetică a unei serii de valori este dată de aşa numiţii indicatori statistici, între care media,
deviaţia standard, mediana, etc, indicatori pe care îi vom descrie în continuare.
Definiţie: Indicatorii statistici sunt numere reale, care sintetizează o parte din
informaţia conţinută de o serie de valori, dând posibilitata aprecierii globale a întregii
serii, în loc să ţinem cont de fiecare valoare din şir.
Aşa cum se va vedea în acest capitol, fiecare indicator urmăreşte să scoată în evidenţă proprietăţi diferite ale
şirului de valori.
Astfel, prin combinarea mai multor indicatori, obţinem informaţii relevante şi sintetice despre valorile
şirului. Dacă în locul şirului propriu-zis, folosim o serie de indicatori statistici, o parte din informaţie se
pierde. Totuşi, de obicei se pierde ceea ce este nesemnificativ, accidental, indicatorii statistici reţinând doar
esenţailul. De aici şi utilitatea şi importanţa lor în statistică.
În cele ce urmează, valorile din şirul de numere ce constituie o serie de valori le vom nota cu
X: x1, x2,....... xn, sau Y: y1,y2,…..yn
sau notaţii asemănătoare folosind alte litere ale alfabetului.
De exemplu, în loc să spunem că cele 10 valori ale glicemei la cei zece pacienţi dintr-un lot sunt: 88, 97, 103,
89, 93, 105, 98, 105, 88, 103, vom scrie în loc de Glicemie litera X, şi în locul fiecărui număr din cele zece,
simbolurile x1, x2,….x10. Deci, x1 ţine locul lui 88, x2 pe cel al lui 97, etc. Aceste notaţii le folosim pentru a
uşura înţelegerea formulelor de calcul pentru unii indicatori.
Valori extreme, amplitudine
Cel mai uşor de căutat şi de înţeles ca semnificaţie sunt indicatorii Minim şi Maxim care sunt cei ce ne
indică plaja de valori pe care se întinde seria de valori. Minim este cea mai mică valoare din serie, iar
Maxim este cea mai mare.
Amplitudinea absolută, este diferenţa dintre maximul şi minimul unei serii de valori şi ne dă informaţii
despre lărgimea plajei de valori pe care se întind datele din serie (vezi figura 1.1). O serie de valori cu o
amplitudine mare indică o plajă de valori întinsă datorată fie unei dispersii sau împrăştieri mari a datelor, fie
simplului fapt că sunt multe valori. Dacă două serii de valori au acelaşi număr de valori, dar una are o
amplitudine mai mare, atunci valorile ei sunt mai împrăştiate.
Figura 1.1. Indicatorii medie, minim, maxim, amplitudine absolută şi amplitudine relativă.
De cele mai multe ori, valorile minimă şi maximă dintr-o serie nu se înscriu în limitele de normalitate, ceea
ce nu înseamnă neapărat că seria conţine valori anormale. Totuşi, de obicei, cele mai îndepărtate câteva
valori, atât cele mai mici cât şi cele mai mari trebuie verificate pentru a ne asigura că nu este vorba de date
eronate.
10
De exemplu, deşi se consideră că valorile normale pentru latenţa semnalului nervos pe nervul optic între
stimularea retinei şi răspunsul cortical sunt situate aproximativ între 90 ms şi 115 ms, un eşantion de indivizi
sănătoşi poate să producă o serie de valori care are şi una sau câteva excepţii. De aceea, din 20 sau 30 de
valori, una poate fi 88 ms iar alta 117 ms, majoritatea fiind însă între 90 şi 115 ms.
2.2. Valori medii. Media aritmetică a unei serii de valori. Este un indicator simplu şi în acelaşi timp foarte
sintetic, fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele. Se notează cu litera m sau,
dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu sau . Formula este
cea cunoscută:
(1.1)
Definiţie:
Media aritmetică unei serii de valori este raportul dintre suma valorilor seriei şi numărul lor.
Iată câteva din proprietăţile fundamentale ale mediei:

 Media este cuprinsă între cea mai mică şi cea mai mare dintre valorile din şirul de valori. Deşi avem
tentaţia să o considerăm pe undeva pe la mijlocul intrevalului dintre minim şi maxim, ea se află de
multe ori mai aproape de capetele acestui interval.
 Dacă valorile din şir sunt egale între ele, atunci media este egală cu fiecare din ele. Astfel, dacă
vârstele a 5 pacienţi sunt toate 45 de ani, media lor de vârstă este tot 45.
 Deşi sintetizează valori concrete, media este o mărime abstractă. De exemplu, când se calculează
numărul mediu de copii ai familiilor dintr-o arie geografică dată, se poate obţine un număr mediu de
1,34. Aceasta nu înseamnă bineînţeles decât o valoare abstractă. Tot astfel, la o firmă, prin venit
mediu de 112$, nu înţelegem că neapărat unul sau mai mulţi angajaţi au ca venit această sumă.
Media calculată cu formula de mai sus se numeşte media aritmetică, pentru a o deosebi de alte tipuri de
medii pe care le prezentăm mai jos. Media aritmetică este cea mai importantă dintre medii şi cea mai
folosită în practică. De aceea, de obicei i se mai spune simplu medie.
Media este indicatorul care arată tendinţa centrală a seriei de valori, şi de obicei arată unde tind
datele să se aglomereze. De cele mai multe ori, valorile din serie sunt situate în majoritate în apropierea
mediei, iar o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei. O situare a valorilor din
serie faţă de medie se poate observa din aşa-numitul grafic punctual de dispersie, din care este dat un
exemplu în figura 1.2
Figura 1.2. Cele mai multe valori sunt de obicei mai apropiate de medie.
Dar nu totdeauna datele din seria de valori se situează preponderent în apropierea mediei. Mai rar, şi
oarecum mai forţat, ne putem întâlni şi cu situaţii în care datele din serie se situează preponderent în stânga şi
dreapta, departe de medie şi doar o mică parte dintre ele se situează aproape de medie, aşa cum se observă în
figura 1.3.
11
Figura 1.3. Uneori, cele mai multe valori sunt sub medie şi peste medie, destul de departe de aceasta. În
seriile de mai sus, avem aceeaşi medie, dar este evident că nu avem aceeaşi situaţie. Valorile din seria de jos
sunt mai împrăştiate.
Astfel, dacă în acelaşi lot sunt cuprinşi indivizi hipertiroidieni şi hipotiroidieni, şi se măsoară la fiecare
concentraţia hormonului tiroidian T4, vom observa că hipotiroidienii au preponderent valori în stânga mediei,
cei mai mulţi destul de departe de medie, iar hipertiroidienii au preponderent valori în dreapta, tot departe de
medie.
De fapt într-un asemenea caz, în zona centrală lipsesc exact ceea ce am spune că sunt normalii, adică indivizi
care au valori pentru T4 uşor peste medie şi uşor sub medie, şi care nu au fost incluşi într-un astfel de lot.
Evident că un eşantion aşa de eterogen nu este folosit prea des în statistică pentru că, aşa cum vom vedea, în
acest caz este foarte indicat să se constituie două eşantioane distincte pentru cele două categorii de pacienţi.
Totuşi, asemenea situaţii, chiar dacă de obicei nu sunt indicate şi sunt puţin artificiale, există. Situaţia de mai
sus este ilustrată în figura 1.3.
O formulă simplificată pentru media aritmetică este dată de:
unde cu n am notat numărul de valori diferite din seria de valori, iar F1, F2, ...,Fn sunt frecvenţele de apariţie
în serie ale valorilor x1, x2, ...,xn.
Această formulă se spune că este formula pentru media ponderată. Nu trebuie să credem că media
ponderată calculată cu formula de mai sus şi media aritmetică calculată cu formula (1.1), sunt indicatori
diferiţi. Ambele medii sunt în realitate identice. Media ponderată se calculează de obicei mai simplu şi deci
nu reprezintă decât o formă mai simplă de calcul al mediei aritmetice.
Prin faptul că este un indicator extrem de fidel al tendinţei centrale al unei serii statistice, media este un
indicator extrem de mult utilizat în statistică. Media aritmetică are dezavantajul că este sensibilă la valori
extreme fie foarte mici, fie foarte mari. Adăugarea unei singure valori (sau a câtorva) mult mai mari decât
celelalte, modifică sensibil media aritmetică.
De asemenea, dacă datele sunt distribuite în jurul mediei puternic asimetric, media îşi pierde din puterea de a
evoca tendinţa centrală, în aceste cazuri fiind mult mai utilă mediana (vezi mai jos).
2.3. Împrăştiere. Valorile dintr-o serie de valori pot fi mai aglomerate în jurul mediei sau mai dispersate,
adică la distanţe mari de medie. Un mod de a măsura aceste abateri de la medie este să se facă diferenţa între
toate aceste valori şi media lor. Unele abateri vor fi pozitive, altele negative. Ele nu pot fi adunate, deoarece,
prin adunare dau suma 0.
Dispersia. Un mod de a ocoli faptul că suma abaterilor absolute este 0, este ridicarea la pătrat a acestora
înainte de a fi adunate, pentru a face să dispară semnele negative la unele şi pozitive la altele.
Suma obţinută, ar trebui împărţită la numărul de abateri pentru a se obţine o medie. În realitate, din motive
teoretice foarte bine întemeiate, dar mai greu de explicat în cuvinte simple, împărţirea se face la n-1 şi nu la
n. Motivul pentru care se face acest lucru va fi înţeles mai bine în contextul unor noţiuni enunţate la cursul
despre teoria estimaţiei. Valoarea care se obţine astfel se numeşte dispersie şi este un indicator al gradului de
împrăştiere al seriei. Dispersia se notează cu D şi are formula:
12
După cum se observă, numărătorul fracţiei din definiţia dispersiei este cu atât mai mare cu cât abaterile
individuale de la medie sunt mai mari şi deci este natural să considerăm că o valoare mare a dispersiei arată o
împrăştiere mare a valorilor din serie.
De fapt, este bine de reţinut că:
 La medii aproximativ egale, este mai împrăştiată seria cu dispersia mai mare.
 La dispersii aproximativ egale, este mai împrăştiată seria cu media mai mică.
Dispersia are dezavantajul că se exprimă cu unităţile de măsură ale valorilor din serie, ridicate la pătrat, şi are
în general valori foarte mari comparativ cu abaterea medie. De exemplu, dacă valorile din serie se măsoară în
mg/l, atunci dispersia se măsoară în mg 2/l2, ceea ce este în mod evident extrem de nenatural. În plus, dacă
abaterile absolute au o medie, de exemplu în jurul lui 10, dispersia va avea o valoare în jurul lui 100, adică
exagerat de mare în comparaţie cu abaterile absolute. De aceea se mai foloseşte un alt indicator, numit
abatere standard care este radicalul dispersiei.
Abaterea standard. Se notează cu  şi are formula:
sau
Acest indicator se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată şi este un
indicator foarte fidel al împrăştierii seriei. Abaterea standard, nu are dezavantajele dispersiei, adică unitatea
de măsură este aceeaşi cu a valorilor din serie, şi, are o valoare comparabilă cu abaterile individuale de la
medie.
Exemplu de calcul:
Să presupunem că am măsurat zilnic tensiunea arterială sistolică la doi pacienţi timp de 10 zile, obţinând
pentru fiecare următoarele valori:
 170, 180, 160, 180, 190, 190, 180, 190, 170, 190, pentru primul pacient şi
 160, 170, 190, 160, 190, 190, 200, 180, 180, 180, pentru al doilea.
Lăsând la o parte studiul modului cum evoluează de la zi la zi tensiunea pacienţilor, care este bineînţeles
importantă, să ne propunem să determinăm care are tensiunea cu valori mai împrăştiate, indiferent de
evoluţia în timp.
Notând prima serie cu X iar pe a doua cu Y se constată uşor că ambele au media 180 (datele nu sunt reale, au
fost deliberat alese ca să simplifice calculele). Atunci, vom avea pentru abaterile de la medie şi pentru
pătratele lor următoarele valori:
 xi - X : -10, 0, -20, 0, 10, 10, 0, 10, -10, 10. X = 180.
 yi - Y : -20, -10, 10, -20, 10, 10, 20, 0, 0, 0. Y = 180.
 (xi - X ) : 100, 0, 400, 0, 100, 100, 0, 100, 100, 100.
2
 (yi - Y )2 : 400, 100, 100, 400, 100, 100, 400, 0, 0, 0.

Deci vom avea pentru Dx:
şi cu un calcul absolut analog, Dy = 1600 / 9 = 177,7. Se observă că, în timp ce abaterile de la medie sunt de
ordinul zecilor, dispersiile sunt de ordinul sutelor, ceea ce este destul de nenatural, şi în plus, după cum am
mai spus, unitatea de măsură este cu totul alta.
Pentru abaterile standard, vom avea:
13
calculele fiind făcute cu aproximaţie. Deci, este ceva mai împrăştiată seria Y.
De fapt, este bine de reţinut că:
 La medii aproximativ egale, este mai împrăştiată seria cu deviaţia standard mai mare.
 La deviaţii standard aproximativ egale, este mai împrăştiată seria cu media mai mică.
Ce se întămplă însă dacă mediile şi deviaţiile sunt foarte diferite? Atunci o bună apreciere se obţine dacă se
foloseşte raportul deviaţiei standard faţă de medie, exprimat în procente, acest raport fiind un alt indicator al
împrăştierii valorilor dintr-o serie. Acest indicator se numeşte coeficient de variaţie.
Coeficientul de variaţie. Este raportul dintre deviaţia standard şi medie, atunci când media este diferită de 0
şi se exprimă în procente:
Pentru seriile de mai sus, coeficientul de variaţie este mai mare pentru cea mai împrăştiată, adică pentru cea
cu deviaţia standard mai mare:
 C.V.x= 10,5 / 180 = 0,058 = 5,8 %.
 C.V.y = 13,3 / 180 = 0,073 = 7,3%.
Totuşi, seriile de mai sus sunt comparabile cu ajutorul abaterilor standard, deoarece au aceeaşi medie, şi, aşa
cum s-a văzut, la medii egale sau aproximativ egale, are valorile mai împrăştiate seria cu abaterea standard
mai mare.
Aprecierea cu ajutorul coeficientului de variaţie se face mai ales atunci când două serii de valori au medii
mult diferite şi deviaţiile standard pot să nu ne dea o indicaţie suficient de utilă. De exemplu, măsurând
latenţa şi amplitudinea semnalului electric pe nervul optic la 120 de pacienţi cu scleroză multiplă, s-au
obţinut următoarele rezultate:
 Latenţa medie: 113,6
 Abaterea standard a latenţei: 14,7
 Amplitudinea medie: 2,68
 Abaterea standard a amplitudinii: 2,03
Dacă dorim să apreciem împrăştierea valorilor din cele două serii, abaterile standard nu ne sunt de ajutor.
Într-adevăr, latenţa are o abatere standard mult mai mare decât amplitudinea, dar şi media latenţei este cu
mult mai mare decât aceea a amplitudinii. De aceea, în acest caz, doar coeficientul de variaţie ne permite o
apreciere corectă a împrăştierilor, în vederea comparării lor:
 Pentru latenţă:
 Pentru amplitudine:
Se observă că valorile amplitudinii sunt cu mult mai împrăştiate decât cele ale latenţei. Acest fapt se
datorează atât unei variabilităţi biologice mai mari la amplitudine decât la latenţă, cât şi unei variabilităţi
datorate aparatelor de măsură, care măsoară latenţa cu mai multă precizie, în timp ce la măsurarea
amplitudinii, erorile de măsurare sunt mai mari.
Coeficientul de variaţie este cel mai fidel indicator al împrăştierii unei serii statistice, dar are şi el un
inconvenient, este cu atât mai fidel cu cât mediile sunt mai depărtate de 0.
La medii foarte apropiate de 0 îşi pierde din fidelitate şi nu este indicat să fie folosit. Acest lucru se întâmplă
mai ales atunci când valorile din serie sunt şi negative şi pozitive, şi când, din acest motiv, media poate fi
aproape de 0.
14
2.4. Indicatori de asimetrie. Atunci când valorile unei serii sunt distribuite nesimetric în jurul mediei, acest
fapt este imposibil de surprins cu ajutorul indicatorilor de dispersie. De aceea, s-au introdus indicatori care să
pună în evidenţă şi acest aspect al seriilor de valori: excentricitatea, sau asimetria. Va trebui să ţinem cont
atât de numărul de valori care sunt în stânga şi în dreapta mediei, cât şi depărtarea lor faţă de medie.
Mediana. Este un indicator al tendinţei centrale, şi anume este valoarea de mijloc, într-o serie de valori.
Definiţie:
Mediana este acea valoare dintr-o serie de valori, pentru care exact jumătate din ele sunt mai
mici decât ea, iar jumătate mai mari.
Altfel spus, este valoarea măsurată pentru individul din mijloc, dacă indivizii pe care s-au făcut măsurătorile
ar fi ordonaţi creascător. Pentru o înţelegere mai uşoară, să luăm un exemplu cu numai 10 înregistrări:
tensiunea arterială maximă la un bolnav în 10 zile:
150, 160, 160, 170, 160, 170, 150, 160, 170,160.
Dacă se aşază aceste valori într-un şir crescător, obţinem:
150, 150, 160, 160, 160, 160, 160, 170,170,170.
În acest caz, mediana se ia între a cincia şi a şasea valoare din acest şir ordonat, adică 160. Dacă aceste două
valori de mijloc diferă, se ia media lor aritmetică. Dacă numărul de măsurători este impar atunci madiana
este chiar valoarea de mijloc, care în acest caz este unică.
De fapt, mediana este importantă în primul rând la serii de valori cu foarte multe înregistrări, caz în care se
poate lucra direct pe tabelul de frecvenţă, sau chiar pe tabelul pe clase.
Pentru a exemplifica modul cum se caută mediana pe tabelul de frecvenţă, vom lua tabelul 1.3, în care sunt
centralizate vârstele a 234 de pacienţi, fiecare valoare a vârstei având o anumită frecvenţă absolută Fi, o
frecvenţă relativă fi şi o frecvenţă relativă cumulată crescător, ficc (vezi mai sus, pentru amănunte).
Tabelul 1.3. Vârstele a 234 de pacienţi centralizate într-un tabel de frecvenţă
Valoarea medianei se culege din coloana întâi, a vârstelor, dar pentru a şti care valoare trebuie aleasă, trebuie
să privim pe ultima coloană, a frecvenţelor cumulate, f icc, în dreptul frecvenţei cumulate de 50%. Se observă
că, pe coloana frecvenţelor cumulate, nu există frecvenţa de 50%, dar, există frecvenţa de 47,9%, care este
prea mică, şi frecvenţa de 53,8%, care este prea mare. În acest caz, mediana se citeşte din dreptul primei
frecvenţe cumulate crescător care depăşeşte 50%, în cazul nostru, în dreptul frecvenţei de 53,8%, şi pe
coloana Vârsta citim 55 ani. Deci, vârsta mediană este 55 ani.
Deci, vom spune că jumătate dintre pacienţi au vârstele cuprinse între 26 şi 55 ani şi jumătate au vârstele mai
mari decât 55 ani. Această alegere este permisă în cazul acesta al vârstelor care se înregistrează cu valori
întregi.
15
Mediana este un indicator al tendinţei centrale, ca şi media, dar oferă mai puţină informaţie decât aceasta din
urmă. La distribuţiile echilibrate, la care valorile din serie se dispun aproximativ simetric în stânga şi în
dreapta mediei, media şi mediana sunt foarte apropiate, deci folosirea medianei este superfluă. Dacă însă
mediana este mult în stânga sau în dreapta mediei, distribuţia se zice că este excentrică.
De exemplu, venitul median este mai informativ decât venitul mediu deoarece distribuţia veniturilor într-o
populaţie este foarte excentrică, fiind foarte mulţi indivzi cu salarii foarte mici şi foarte puţini indivizi cu
salarii foarte mari.
Cuartilele. În mod asemănător cu căutarea medianei, se poate pune problema căutării unor valori pentru care
să avem un sfert din valorile seriei mai mici şi respectiv, mai mari.
Definiţie:
Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile
seriei sunt sub Q1 şi 75%, peste.
Pentru tabelul de frecvenţe 1.3, cuartila Q 1 se caută în dreptul frecvenţei relative cumulate crescător de 25%.
În tabel găsim procentul de 24,4% şi în dreptul lui vârsta de 47 de ani, precum şi frecvenţa de 29,9 şi în
dreptul ei vârsta de 48 de ani. Vom lua tot vârsta care corespunde primului procent peste 25%, adică 48 de
ani.
Definiţie:
Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile
seriei sunt sub Q3 şi 25%, peste.
Pentru tabelul 1.3, cuartila Q3 se ia din dreptul frecvenţei relative cumulate crescător de 75%. Poate fi luată
cu aproximaţie, 60 ani.
Care este utilitatea medianei şi cuartilelor în aprecierea simetriei distribuţiei? Pentru a sublinia
utilitatea indicatorilor Q1 şi Q3, să considerăm şirul vârstelor:
 cel mai tânăr pacient,
 Q1,
 Vârsta mediană,
 Q3,
 cel mai în vârstă pacient.
Pentru tabelul 1.3, obţinem şirul: 26 ani, 48 ani, 55 ani, 60 ani, 69 ani.
 Se observă că sfertul (25%) pacienţilor cei mai tineri este situat în zona 26 - 48 de ani adică
într-o plajă de 22 de ani.
 Sfertul următor, este intre 48 şi 55 de ani, adică pe un interval de doar 7 ani.
 Al treilea sfert este situat între 55 şi 60 de ani, adică pe 5 ani,
 Cei mai în vărstă 25 % din pacienţi sunt între 60 şi 69 de ani, pe un interval de 9 ani.
Putem să spunem că vârstele pacienţilor se distribuie uşor asimetric, deoarece:
1. Sfertul cel mai tânăr se distribuie pe o plaja de 22 de ani, iar cel mai în vârstă pe o plajă de doar 9
ani.
2. Sfertul al doilea se distribuie pe 7 ani, iar al treilea doar pe 5 ani.
În cadrul laboratorului, alte exemple vor arăta utilitatea acestor indicatori.
Să mai observăm că mediana este într-un fel “cuartila de 50%”, adică Q 2. Se spune că există trei cuartile: Q1,
mediana, Q3.
Decile Uneori, loturi mai mari de multe sute de indivizi trebuie urmărite foarte atent în ceea ce priveşte
modul cum sunt distribuite valorile şi de aceea s-au introdus indicatorii decile, care sunt de o acurateţe mai
bună decât cuartilele. Sunt 9 decile, fiecare corespunzând unui procent de 10%, 20%, ... 90% din lot,
asemănător cu cuartilele. Decila 5, sau de 50%, este de fapt mediana.
16
Centilele (percentilele) sunt mai rar folosite, în studii pe mii de cazuri, de obicei de un interes mai larg,
naţional, internaţional, în studii epidemiologice, şi sunt corespunzătoare procentelor de 1%, 2%,...99% din
lot. Centila de 25% este cuartila Q1, cea de 50% este mediana, iar cea de 75% este cuartila Q 3. Centilele de
10%, 20%,….90%, sunt cele nouă decile. Centilele dau o imagine destul de exactă a distribuţiei valorilor
dintr-o serie de valori foarte mare. Nu are rost să calculăm centile pentru serii cu câteva sute de valori, pentru
că erorile sunt prea mari şi imaginea obţinută este deformată.
2.5. Alţi indicatori statistici
Eroarea standard Este indicatorul care arată cât de precis aproximează media calculată din valorile unei
serii, media populaţiei din care a fost extras eşantionul sau lotul pe care s-au făcut măsurătorile.
Are formula:
unde este deviaţia standard calculată folosind valorile seriei, iar n este numărul de valori din serie.
Se observă că este direct proporţională cu deviaţia standard a valorilor din serie şi deci, cu cât valorile din
serie sunt mai dispersate, cu atât valoarea indicatorului Err va fi mai mare. Proporţionalitatea este directă,
adică o creştere a deviaţiei standard, conduce la o creştere proporţională a lui Err.
Valoarea lui Err, este influenţată după cum se vede din formulă şi de numărul de valori din serie, în sensul
că, este cu atât mai mică cu cât sunt mai multe valori în serie, dacă deviaţia standard nu se schimbă. Err
scade în funcţie de numărul de valori din serie, nu însă proporţional.
De exemplu, dacă n creşte de 4 ori, Err scade de două ori: două serii de valori, X şi Y, au aceeaşi deviaţie
standard egală cu 2,3, iar numărul de valori în seria X este 25 iar cel al seriei Y este 100. Atunci erorile
standard pentru cele două serii sunt:
Deoarece este considerată a fi abaterea standard a mediei (calculată pe valorile măsurate pe un lot), faţă de
media întregii populaţii, i se mai spune uneori «abaterea standard a mediei de la medie», ceea ce este
bineînţeles un simplu joc de cuvinte şi nu trebuie luat în serios atunci când este întâlnit.
Modul. Dintre frecvenţele absolute apărute într-un tabel de frecvenţe, una este maximă. Clasa sau valoarea
corespunzătoare acestei frecvenţe maxime se numeşte mod. Modul este de obicei un indicator al tendinţei
centrale. În tabelul 1.2. modul este clasa de la 55 la 60 de ani, cu frecvenţa absolută 53. De obicei,
frecvenţele absolute au tendinţa de a creşte către mod, după care urmează o descreştere continuă. Modul este
deci o indicaţie relativă la maximul frecvenţelor absolute. Sunt însă distribuţii la care se înregistrează creşteri
şi descreşteri astfel încât pot apare două moduri sau chiar mai multe. Aceste distribuţii sunt mai rare şi au un
caracter cu totul special. Ele se numesc distribuţii bimodale sau multimodale, după caz.
Este un indicator care poartă în el puţină informaţie despre datele seriei. Modul este mult influenţat de
fluctuaţii aleatoare şi nu este prea recomandat pentru a aprecia tendinţa centrală a valorilor dintr-o serie. Mai
mult, unele distribuţii pot fi multimodale, caz în care modul nu mai indică prea mult despre tendinţa centrală.
Excentricitate. (Engl. Skew, Skweness). Este un indicator al asimetriei şi este luat de diverşi autori cu
diverse formule. Distribuţiile cu excentricitate pozitivă sunt mai des întâlnite decât cele cu excentricitate
negativă. În medicină, parametrii fiziologici sunt în majoritate modificaţi în diverse afecţiuni în sensul că au
valori peste normal. Astfel, tensiunea arterială o vom întâlni la valori normale, crescute sau scăzute. Cum
indivizi cu valori foarte mari, vom întâlni cu atât mai rar cu cât valoarea este mai mare, distribuţia va avea o
coadă spre dreapta. La fel la mulţi alţi parametric cum ar fi bilirubina, transaminazele, colesterolul, lipemia,
etc.
Totuşi, vom întâlni şi parametri care se distribuie cu asimetrie stânga în patologii: hemoglobina, calcemia,
sodiul ionic, etc. Hemoglobina, de exemplu, se poate distribui cu frecvenţă mai mare la valori relativ
17
normale şi cu frecvenţe din ce în ce mai mici pe măsură ce coborâm la valori mai mici. Chiar dacă avem o
patologie de tip anemie, ne aşteptăm ca frecvenţa în jurul a 9-10 să fie mai mare decât frecvenţa în jurul a 7-
8, frecvenţă care ne aşteptăm să fie foarte mică.
Excentricitatea unei serii de valori x1, x2,…..xn, se calculează cu formula:
Cu cât o distribuţie este mai simetrică cu atât sk tinde la 0. Ca o regulă generală, la distribuţiile cu
excentricitate pozitivă, media este mai mare decât mediana. Evident, media este mai mică decât mediana la
distribuţiile cu excentricitate negativă. Există cazuri rare în care regula de mai sus nu este valabilă.
Sunt multe alte formule pentru alţi coeficienţi de excentricitate şi când vorbim despre excentriciatte, trebuie
să menţionăm la ce coeficient de excentricitate ne referim. Uneori se foloseşte un coeficient de asimetrie care
măsoară diferenţa dintre medie şi mediană, eventual raportată la abaterea standard sau la intervale
intercuartilice( Q3 - Q1). Indiferent ce formulă se foloseşte, o excentricitate egală cu zero, sau foarte apropiată
de zero, este un indiciu al simetriei repartiţiei valorilor din serie. Din contră, excentricităţi mult diferite de 0,
peste 0,15 -0,20, sau mai jos de -0,15 -0,20 sunt indicii ale asimetriei. Dăm mai jos, cu titlu facultativ, câteva
formule pentru coeficienţi de excentricitate.
Boltirea (facultativ). Boltirea este un indicator care se bazează pe lungimea cozilor unei distribuţii. Cele cu
cozi relativ mari se numesc leptocurtice iar cele cu cozi relativ mici se numesc platicurtice (vezi figura
1.4). Formula de calcul a boltirii este:
Aşa cum se va vedea în capitolul despre repartiţii, boltirea este un indicator util în aprecierea apropierii
repartiţiei de repartiţia normală. Distribuţiile din figura 1.4 au aceeaşi medie, aceeaşi dispersie, aproximativ
aceeaşi excentricitate dar diferă mult ca boltire.
Figura 1.4. Distibuţie leptocurtică şi distribuţie platicurtică.

2.6. Clasificarea indicatorilor
Indicatorii statistici poartă în ei, fiecare, o anumită cantitate de informaţie, din seria de va lori pentru care au
fost calculaţi. Aşa cum s-a văzut în paragrafele precedente, unii indicatori ne dau informaţii despre tendinţa
centrală a valorilor din serie, alţii ne dau informaţii despre împrăştierea valorilor, alţii ne dau indicaţii despre
simetria valorilor din serie, boltirea ne dă indicaţii despre lungimea cozilor distribuţiei, etc.
Informaţia oferită de indicatorii statistici este redundantă, în sensul că, de exemplu, împrăştierea valorilor din
serie este indicată şi de dispersie şi de abaterea standard şi de amplitudinea absolută şi de coeficientul de
variaţie, etc. Totuşi, fiecare din ei aduce o mică informaţie specifică, deci, nu ne putem lipsi de unul sau altul
dintre indicatorii statistici. Uneori trebuie folosiţi unii dintre indicatori, fiind cei mai eficienţi, alteori trebuie
folosiţi alţii.
18
Pentru a avea o ideie despre modul cum trebuie folosiţi indicatorii statistici, ei sunt clasificaţi în câteva
categorii mai importante, categorii care vor fi exemplificate mai jos, insistând pe aceia care sunt cei mai
importanţi, restul fiind indicatori mai rar folosiţi, numai în cazuri speciale.
Indicatori ai tendinţei centrale. Cei mai importanţi indicatori ai tendinţei centrale sunt media, mediana şi
modul. Media indică tendinţa centrală atunci când seria de valori este repartizată simetric în jurul ei şi când
valorile nu au o dispersie exagerat de mare. În cazul seriilor de valori distribuite foarte asimetric, tendinţa
centrală nu mai este indicată de către medie, ci de către mediană.
Modul, este un indicator al tendinţei centrale, la seriile unimodale, adică atunci când în tabelul de frecvenţe
există un singur maxim. Dacă avem o serie multimodală, modul îşi pierde calitatea de indicator al tendinţei
centrale.
Indicatori ai împrăştierii. Folosiţi mai des în practică, şi deci mai importanţi, sunt dispersia, abaterea
standard şi coeficientul de variaţie.
Abaterea standard este indicatorul folosit cel mai des pentru aprecierea împrăştierii, dar atunci când mediile
diferă mult, este mai util coeficientul de variaţie. Dispersia este folosită ca măsură a împrăştierii în testele
statistice (vezi capitolul dedicat testelor statistice).
Indicatori ai asimetriei. Mediana, cuartilele şi excentricitatea sunt cel mai mult folosite pentru aprecierea
asimetriei valorilor dintr-o serie. De fapt, mediana se foloseşte în combinaţie cu media pentru aprecierea
asimetriei. O mediană mult diferită de medie indică asimetrie puternică, iar o mediană foarte apropiată de
medie indică o tendinţă spre simetrie.
Cuartilele, se folosesc în combinaţie cu mediana şi indicatorii minim şi maxim, pentru aprecierea simetriei.
Indicatorii statistici fundamentali. Sunt indicatorii care poartă în ei cea mai mare cantitate de informaţie
din informaţia conţinută de seria de valori.
La seriile de valori distribuite relativ simetric, indicatorii statistici fundamentali sunt media şi deviaţia
standard. În capitolul dedicat repartiţiilor, se va vedea că, dacă o serie de valori are o repartiţie normală şi
are suficient de multe valori, cei doi indicatori, poartă în ei aproape toată informaţia. Astfel, dacă o serie de
valori de acest tip are media şi deviaţia standard , scrierea încetăţenită este
La seriile distribuite asimetric, deşi se consideră ca indicatori fundamentali tot media şi deviaţia standard,
sunt mai utile mediana şi cuartilele. În acest caz, este încetăţenită scrierea medianei M şi a cuartilelor Q1 şi
Q3 în forma M [Q1; Q3]. De exemplu, dacă o serie puternic asimetrică are mediana 2,45, iar cuartilele sunt
Q1=1,54 şi Q3=6,23, acest fapt se precizează astfel: 2,45 [1,54; 6,23].
3. Chestiuni de examen:
1. Stadiul evolutiv al unei maladii maligne este indicat să fie înregistrat prin simbolurile 0, I, II, III, IV, adică
scala folosită este:
A. Alfanumerică
B. Numerică
C. Ordinală
D. Nominală
2. Consistenţa ficatului este o caracteristică a organismului uman care se înregistrează:

A. Numeric, adică folosind numere
B. Ordinal, adică folosind simboluri ce urmează o gravitate
C. Nominal, adică folosind simboluri care nu au o ordine de gravitate
D. Numeric, adică folosind simboluri ce urmează o gravitate
3. Grupa sanguină este o caracteristică ce trebuie înregistrată:

A. Alfanumeric
B. Numeric
C. Ordinal
D. Nominal
4. Media unei serii de valori numerice este:
19
A. Suma valorilor împărţită la numărul lor
B. Mai mare decât valoarea minimă din serie
C. Mai mică decât valoarea maximă din serie
D. Un indicator al tendinţei centrale a valorilor seriei
5. Media unei serii de valori numerice are următoarele proprietăţi:

A. Este egală cu cea mai mică valoare din serie
B. Dacă schimbăm o valoare din serie, mărind-o, media se schimbă, mărindu-se
C. Dacă schimbăm o valoare din serie, mărind-o, media se schimbă, micşorându-se
D. Dacă ştergem o valoare din serie, media râmîne nemodificată
6. Media unei serii de valori numerice este un indicator al:

A. Tendinţei centrale a valorilor seriei
B. Împrăştierii valorilor seriei
C. Plaja de valori între care sunt cuprinse valorile seriei
D. Media nu este indicator statistic
7. Dispersia unei serii de valori numerice este un indicator al:

A. Tendinţei centrale a valorilor seriei
B. Împrăştierii valorilor seriei
C. Plaja de valori între care sunt cuprinse valorile seriei
D. Simetriei distribuţiei valorilor seriei în jurul mediei
8. Dispersia unei serii de valori numerice are printre dezavantaje:

A. Se măsoară cu unitatea de măsură a valorilor seriei, ridicată la pătrat
B. Are valori prea mari, comparativ cu abaterile individuale de la medie
C. Indică şi tendinţa centrală a valorilor seriei
D. Nu se poate calcula cu exactitate
9. Abaterea standard unei serii de valori numerice are printre avantaje:

A. Se măsoară cu unitatea de măsură a valorilor seriei
B. Are valori comparabile cu abaterile individuale de la medie
C. Indică şi tendinţa centrală a valorilor seriei
D. Nu se poate calcula dacă dispersia este negativă
10. Dacă două serii de valori au aproximativ aceeaşi medie, atunci:

A. Este mai împrăştiată cea cu dispersia mai mare
B. Este mai împrăştiată cea cu abaterea standard mai mică
C. Sunt la fel de împrăştiate
D. Nu se pot compara împrăştierile cu ajutorul dispersiei în acest caz
11. Dacă două serii de valori au medii foarte diferite, atunci:

A. Este mai împrăştiată cea cu dispersia mai mare
B. Este mai împrăştiată cea cu abaterea standard mai mare
C. Nu se pot compara nici cu ajutorul dispersiei şi nici cu ajutorul abaterii standard
D. Au aceeaşi împrăştiere
12. Dacă media unei serii de valori este 10 şi dispersia 4, atunci coeficientul de variaţie este:
A. 40%
B. 20%
C. 80%
D. 10%
13. Dacă mediile a două serii de valori sunt foarte diferite, iar abaterile standard sunt tot foarte diferite,
atunci este mai împrăştiată :
A. Cea cu coeficientul de variaţie mai mare
B. Cea cu raportul dintre abaterea standard şi medie mai mare
20
C. Cea cu coeficientul de variaţie mai mic
D. Împrăştierile celor două serii de valori nu se pot compara
14. Mediana unei serii de valori numerice este:

A. Egală cu media
B. Un grafic
C. Un număr
D. Un tabel de frecvenţă
15. Mediana unei serii de valori numerice este:

A. Valoarea pentru care jumătate din valorile seriei sunt mai mari şi jumătate mai mici
B. Valoarea situată la mijloc, între minimul seriei şi maximul seriei
C. Valoarea cea mai frecvent întâlnită printre valorile seriei
D. Un indicator al excentricităţii valorilor seriei
16. Dacă o serie de valori are în componenţă 21 de numere, atunci, pentru aflarea medianei, se ordonează
valorile crescător şi se ia:
A. Valoarea a 11-a din şirul ordonat
B. Media între valorile a 10 şi a 11-a
C. Media între valorile a 11 şi a 12-a
D. Valoarea a 10-a din şirul ordonat
17. Dacă o serie de valori are în componenţă 24 de numere, atunci, pentru aflarea medianei, se ordonează
valorile crescător şi se ia:
A. Valoarea a 12-a din şirul ordonat
B. Media între valorile a 11-a şi a 12-a
C. Media între valorile a 12-a şi a 13-a
D. Valoarea a 13-a din şirul ordonat
18. Cuartila întâi a unei serii de valori este:

A. Valoarea din seria ordonată situată la 25% din numărul de valori al seriei
B. Valoarea din seria ordonată situată la 75% din numărul de valori al seriei
C. Valoarea numerică pentru care un sfert din valorile seriei ordonate sunt mai mici
D. Valoarea numerică pentru care un sfert din valorile seriei sunt mai mici
19. Cuartila a treia a unei serii de valori este:

A. Valoarea din seria ordonată situată la 25% din numărul de valori al seriei
B. Valoarea din seria ordonată situată la 75% din numărul de valori al seriei
C. Valoarea numerică pentru care un sfert din valorile seriei ordonate sunt mai mici
D. Valoarea numerică pentru care trei sferturi din valorile seriei ordonate sunt mai mari
20. Referitor la indicatorii decile, este adevărat:

A. Avem exact nouă decile
B. Avem exact 99 de decile
C. Decila 50 este mediana
D. Decila a treia este mediana
21. Indicatorii statistici fundamentali sunt:

A. Dispersia şi media
B. Media şi abaterea standard
C. Abaterea standard şi mediana
D. Mediana şi cuartilele
22. Indicatorii de dispersie (sau de împrăştiere) sunt:

A. Amplitudinea, media, dispersia şi mediana
B. Abaterea standard, media, dispersia şi mediana
C. Amplitudinea, media, dispersia şi abaterea standard
21
D. Abaterea standard, dispersia şi coeficientul de variaţie
23. Care din următorii indicatori statistici ajută la aprecierea asimetriei:

A. Mediana, media şi excentricitatea
B. Mediana, cuartilele şi excentricitatea
C. Mediana, cuartilele şi media
D. Mediana, dispersia şi excentricitatea
24. Indicatorii statistici pentru tendinţa centrală a valorilor unei serii de valori sunt:
A. Media, dispersia şi mediana
B. Media, abaterea standard şi modul
C. Media, dispersia şi excentricitatea
D. Media, mediana şi modul
25. O populaţie statistică poate fi alcătuită din:

A. Indivizi umani
B. Evenimente
C. Grupuri socio-umane
D. Măsurători
26. Formula mediei

27. Formula dispersiei
28. Formula deviaţiei standard
29. Formula coeficientului de variaţie
30. Definiţia mediei
31. Definiţia medianei
32. Definiţia cuartilei Q1
33 Definiţia cuartilei Q3
22

Cursul I

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursul I

Încărcat de

Drepturi de autor:

Formate disponibile

Biostatistică - Cursul I

Iată câteva din proprietăţile fundamentale ale mediei:

 (yi - Y )2 : 400, 100, 100, 400, 100, 100, 400, 0, 0, 0.

Tabelul 1.3. Vârstele a 234 de pacienţi centralizate într-un tabel de frecvenţă

Figura 1.4. Distibuţie leptocurtică şi distribuţie platicurtică.

2. Consistenţa ficatului este o caracteristică a organismului uman care se înregistrează:

3. Grupa sanguină este o caracteristică ce trebuie înregistrată:

4. Media unei serii de valori numerice este:

5. Media unei serii de valori numerice are următoarele proprietăţi:

6. Media unei serii de valori numerice este un indicator al:

7. Dispersia unei serii de valori numerice este un indicator al:

8. Dispersia unei serii de valori numerice are printre dezavantaje:

9. Abaterea standard unei serii de valori numerice are printre avantaje:

10. Dacă două serii de valori au aproximativ aceeaşi medie, atunci:

11. Dacă două serii de valori au medii foarte diferite, atunci:

14. Mediana unei serii de valori numerice este:

15. Mediana unei serii de valori numerice este:

18. Cuartila întâi a unei serii de valori este:

19. Cuartila a treia a unei serii de valori este:

20. Referitor la indicatorii decile, este adevărat:

21. Indicatorii statistici fundamentali sunt:

22. Indicatorii de dispersie (sau de împrăştiere) sunt:

23. Care din următorii indicatori statistici ajută la aprecierea asimetriei:

25. O populaţie statistică poate fi alcătuită din:

26. Formula mediei

S-ar putea să vă placă și