Sunteți pe pagina 1din 256

Cursuri

1. Arhitectura unui calculator personal i funcionarea sa .................................. 7


2. Sistemul de operare i aplicaii pentru calculatoare personale ..................... 22
3. Elemente de teoria probabilitilor .................................................................. 49
4. Elemente de biostatistic ................................................................................... 78
5. Internet ................................................................................................................ 93
6. Sisteme de gestiune a bazelor de date ............................................................. 120
7. Alte distribuii continue. Teste de bonitate .................................................... 136
8. Eantionarea ..................................................................................................... 148
9. Testarea de semnificaie statistic .................................................................. 161
10. Analiza varianei i teste neparametrice ....................................................... 182
11. Prelucrarea sunetelor i imaginilor ............................................................... 197
12. Structuri de date, arbori de decizie, reprezentarea cunotinelor............... 212
A1. Teoria informaiei ..........................................................................................
A2. Inteligena artificial ......................................................................................
A3. Data Mining .....................................................................................................
A4. Legislaia n domeniul TI&C ........................................................................

225
234
248
259

Cursul 1. Arhitectura unui calculator personal i funcionarea sa


Informaia medical, caracterizat prin extrem complexitate i incertitudine, se
deosebete fundamental de informaia cu care se opereaz n alte domenii ale tiinei.
Informatica medical, la fel ca i bioinformatica sau alte domenii nrudite, a putut fi
creat odat cu apariia calculatoarelor, ns dezvoltarea substanial este constatat abia
dup apariia calculatoarelor personale i generalizarea folosirii lor. Informatizarea aparaturii
medicale a avut loc i are loc n continuare n mod accelerat.
Nu numai operarea unui calculator personal i stpnirea softului general aferent, ci i
lucrul ntro reea de calculatoare trebuie s fie nsuite de ctre medic.
Cursul introductiv are ca scop familiarizarea cu noiunile fundamentale ale domeniului
privind componena unui calculator, ct i cu unele noiuni de informatic teoretic.
Coninutul acestui curs este urmtorul:
1.1. Introducere ................................................................................................................. 8
1.2. Arhitectura unui calculator personal .......................................................................... 8
1.3. Memoria intern ....................................................................................................... 11
1.4. Intrri i ieiri ........................................................................................................... 12
1.5. Alfabete, codificri, limbaje .................................................................................... 14
1.6. Funcionarea calculatorului ...................................................................................... 16
1.7. Forme geometrice i grafeme .................................................................................. 17
1.8. Coduri ...................................................................................................................... 18
1.9. Fonturi ...................................................................................................................... 20
Adrese web utile:
www.computerhistory.org
www.webopedia.com
unicode.org
www.fonts.com

1.1. Introducere
Termenul PC deriv din personal computer, despre care se presupune c este folosit
de ctre un singur utilizator, n opoziie cu mainframe computer folosit simultan de multe
(sute, chiar mii) de persoane.
Astzi un PC poate fi folosit pentru a efectua o sumedenie de operaiuni, mai simple cum
ar fi scrierea de scrisori sau chiar cri, inerea evidenei afacerilor, jocuri, dar i mai
complexe cum ar fi auxiliare ale medicilor n activitile lor specifice.
S specificm unii termeni utilizai n activitile computerizate.
Orice PC are o memorie permanent; aadar orice dat introdus n computer poate fi
stocat aici pentru exploatare ulterioar. Spunem c salvm datele n acea memorie.
Evident, dac datele au fost stocate anterior, utilizatorul poate s le regseasc i s le
proceseze. Datele regsite pot fi editate, adic modificate sau chiar distruse.
Deoarece fiecare PC are un monitor, rezultatele procesrii datelor fie c sunt
intermediare, sau sunt finale/definitive pot fi monitorizate/afiate pe ecran.
n caz c la PC este conectat o imprimant, rezultatul final poate fi imprimat pe hrtie.
Iar dac PC-ul este ataat unei reele, datele din memoria sa pot fi transferate n memoria
altui PC (conectat).
Succesul impresionant al calculatoarelor personale a condus la o cretere exponenial a
industriei softului, prin perfecionarea continu a programelor de prelucrare de cuvinte, a
instrumentelor grafice, a programelor de distracie i educaionale, a realitii virtuale.
Tendina spre miniaturizare i compacitate a condus la invenia computerelor handheld
cum sunt organizatoarele, notebook-urile, comunicatoarele de e-mail.
Structura lor permite pe de o parte accesul wireless (fr fir) la Internet, iar pe de alt
parte recunoaterea scrisului de mn.
O alt tendin actual este cea de convergen a telefoanelor mobile i calculatoarelor .

1.2. Arhitectura unui calculator personal


Ce este un calculator? Rspuns simplu: un sistem electronic automat capabil s prelucreze
date, ce reprezint informaii, la viteze ce depesc foarte mult posibilitile creierului
uman.
Calculatoarele prelucreaz datele prin intermediul unor seturi de instruciuni (sau
comenzi) denumite programe sau aplicaii, create de programatori.
Indiferent de tipul su, un calculator este compus din urmtoarele module principale,
denumite uniti:
8

1. Unitatea Central de Prelucrare (Central Processing Unit), format din Unitatea


Aritmetic-Logic (UAL) i Unitatea de Comand i Control (UCC) este creierul
calculatorului. Este componenta capabil s efectueze calculele i care supervizeaz
operaiunile efectuate de ctre toate celelalte module.
2. Memoria este compus n mod esenial din dou componente:
a) memoria de lucru cunoscut de obicei ca RAM (Random Access Memory) este
volatil, acest lucru nsemnnd c datele sunt stocate (sau memorate) pe termen
scurt (pn cnd date noi sunt suprascrise peste cele vechi, sau pn la repornirea
calculatorului);
b) memoria permanent este memoria unde pot fi stocate permanent datele. Este
denumit i memorie extern, de obicei pe suport magnetic sau optic.
3. Unitatea de intrare permite preluarea informaiei de ctre un calculator.
Dispozitivele (echipamentele) de intrare sunt acele dispozitive prin intermediul crora
utilizatorul poate introduce informaiile sale n vederea prelucrrii lor. Exemple de
dispozitive de intrare: tastatura, mausul, camera video, microfonul, scanerul etc.
4. Unitatea de ieire are rolul de a afia sau de a transmite rezultatele obinute.
Echipamentele de ieire permit vizualizarea rezultatelor prelucrrii datelor. Exemple:
monitorul, imprimanta, plotterul, boxele sau ctile etc.
Termenul hardware provine din limba englez i se refer la componena fizic a unui
calculator, iar termenul software se refer la aplicaiile sau programele ce se execut pe un
calculator.
Tehnologia actual permite construcia de dispozitive electronice care s exprime n mod
distinctiv dou stri certe (nchis sau deschis, pornit sau oprit, apsat sau ridicat, 0
sau 1) fiind mult mai dificil i costisitor de realizat dispozitive care s prezinte 3 sau mai
multe stri certe distincte. Din acest motiv, calculatoarele folosesc n interior date
reprezentate convenional prin secvene de 0 i 1. Pentru numere aceasta nu nseamn altceva
dect utilizarea sistemului binar de numeraie.
Pentru a stoca (memora), prelucra, prelua sau transmite date se utilizeaz urmtoarele
uniti de msur:
bit. Denumirea vine de la binary digit (cifr binar). Bitul este unitatea pentru
msurarea informaiei (mai precis, a cantitii de informaie coninut n mesaje);
Byte. Un byte este definit ca memoria necesar pentru stocarea unui caracter
(ASCII extins). Byte-ul i multiplii si sunt utilizai n mod curent pentru a
exprima capacitatea unei memorii, capacitatea de stocare a unui suport magnetic
(dischet, disc fix, CD-ROM etc), dar i pentru a exprima dimensiunea fiierelor.
n mod convenional, un byte este simbolizat prin litera B.
Cantitile de date prelucrate de calculatoarele actuale sunt mari; acesta este motivul
pentru care sunt folosii multiplii ai byte-ului. Aceti multipli sunt:
1 KB (kilobyte) = 1024 B,
1 MB (megabyte) = 1024 KB = 1046576 B,
1 GB (gigabyte) = 1024 MB,
1 TB (terabyte) = 1024 GB,
1 PB (petabyte),
1 HB (exabyte).
(Menionm c 1024 = 210. Vom ntlni i alte puteri ale lui 2: 16 = 24, 256 = 28, dar i
4096 = 212. 65536 = 216.)
Primele calculatoarele personale (PC - Personal Computer) au fost produse de ctre firma
Apple Computer n anul 1977. Pe aceste calculatoare erau executate, la timpul respectiv,
programe proiectate i realizate de ctre specialitii firmei Apple. Patru ani mai trziu firma
9

de calculatoare IBM a lansat IBM-PC. Dar, la timpul respectiv preurile erau mari, memoria
de lucru era redus, iar dotarea lor era foarte srac, primele calculatoare nedispunnd nici
mcar de un hard disc pentru stocarea datelor; n privina aplicaiilor ce puteau fi rulate pe
aceste sisteme de calcul, ele nu existau. Fr programe, calculatoarele sunt inutilizabile.
Programul cu cea mai mare importan, ce n mod obligatoriu trebuie rulat (executat) pe
un calculator, este sistemul de operare, el constituind limbajul comun de dialog ntre om i
calculator. Mergnd pe ideea c PC-urile nu vor cunoate niciodat un volum mare de
vnzri, firma IBM nu s-a preocupat s proiecteze un sistem de operare pentru acestea i a
cedat aceast sarcin unei companii tinere i necunoscute la momentul respectiv. Compania
se numea Microsoft i astzi sistemele sale de operare ruleaz pe majoritatea calculatoarelor
personale din ntreaga lume.
Privind un calculator personal clasic, putem distinge ca principal component hardware
unitatea de sistem, gzduit ntro carcas. Pe scurt, carcasa conine n interior placa de
baz, pe care se afl unitatea central de prelucrare i memoria (RAM), precum i alte plci
de extensie i cel puin un disc fix, de asemenea conine i dispozitive pentru
citirea/scrierea discurilor compacte/optice.
Pe panoul frontal al carcasei se afl un buton POWER (pentru controlul alimentrii cu
curent electric) eventual i alte butoane i LED-uri. Pe panoul din spatele carcasei se gsesc
porturi seriale (COM, USB), porturi paralele (LPT) i alte conectoare pentru dispozitive
externe (monitor, tastatur, maus).
Insistm asupra faptului c n interiorul carcasei se afl placa de baz (motherboard), pe
care se afl n mod uzual unitatea central de prelucrare i de care se leag toate celelalte
componente interne sau externe ale sistemului de calcul.
Iniial unitatea central de prelucrare a fost proiectat i lansat de firma Intel, care a
rmas n continuare un nume cunoscut i apreciat. UCP mai este denumit i
(micro)procesor. Dar, odat cu sporirea popularitii calculatoarelor personale, au aprut
alte firme concurente, ce au lansat pe pia procesoare compatibile cu cele produse de Intel la
un pre redus; AMD este doar unul dintre cele mai cunoscute nume de productori de
procesoare destinate calculatoarelor personale.
Caracteristicile de baz pentru o unitate central de prelucrare sunt:
tipul procesorului (exemple istorice: 8088, 80286, 386, 486, Pentium, Pentium 4 etc.).
Astzi ntlnim Pentium Dual Core, Celeron, Core 2 Duo sau Core 2 Quad produse de Intel,
Athlon 64 X2 produs de AMD, etc.;
frecvena maxim a ceasului (clock rate), msurat n megaHertzi (exemple istorice:
4.77 MHz la microprocesoarele 80286, 100 MHz la primele procesoare Pentium, 233 MHz,
400 MHz, 1000 MHz = 1 GHz, 3 GHz la procesoarele Pentium 4).
S menionm c un procesor, indiferent de mrimea i tipul su, conine unitatea
aritmetic-logic (UAL), care este un ansamblu de circuite electronice capabil s efectueze
operaiile de calcul, precum i o memorie ultrarapid sub forma unor regitri. Regitrii au
rolul de a conine numerele nainte de a fi adunate sau nmulite, pot conine adrese ale
unor celule de memorie, etc.
Transferul de date ntre componentele unitii centrale de prelucrare i celelalte
componente se realizeaz prin magistral (bus). Magistrala este compus din mai multe
tronsoane, de limi de 8, 16, 32 sau 64 de bii. n general, n momentul de fa
calculatoarele sunt echipate cu procesoare pe 64 de bii, dar pentru a-i exploata capacitatea
de prelucrare pe 64 de bii este necesar ca i tronsoanele magistralei s aib limi
corespunztoare, este necesar de asemenea ca programele care funcioneaz pe calculator s
fie proiectate corespunztor.
n figura urmtoare prezentm exteriorul unui procesor i organizarea sa intern.
10

1.3. Memoria intern


La calculatoarele personale ntlnim diverse tipuri de memorie, respectiv medii de stocare
temporar a datelor:
a) ROM (Read Only Memory) este o memorie permanent. Aici sunt stocate date
referitoare la componena fizic a calculatorului (tipul de disc i caracteristicile sale, data i
ora, tipul unitii de dischet, locul de unde se ncarc sistemul de operare, etc.) ct i un
program care poate fi lansat n execuie la pornirea calculatorului. Acest program i setul de
date referitor la componen formeaz BIOS-ul (Basic Input Output System), adic sistemul
fundamental de control al intrrilor i ieirilor. Utilizatorul nu poate accesa datele din ROM
dect prin intermediul programului BIOS Setup care permite i configurarea hardware a
echipamentului de calcul.
b) RAM (Random Access Memory) este o memorie volatil, a crei capacitate iniial era
de sub un megabyte. (Astzi este n jur de 1 GB.) n RAM sunt plasate toate datele folosite
la un moment dat.
Mai precis, n RAM sunt plasate urmtoarele:
instruciuni ale sistemului de operare,
instruciuni ale programelor necesare comunicrii cu dispozitivele periferice (drivers),
instruciuni ale programelor de tip TSR (Terminate and Stay Resident) care, dup ce
sunt lansate n execuie, rmn stocate,
instruciuni ale programelor de lucru curente,
datele de lucru curente.
c) Memoria cache este un modul de memorie scump plasat iniial pe placa de baz.
Memoria cache (se citete ca, termenul provine din limba francez) este folosit n scopul
mririi vitezei de lucru, fr a scumpi excesiv costul calculatorului. Timpul de acces la datele
din memoria cache este cu mult mai redus dect timpul de acces datele din RAM (i
incomparabil mai redus dect timpul de acces la datele stocate pe un disc). n prezent poate
fi gsit, cel puin n parte, n interiorul procesorului.
1.4. Intrri i ieiri
Placa video (video card) mpreun cu monitorul fac parte din ansamblul video al
echipamentului de calcul.
De obicei diagonala ecranului monitorului se exprim n inch (" = oli). Tradiional
ntlnim valori de 15" ( 38 cm) sau 17" ( 43 cm). ns dimensiunile fizice ale ecranului nu
sunt att de importante precum este rezoluia monitorului care precizeaz numrul de
coloane i de linii formate din pixelii ce apar pe ecran i rata de remprosptare a
imaginii. Prezint importan de asemenea modelul de colorare a pixelilor.
11

Calitatea unei imagini colorate este considerat bun n caz c rezoluia este de cel
puin 1024 (coloane) 768 (linii), frecvena de remprosptare este de cel puin 60 Hz, iar
placa video este capabil de a controla cel puin 16 milioane de nuane de culoare pentru
fiecare pixel n parte. Este necesar o memorie de cel puin 4 MB pentru a satisface aceste
cerine de calitate. Astzi ntlnim curent monitoare cu rezoluii de 1280 1024 pixeli.
S subliniem faptul c placa video mai precis procesorul grafic de pe ea comand
imaginea afiat pe ecran prin controlarea la frecvena de remprosptare coninutului
unei memorii speciale plasat de obicei pe placa video. Aceast memorie, numit video
RAM, are o capacitate suficient (n jur de 256 MB).
S precizm i faptul c putem ajusta strlucirea, contrastul, dimensiunile i centrarea
imaginii pe ecran prin intermediul unor controale speciale ale monitorului.
Sistemele de operare actuale (cum este Windows XP sau Vista se bazeaz pe un indicatorcursor pe ecran pentru selectarea i executarea comenzilor afiate pe ecran. Pentru controlul
poziiei acestui indicator-cursor se utilizeaz un dispozitiv special, mausul.
Mausul clasic este conectat prin cablu la un port dedicat sau la un port serial standard
de pe placa de baz. (n prezent sunt din ce n ce mai des folosite porturile USB pentru
conectare, iar tendina este de conectare fr cablu, prin infraroii.) Mausul are deasupra
dou sau trei butoane (cel stng, cel drept, posibil i cel din mijloc) i eventual o rozet, iar
dedesubt se afl o bil de cauciuc ce se poate roti liber, sau un dispozitiv optic de detecie a
micrii. Micrile bilei pe o suprafa plan, respectiv micrile rozetei sau cele ale
mausului optic, sunt detectate i transformate n micri ale indicatorului-cursor pe ecran.
Un clic cu mausul nseamn de obicei apsarea butonului din stnga urmat (imediat) de
eliberarea sa. Evident, putem efectua un clic cu orice alt buton. Un clic urmat imediat de al
doilea clic (pe acelai buton) este numit dublu-clic. Iar aciunea de apsare a unui buton i
pstrare apsat a sa, n timp ce bila se mic, este numit tragere a mausului.
Unele calculatoare personale, ca de exemplu cele de tip laptop sau notebook, pot avea alte
dispozitive pentru controlul indicatorului-cursor pe ecran, cum sunt aa-numitele trackball i
touchpad.
Tastatura este dispozitivul de intrare clasic pentru calculatoarele personale. Se
conecteaz la placa de baz prin cablu (la port dedicat sau la port USB) sau, mai recent, prin
infraroii.
Tastatura standard conine peste 100 de taste i trei LED-uri. Aceste LED-uri (denumite
NumLock, CapsLock, and ScrollLock) sunt controlate prin trei taste dedicate (denumite
corespunztor); starea lor determin regimul de lucru al tastaturii.
Celelalte taste pot fi grupate n patru grupuri:
1) Cel mai mare grup este cel al tastelor alfanumerice. n acest grup sunt plasate taste ce
corespund tuturor tastelor unei maini de scris clasice, aadar cifrelor, literelor, semnelor
aritmetice i gramaticale, dar i o tast [Tab], dou [Shift], una [Enter]; n plus, avem n
aceast grup o tast [BackSpace], dou [Ctrl] i dou [Alt];
2) Grupul numeric este localizat n partea dreapt a tastaturii. Sunt reproduse aici
tastele ce apar pe vechile maini electrice de calculat;
3) Cele 12 taste funcionale [F1]-[F12] sunt plasate deasupra grupului alfanumeric;
4) Grupul tastelor de deplasare conine patru taste sgei i alte ase, inscripionate
[Insert], [Delete], [Home], [End], [Page Up], i [Page Down].
Pe orice tastatur se afl taste suplimentare, inscripionate [Esc(ape)], [Pr(in)t Scr(een)],
i [Pause/Break]. n prezent, pe unele tastaturi se afl taste speciale, avnd funcionaliti
speciale n Windows sau n Internet. Cele mai des ntlnite sunt tasta Win logo [] ce
deschide meniul Start i tasta Menu [] ce deschide acelai meniu ca i apsarea
butonului din dreapta al mausului.
Tastaturile laptop-urilor i notebook-urilor sunt ntructva diferite. Pe acestea se afl taste
pentru controlul monitorului.
12

Chiar i tastaturile calculatoarelor personale obinuite (desktop) sunt destul de variate ca


tip. Poziia tastelor poate varia destul de mult de la un tip la altul.
n general nu se poate spune nimic definitiv despre rolul tastelor, cu excepia faptului c
apsarea i eliberarea lor, singure sau n conjuncie cu alta/altele, trimit mesaje specifice
ctre unitatea central. Dar felul n care sunt interpretate aceste mesaje depinde n mod
esenial de programul aflat n execuie. Totui, cei mai muli programatori respect cteva
reguli universale:
apsarea tastei [Enter] semnific o confirmare a comenzii selectate;
apsarea tastei [Esc] semnific o anulare a ultimei comenzi sau aciuni;
apsarea tastei [F1] declaneaz o rutin de ajutorare a utilizatorului, cruia i se ofer
explicaii pertinente ce depind de starea n care se afl programul.
Atunci cnd lucrm sub Windows, trebuie s tim c apsarea tastei [Alt] n conjuncie cu
[F4], ceea ce se noteaz [Alt]+[F4], declaneaz nchiderea ferestrei curente. Iar combinaia
[Ctrl]+[Alt]+[Delete] este foarte important, ea constituie primul pas n nchiderea unei
aplicaii pentru care s-a pierdut controlul.
Unitile de dischet (floppy disk units) au rolul de a citi/scrie date de pe/pe dischete.
Astzi asemenea medii de stocare de date sunt rar ntlnite la calculatoarele personale.
Tradiional, unitile de dischet sunt desemnate prin literele alfabetului A sau B. Litera A
corespunde primei uniti de dischet din calculator, iar litera B celei de a doua uniti de
dischet, dac aceasta exist.
Discurile fixe, numit i hard discuri (hard-disks), conin de regul memoria permanent
de stocare pentru date i programe. Stocarea se face n coninuturi de fiiere, grupate n
dosare. Capacitatea unui disc fix msoar n gigabytes. Discurile fixe se afl n interiorul
unitii de sistem i sunt deosebit de sensibile, trebuie protejate att fa de ocuri mecanice,
ct i fa de temperaturi mult prea ridicate sau prea sczute. n mod normal, ntrun sistem de
calcul pot exista unul sau mai multe discuri fixe. Capacitatea unui disc fix pentru
calculatoare personale se apropie n prezent de 1TB. Avnd capacitate mare, discurile fixe
sunt de regul partiionate, iar partiiile sunt identificate prin literele alfabetului ncepnd
tradiional cu litera C.
Unitile pentru discuri compacte (CD-ROM units) au ca scop citirea discurilor
compacte (CD-ROM), care au o capacitate de aproximativ 700MB. Calitatea unitilor
pentru CD-ROM se evalueaz prin viteza de citire a datelor. Este important de tiut c
unitile pentru discuri compacte sunt de dou tipuri:
1) Cele care pot doar citi informaiile de pe un disc compact, dar nu le pot modifica.
2) Uzuale sunt astzi cele inscripionatoare de CD (CD-RW) utilizate pentru a stoca
datele pe discurile compacte. Extrem de des utilizate sunt discurile compacte reinscriptible
care permit reinscripionarea informaiilor.
Unitile pentru discuri video digitale (DVD units) au ca scop citirea sau nregistrarea
discurilor optice (DVD), de capacitate aproximativ 8GB. Discurile optice DVDRW pot fi
reiscripionate.
Porturile constituie modalitatea de schimb de date cu dispozitivele periferice. Transferul
de date prin porturile seriale se face secvenial, bit dup bit. Un port serial clasic COM este
reprezentat de regul printro muf n spatele calculatorului la care se conecteaz
echipamente periferice de tip serial maus, imprimant serial, modem extern, etc. Relativ
recent au aprut i porturi USB, caracterizate printro vitez mult sporit de transfer.
Viteza de transfer prin porturile paralele este, n teorie, superioar celei de transfer prin
porturilor seriale clasice deoarece transferul paralel presupune transmisia simultan a 8 bii
de date. Porturile paralele clasice sunt porturile LPT, utilizate n trecut pentru conectarea
imprimantelor.
13

Facilitatea utilizrii porturilor seriale universale (USB) face ca n prezent acestea s fie
preferate att pentru conectarea imprimantelor, ct i pentru conectarea dispozitivelor de
stocare extern de tip flash memory. n imaginile urmtoare apar porturile unui PC precum i
un dispozitiv extern de memorare (un memory stick) ce poate fi conectat la un port USB.

Exerciii. 1) Identificai numrul i tipurile de porturi de care dispune calculatorul pe care


lucrai.
2) Aflai amnunte despre magistrala universal serial i modul ei de funcionare.
3) Informai-v asupra scanerelor i recunoaterii optice a caracterelor.
4) Efectuai comparaii ntre CD-ROM, CD-RW i DVD.
5) Calculatoarele personale actuale au sunet integrat pe placa de baz. Ce nseamn
aceasta? Ce nseamn procesor audio?
1.5. Alfabete, codificri, limbaje
ncepem aceast seciune de informatic teoretic prin a considera un alfabet A format
din litere. Un cuvnt de lungime n este o funcie c : {1, 2, , n} A. Se obinuiete s-l
scriem c1c2cn.
Exemplu: alfabetul binar A = {0, 1}, format din dou litere (0 i 1). Cuvintele de lungime
2 sunt urmtoarele (n numr de 4): 00, 01, 10, 11, iar cele de lungime 3 sunt urmtoarele (n
numr de 8): 000, 001, 010, 011, 100, 101, 110, 111. Cuvintele binare se mai numesc i
secvene de bii. Reamintim c despre o memorie n care se poate stoca exact o liter a
acestui alfabet binar se spune c are capacitatea de 1 Bit.
Ca operaii cu cuvinte putem semnala juxtapunerea:
(c1c2cn, d1d2dm) 6 c1c2cnd1d2dm
(nu este comutativ, dar este asociativ), care se mai numete i concatenare. Pentru ea se
utilizeaz semnul +.
Prin codificare se nelege exprimarea literelor unui alfabet B prin cuvinte formate cu
literele altui alfabet A.
Exemplu. Dac B = {A, C, G, T} iar A = {0, 1} este alfabetul binar, o prim codificare
este urmtoarea:
A 6 00, C 6 01, G 6 10, T 6 11.
n acest fel fiecare liter a alfabetului B poate fi stocat ntro memorie de capacitate 2
Bii. Acest lucru nu se ntmpl ns dac vom adopta codificarea urmtoare:
A 6 0, C 6 10, G 6 110, T 6 111.
Prin limbaj L (peste alfabetul A) se nelege o parte a mulimii cuvintelor formate cu
literele lui A. Unele limbaje sunt descrise gramatical, ceea ce nseamn c toate cuvintele
sunt obinute prin utilizarea unor reguli explicite.
De exemplu, s considerm alfabetul A = {a, b}, iar gramatica format dintro singur
regul (a se citi a se nlocuiete cu b, iar b se nlocuiete cu ab):
14

(R) a b, b ab.
n aceste condiii, limbajul L generat de litera a este urmtorul
L = {a, b, ab, bab, abbab, bababbab, abbabbababbab, bababbababbabbababbab, }
Interpretarea cuvintelor limbajului ar putea fi legat de procese de cretere biologic.
Un alt exemplu interesant este urmtorul: alfabetul este A = {s, d, i}, iar gramatica este
format din regula
(R) s s, d d, i isidisi
Limbajul L generat de cuvntul ididi este legat de aa-numiii fractali. Ne dm seama uor
de acest lucru dac interpretm litera s ca o rotaie spre stnga cu 60, litera d ca o rotaie
spre dreapta cu 120, iar i ca un pas nainte. n aceast interpretare ididi va descrie un
triunghi echilateral! Capacitatea de interpretare corect este un atribut al inteligenei!
Alfabetele informaticii sunt formate din caractere. Iniial caracterele (ASCII) erau n
numr de 128 = 27, ele reprezentnd nu doar literele mici/mari ale alfabetului englez i
cifrele arabe, dar i semnele de punctuaie, cteva semne matematice, o serie de litere
greceti sau ale altor alfabete.
Fiecare caracter ASCII (extins) poate fi reprezentat unic printro secven de 8 bii (octet).
Exemple:
litera A 0100 0001
litera a
0110 0001
semnul ! 0010 0001
cifra 0
0011 0001
n prezent caracterele folosite (UNICODE) sunt n numr de 65536 = 216, ceea ce este
suficient pentru reprezentarea semnelor tuturor alfabetelor naturale, precum i a diverselor
simboluri.
Fiecare caracter UNICODE ar putea fi stocat ntro memorie de 16 Bii = 2 Bytes (adic ar
putea fi codificat printrun cuvnt format din 16 cifre binare, sau printrun numr cuprins ntre
0 i 65535 inclusiv). ns reprezentarea caracterelor UNICODE n secvene de bii nu este
att de simpl. Caracterele avnd codurile ntre 1 i 127 sunt reprezentate printrun singur
octet, al crui prim bit este 0:
0 b6 b5 b4 b3 b2 b1 b0
Caracterul NUL (cu codul 0) precum i caracterele avnd codurile ntre 128 i 2047 sunt
reprezentate prin doi octei, primul ncepnd cu 110, al doilea cu 10:
110 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
n sfrit, caracterele avnd codurile ntre 2048 i 65535 sunt reprezentate prin trei octei,
primul ncepnd cu 1110, al doilea i al treilea cu 10:
1110 b15 b14 b13 b12 10 b11 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
Exemple:
litera A (cod 65)
0100 0001
litera (cod 131)
1100 0010 1000 0011
Nu trebuie s confundm ns caracterele (UNICODE sau chiar ASCII) cu semnele
grafice care sunt afiate pe ecrane sau imprimate pe hrtie. Aceste semne grafice sunt
interpretri ale caracterelor, este posibil ca acelai caracter s aib interpretri diverse.
Trebuie s reinem noiunea de font, ca ansamblu de descrieri (semne) grafice asociate
tuturor caracterelor alfabetului. De exemplu, caracterele 36 i 68 sunt descrise astfel:
Fontul
caracterul
36
68

Symbol

Times New Roman

Arial

Wingdings

'
15

Prin tradiie, caracterele cu coduri ntre 32 i 127 sunt numite caractere text sau
printabile, n fonturile de litere acestora le corespund semnele aflate pe taste. Despre
caracterele 32 (space = blanc), 9 (tab), 10 (line feed) i 13 (carriage return) se spune c sunt
albe.
Exerciii. 1) Imprimantele ataate calculatoarelor personale pot fi controlate prin
comenzi date n diverse limbaje. Aflai amnunte asupra ctorva limbaje de comand pentru
imprimante (Postscript, PCL, ...).
2) ntlnim uneori expresiile caracter ANSI i caracter ASCII. n ce msur acestea
se refer la aceleai obiecte?
3) Identificai reprezentrile literelor romneti , , prin caractere UNICODE.
1.6. Funcionarea calculatorului
n continuare vom face cteva consideraii elementare privind modul n care funcioneaz
un calculator. Procesorul prelucreaz (execut) instruciuni exprimate binar n cod-main.
Iat un exemplu teoretic de instruciune n cod-main
1000110010100000
tradus n limbajul de asamblare prin
add A,B
i interpretat n limbajul natural astfel: adun coninutul registrului B peste coninutul
registrului A (rezultatul adunrii va fi plasat, evident, n registrul A), adic A A + B.
n aprecierea de ansamblu a activitii procesorului, trebuie s lum n considerare i:
a) capacitatea regitrilor; o sum-rezultat al adunrii ce depete capacitatea maxim a
registrului A ar trebui s declaneze un semnal de alarm de tip overflow;
b) durata de efectuare a adunrii. Aceasta este msurat printrun numr de uniti de
timp speciale.
Celelalte programe se submpart n dou grupe:
a) softul auxiliar, destinat programatorilor, ce include compilatoare i asambloare.
b) aplicaiile, destinate utilizatorilor obinuii, care nu au cunotine de programare.
Trebuie s menionm aici c exist dou tipuri de aplicaii:
b1) de uz general, destinate tuturor. Acest tip include editoarele de texte, aplicaiile
de calcul tabelar etc. Datorit numrului uria de persoane ce utilizeaz aplicaiile
de uz general, aceste aplicaii sunt relativ ieftine;
b2) specifice fiecrei activiti umane specializate. Fiecare meserie i are softul
specific, cu un numr de utilizatori redus i, de regul, costnd mult mai scump.
Exerciii. 1) n jargonul informaticii au aprut n deceniul trecut cuvintele applet i
cookie. Aflai nelesul acestor cuvinte.
2) Aflai informaii despre regitrii unui procesor i specificul utilizrii lor.
3) Programatorii, pentru a crea aplicaii independente, folosesc aa-numitele medii de
dezvoltare a aplicaiilor (rapid application development). Aflai amnunte despre coninutul
ctorva medii de dezvoltare aplicaiilor.
4) Odat cu extinderea Internetului au aprut noi limbaje de programare, specifice. Aflai
amnunte despre HTML, PHP i XML.
1.7. Forme geometrice i grafeme
Modelul geometric clasic pentru desenare este planul, iar noiunile de punct, segment de
dreapt, linie curb, zon, domeniu plan, dreptunghi/ptrat, elips/cerc, poli-linie (= linie
frnt) sunt bine cunoscute din coala elementar. ns att ecranul monitorului, ct i pagina
16

de hrtie aflat n imprimant nu pot fi tratate de ctre calculator conform cu aceste noiuni
clasice. Specificul activitilor calculatorului face ca s nu putem trata direct obiectele
ideale continue. Evident, n lucrul cu calculatorul toate obiectele ideale continue vor trebui
s fie aproximate prin obiecte discrete, i este de dorit ca aproximarea s fie att de bun
nct folosindu-ne de simurile noastre s nu percepem diferenele.
Aadar, punctul clasic lipsit de dimensiuni va fi aproximat printro mic zon, de obicei
ptrat (posibil ns i dreptunghiular, sau chiar exagonal). Segmentele de dreapt i alte
linii vor fi aproximate prin succesiuni de zone punctuale etc.
Redarea segmentului
Redarea segmentului
Segment ideal
ntro reea ptrat
ntro reea exagonal

(Evident, impresia de linie dreapt greu de acceptat n unele situaii poate fi


obinut prin unele tehnici de accentuare, cum ar fi de exemplu tehnica folosirii unor nuane
de gri intermediare ntre alb i negru sau cea a folosirii unor puncte negre de mai
multe dimensiuni.)
S facem n final observaia c segment pe ecran sau pe hrtia imprimat este doar o
impresie, obinut prin iluzii optice.
Obinerea impresiei de cerc ca de altfel de orice curb continu se face prin
folosirea de tehnici speciale, dintre care cea mai cunoscut este cea a mbinrii de segmente
de curb Bzier.
Un segment de curb Bzier, cu extremitile A i B, este determinat de nc dou puncte
(C i D n figura de mai jos) aa nct segmentele de dreapt AC i BD sunt tangente la
segmentul de curb. Impresia de netezime a unei curbe format din segmentele A(CD)B i
A'(C'D')B' unde A' = B se obine prin alinierea segmentelor de dreapt BD i A'C.
Segmente de curb Bzier

Aadar, s reinem ideea c orice linie curb se obine prin (discretizarea unei)
juxtapuneri de segmente de dreapt i/sau segment de curb Bzier.
O form grafic se compune din dou informaii:
1) descrierea standard a unor curbe nchise,
2) informaia de colorare a interiorului.
17

Descrierea conturului prin


segmente de curb Bzier

Redarea pe ecran sau


la imprimant

1.8. Coduri
ASCII este prescurtarea sintagmei American Standard Code for Information Interchange.
Este un alfabet standardizat n S.U.A. cu mult timp nainte de apariia primului calculator
electronic.
Cele 128 de litere ale sale, numite caractere, reprezint semne clasice uzuale: litere,
cifre, semne de punctuaie, semne aritmetice, dar i anumite aciuni legate de folosirea
mainii de scris (precursoarea tastaturii) i a telegrafului (precursorul Internetului).
Caracterele alfabetului ASCII sunt identificate de ctre numerele naturale ntre 0 i 127
(inclusiv). S precizm c orice asemenea numr este reprezentabil printro secven distinct
de 7 cifre binare.
Cu meniunea c spaiul alb (folosit pentru a separa cuvintele ntre ele) este reprezentat
prin caracterul 32 (adic prin secvena de cifre binare 0100000), s listm n tabelul de mai
jos reprezentarea uzual a caracterelor ntre 32 i 126.
Dedesubtul reprezentrii, ntre paranteze, este trecut denumirea Postscript a
reprezentrii. (Postscript este denumirea generic a unui limbaj de comand utilizat de ctre
procesoarele unor imprimante.)
S precizm i interpretarea altor ctorva caractere (ce nu se regsesc n tabel):
9 (tab)
comand de salt spre dreapta la primul tabulator fixat la
maina de scris,
10 (carriage return)
comand de revenire a capului mainii de scris la captul din
stnga al rndului curent,
13 (line feed)
comand de avansare a unui rnd la maina de scris,
27 (escape)
comand de introducere a unei secvene speciale.
Caracterul
32
spaiul alb
(0100000) (space)
33
!
(exclam)
34

(quotedbl)
35
#
(octothorpe)
36
$
(dollar)
37
%
(percent)
38
&
(ampersand)
39

(quotesingle)
40
(
(parenleft)
18

Caracterul
47
48
(0110000)
49

/
(slash)
0
(zero)
1
(one)

...
57
58
59
60
61

Caracterul
90
91
92
93

9
(nine)
:
(colon)
;
(semicolon)
<
(less)
=
(equal)

94
95
96
97
(1100001)
98

Z
(Z)
[
(bracketleft)
\
(backslash)
]
(bracketright)
^
(asciicircum)
_
(underscore)
`
(grave)
a
(a)
b
(b)

41
42
43
44
45
46

)
(parenright)
*
(asterisk)
+
(plus)
,
(comma)
(hyphen)
.
(period)

62
63
64
65
(1000001)
66
...

>
(greater)
?
(question)
@
(at)
A
(A)
B
(B)

...
122
123
124
125
126

z
(z)
{
(braceleft)
|
(bar)
}
(braceright)
~
(asciitilde)

Este destul de evident c aceste 128 de caractere nu pot satisface ntreaga diversitate de
semne folosite de ctre diferitele societi umane. Nu sunt reprezentate prin caractere ASCII
literele , , , , (ca i multe altele). Chiar i n S.U.A. au fost adoptate alte alfabete
standard, mai cuprinztoare. Exemple:
1) alfabetul ANSI (iniialele de la American National Standards Institute) utilizat n
primele versiuni Windows, format din 256 de caractere, dintre care primele 128 identice cu
caracterele ASCII;
2) alfabetul ISO Latin-1, format i acesta din 256 de caractere, n mare msur similare
celor din alfabetul ANSI. n acesta sunt reprezentate multe litere cu diacritice, printre care
regsim i (datorit apariiei lor n textele franuzeti);
3) alfabetul (Microsoft) Unicode ce permite prin cele 65536 caractere ale sale s fie
reprezentate toate semnele utilizate n societile umane.
Pentru compatibilitate, i n acesta caracterele 32-126 sunt exact cele ASCII clasice (care
apar pe tastaturile standard). Gsim reprezentate aici toate cele 10 caractere cu diacritice
folosite n limba romn.
Fiecare caracter Unicode este reprezentabil unic prin 16 cifre binare (grupate n dou
grupe de cte 8 cifre binare fiecare):
b15 b14 b13 b12 b11 b10 b9 b8 b7 b6 b5 b4 b3 b2 b1 b0
Cifrele binare b0, , b15 au valori diferite, n funcie de poziia fiecreia. Dac b0 = 0 i
b0 = 1 au valoarea numerelor 0 respectiv 1, nu acelai lucru se poate spune despre celelalte.
Astfel, b1 = 1 are valoarea numrului 2, b2 = 1 are valoarea numrului 4, , b6 = 1 are
valoarea numrului 64, b15 = 1 are valoarea numrului 32768, iar ansamblul 00000000
11101110 are valoarea numrului 128+64+32+8+4+2 = 238 (numr care reprezint
caracterul-liter ).
Folosirea grupelor de 8 cifre binare nu trebuie s ne surprind. Prin tradiie, stocarea i
transmisia informaiei se face n octei.
Se observ c mrimea cifrelor binare crete pe msur ce ne deplasm de la dreapta
spre stnga. Observm c cifrele binare de valori mici sunt n grupa din dreapta (cea
terminal). Este situaia identificat ca Unicode big endian, specific calculatoarelor din
familia Macintosh.
Nu ntotdeauna ns cele dou grupe sunt poziionate n aceast ordine. Este posibil ca
grupele s fie inversate, informaia s apar astfel: 11101110 00000000, cifrele binare
de valori mici s se afle acum n grupa din stnga, iar n grupa terminal s se afle cifrele
binare de valori mari. Este situaia identificat ca Unicode little endian, specific
procesoarelor Intel Pentium i celor compatibile acestora.
Cele 16 cifre binare ale unui caracter Unicode pot fi distribuite i altfel, prin folosirea
unor transformri. UTF-8 este un nume dat exprimrii n octei a caracterelor Unicode,
conform regulilor urmtoare. (UTF provine de la Universal Character Set Transformation
Format.)
19

(Regula 1) Fiecare caracter Unicode va fi reprezentat prin 1, 2 sau 3 octei. Mai precis,
caracterele 1-127 sunt reprezentate printrun singur octet, n care prima cir binar este 0:
0 b6 b5 b4 b3 b2 b1 b0
(Regula 2) Caracterul NULL (0) i caracterele 128-2047 sunt reprezentate prin dou
grupuri de cte 8 cifre binare (n total 16 cifre binare); primul octet ncepe cu 110, iar cel deal doilea ncepe cu 10:
110 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
(Regula 3) Celelalte caractere, cuprinse ntre 2048 i 65535, sunt reprezentate prin trei
grupuri de cte 8 cifre binare (n total 24 de cifre binare); primul grup ncepe cu 1110, iar
celelalte ncep cu 10:
1110 b15 b14 b13 b12 10 b11 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
Ca exemplu, n UTF-8 litera va fi reprezentat prin 11000011 10101110.
Toate consideraiile de mai sus arat rolul decisiv al interpretrii secvenelor de bii, iar
interpretarea unei secvene de bii stocat n memoria unui calculator depinde n mod
esenial de programul care o interpreteaz.
Exerciii. 1)
Identificai reprezentarea n bii a caracterelor ce reprezint semnele 1,
@, ~, A, a.
2) Patru bii consecutivi pot fi reprezentai unic printro cifr hexazecimal. Folosind
aceast posibilitate, reprezentai hexazecimal caracterele care reprezint literele A i .
3) Aflai reprezentrile caracterelor , i n UNICODE.
1.9. Fonturi
Odat cunoscute amnuntele de mai sus, putem trece la prezentarea mai detaliat a
noiunii de font.
S ne imaginm c am ales un alfabet, de exemplu ASCII, iar fiecrui caracter din acest
alfabet i-am asociat o descriere grafic (adic un grafem), nu neaprat legat de reprezentarea
caracterului n tabelul anterior. (Astfel, de exemplu, caracterului 65 i-am putea asocia
grafemul A, grafemul A, sau grafemul A, ori un altul, cum ar fi .)
Ansamblul de asocieri caractergrafem constituie prima component a unui font. Pentru
a nelege corect noiunea de font, s considerm redarea cuvntului avion cu majuscule.
Exploatnd descrierile grafice ale caracterelor 65 (A) i 86 (V) i juxtapunndu-le, mrimea
spaiului alb intermediar las impresia unei separri, mai ales atunci cnd citim rapid. S-a
constatat nc din secolul al XVI-lea c percepia nelesului cuvintelor scrise este mult
uurat atunci cnd spaiile albe dintre grafemele consecutive sunt aproximativ de aceeai
mrime. Astfel, ar fi de dorit o apropiere a grafemului V de A, ceea ce se obine prin
procedura numit kerning.
Date dou grafeme, se recomand ca redarea lor unul dup altul mai ales la imprimant
s se fac prin aplicarea unei deplasri, conform regulilor de kerning. Dou exemple sunt
prezentate n figura urmtoare.

20

Aadar, fontul este un obiect complex, format din:


(F1) descrieri grafice (grafeme) asociate caracterelor din alfabet;
(F2) un set de reguli de kerning, care indic spaierea recomandat ntre grafeme
consecutive.
(F3) un alt set de reguli ce reglementeaz sublinierile precum i ali parametri.
Fonturile sunt grupate n familii de fonturi. Identificarea unui font se poate face:
a) preciznd numele familiei (de exemplu Times New Roman) i al subfamiliei (de
exemplu Italic), respectiv
b) preciznd numele Postscript (de exemplu TimesNewRomanPSMT).
Fonturile ale cror grafeme (n special cele asociate caracterelor 65-90 i 97-122)
sugereaz litere sunt considerate de tipul text. Dintre acestea, mai des utilizate sunt cele
din familiile Times New Roman i Arial. Pe lng acestea exist multe alte fonturi ce
grupeaz diverse grafeme reprezentnd obiecte uzuale. Unele dintre acestea, ca de exemplu
fonturile Symbol i Wingdings, sunt considerate de tipul pictorial.
Clasificarea fonturilor poate fi fcut dup multe alte criterii. De exemplu, lund n
considerare aa-numita proporie (proportion), fonturile pot fi:
moderne, respectnd criteriile estetice actuale (exemplu Times New Roman);
de grosime egal a liniilor (exemplu Arial);
monospaiate, toate semnele avnd aceeai lime; de exemplu fonturile din familia
Courier New;
Unele fonturi nu conin grafeme pentru toate caracterele UNICODE! S precizm c
sistemul de operare este cel care controleaz fonturile i le ofer diferitelor aplicaii pe
care le utilizm. Iar, atenie, aceste aplicaii interpreteaz grafemele asociate caracterelor
exact aa cum au hotrt programatorii care le-au creat!
Exerciii.
1) Alegei cel mai estetic font, conform criteriilor proprii, apoi identificai mai multe
calculatoare pe care putei folosi acest font. De ce mai depinde folosirea lui?
2) Efectuai o comparaie ntre un font din familia Times New Roman i un font din
familia Arial. Exist diferene de reprezentare a caracterelor individuale ce reprezint
litere?
3) Identificai grafeme din fontul Times New Roman Italic care nu sunt obinute prin
simpla nclinare a grafemelor corespunztoare din fontul Times New Roman Regular.

21

Cursul 2. Sistemul de operare i aplicaii pentru calculatoare personale

n prezent, calculatoarele personale, i nu numai, nu pot fi utilizate fr ajutorul unui


sistem de operare. Sistemele de operare evolueaz permanent, devenind pe zi ce trece mai
dotate i mai performante. Totui, pentru efectuarea unor activiti serioase utilizatorii sunt
obligai s foloseasc aplicaii specializate.
Coninutul acestui curs este urmtorul:
2.1. Sisteme de operare .................................................................................................... 23
2.2. Volume, fiiere i dosare .......................................................................................... 23
2.3. Sisteme de operare (Microsoft) Windows ................................................................ 25
2.4. Accesoriul Character Map ....................................................................................... 28
2.5. Aplicaia-accesoriu Notepad .................................................................................... 29
2.6. Aplicaia-accesoriu Paint ......................................................................................... 34
2.7. (Microsoft) Word ...................................................................................................... 37
2.8. Aplicaii de calcul tabelar. (Microsoft) Excel .......................................................... 43
2.9. Microsoft Office 2007 .............................................................................................. 47
Adrese web utile:
www.linux.ro
www.computinghistorymuseum.org/teaching/papers/research/
history_of_operating_system_Moumina.pdf
www.microsoft.com/windows/windows-vista
windowshelp.microsoft.com/Windows/ro-RO/
office.microsoft.com/en-us/

22

2.1. Sisteme de operare


Preferm s fim nlocuii de calculatoare atunci cnd este nevoie s efectum activiti
plicticoase cum ar fi calculele sau contabilitatea, cci calculatoarele ne ofer rapid rezultate
exacte, precise. Aceste rezultate sunt obinute ca urmare a folosirii aplicaiilor, programe
sofisticate create i dezvoltate de echipe mari de programatori, lucrnd sub conducerea unui
manager. (Poate c doar aa se explic raional de ce multe aplicaii au erori!)
Exist un program intermediar care este executat permanent i care traduce comenzile
aplicaiilor n instruciuni care controleaz dispozitivele. Acest program (care este mai precis
un set de programe) este numit sistem de operare.
Sistemul de operare trebuie s fie instalat pe un calculator; aceasta nsemnnd plasarea
componentelor sale n memoria permanent. De fiecare dat cnd startm un calculator,
principala parte executabil a sistemului de operare va trebui transferat n memoria de
lucru. Acest transfer constituie cel de-al doilea pas al procedurii de startare, dup un prim
pas ce const ntro verificare amnunit a componentelor calculatorului.
Principala activitate a oricrui sistem de operare este cea de a controla distribuirea
resurselor calculatorului ntre diversele taskuri. (Prin task vom nelege o aplicaie care se
afl ntrun stadiu oarecare al execuiei.) Deoarece timpul de lucru al unitii centrale de
prelucrare este cea mai important resurs, sistemul de operare trebuie s funcioneze
impunnd reguli de prioritate bine stabilite pentru a putea exploata la maximum aceast
resurs preioas.
Prin multitasking nelegem abilitatea sistemului de operare de a reui executarea
simultan a mai multor activiti, fr s piard controlul n caz c unul dintre taskuri este
ntrerupt accidental.
A doua activitate a sistemului de operare este cea de a controla transferul datelor (adic
comunicaiile) ntre diversele pri ale calculatorului, de asemenea cu exteriorul. Un sistem
de operare bun ar trebui s tie s se adapteze unui numr mare de arhitecturi. Aceasta
explic de ce acelai sistem de operare se comport diferit, depinznd de cantitatea i
calitatea resurselor calculatorului (iar pentru unele arhitecturi nu este deloc performant).
n sfrit, o a treia activitate esenial a sistemului de operare este cea de a permite
utilizatorilor, chiar i celor care nu posed prea multe cunotine, o folosire comod,
ceea ce se ntmpl astzi prin oferirea unei interfee grafice bazat pe ecranul monitorului.
2.2. Volume, fiiere i dosare
Un disc fix actual, de capacitate mult peste 20 GB, poate conine o cantitate imens de
informaii (de magnitudinea celei coninute n genomul uman). Din dorina de a regsi ct
mai rapid informaia stocat pe discuri, se obinuiete cel puin pentru discurile mari ca
acestea s fie partiionate n cel puin dou partiii.
Informaia privind frontierele fizice ale acestor partiii trebuie s fie stocat undeva. Chiar
n cazul c discul nu a fost partiionat, i aceast informaie trebuie reinut undeva, de aceea
orice disc fix are o zon de partiionare (n care, n afara informaiei de partiionare mai
exist i un mic program de recunoatere a organizrii discului n cilindri, piste i
sectoare).
Orice alt informaie pe care o dorim stocat pe discul fix trebuie s ia forma
coninutului unui fiier. Coninutul unui fiier poate ocupa mai muli ciorchini (clusters =
grupri de sectoare) i poate fi eventual fragmentat n diverse poziii pe disc.
Acelai lucru se poate spune i despre discurile compacte, inserate n unitile de citirescriere corespunztoare. Diferena const n faptul c pe aceste materiale de stocare este
creat implicit doar o singur partiie i este interzis modificarea numrului de partiii, deci
nu mai este nevoie de zona de partiionare.
23

Discurile compacte, partiiile de disc fix i memory stick-urile sunt tratate similar, purtnd
numele generic de volume de date.
Orice fiier are nu doar un coninut; el are de asemenea un cap n care se afl plasate
datele necesare identificrii i accesrii coninutului. Capul include:
un nume, cunoscut ca numele fiierului;
eventual un alt nume, mai scurt, obinut printrun fel de trunchiere din numele
complet;
o lungime (= numrul caracterelor din coninut) limitat la 264B, ceea ce nseamn
numr de caractere practic nelimitat;
un indicator spre clusterul n care ncepe coninutul fiierului;
mai multe atribute ce servesc la restricionarea utilizrii fiierului. S dm pe Readonly ca exemplu de atribut al fiierului; activarea acestui atribut interzice modificarea
coninutului fiierului dar nu i modificarea numelui, nici distrugerea total a
fiierului;
eventual numele utilizatorului care a creat fiierul (adic proprietarul);
data crerii, eventual data celei mai recente modificri a coninutului.
Sistemul de operare are posibilitatea de a identifica locaia tuturor clusterelor n care este
depus coninutul, plecnd de la aceste date din cap.
Unele fiiere au coninutul foarte special, anume doar capete de alte fiiere; un
asemenea fiier-container este numit generic dosar (folder sau, cu un nume mai vechi,
directory).
Pentru aceste fiiere-container, i numai pentru ele, atributul Directory este activ. Un
dosar conine aadar (capete de) fiiere obinuite i/sau subdosare.
S menionm i faptul c n sistemele de operare Windows fiecare partiie de disc trebuie
s fie formatat nainte de prima utilizare. Prin formatarea partiiei se creeaz n ea un
dosar special, numit dosarul rdcin al partiiei. Acesta este, din punct de vedere logic,
rdcina aa-numitului arbore al dosarelor (directory tree). n acest arbore frunzele sunt
exact fiierele obinuite. Rdcina are o notaie special, anume caracterul \ (backslash).
n sistemele de operare UNIX (sau Linux) ntreaga memorie a calculatorului este
coninut ntrun singur dosar numit, evident, rdcina (root). Notaia sa aici este caracterul
/ (slash).
Meniul de context al unui folder (sunt listate metodele asociate)

Ce nseamn de fapt un folder? n general, poate fi orice fel de container, considerat ns


mpreun cu metodele asociate. Din acest punct de vedere, ceea ce distinge directory de
folder este inteligena ultimului: un folder este capabil s execute anumite aciuni asupra
lui nsui. Iat, ca exemplu, trei astfel de aciuni:
24

1) trimiterea coninutului su ctre un alt container (vezi figura alturat),


2) regsirea unei informaii particu-lare n interiorul su, i
3) comprimarea coninutului.
2.3. Sisteme de operare (Microsoft) Windows
Din punct de vedere istoric, sistemele de operare Windows i au originea ntro aplicaie
de tip interfa grafic creat nainte de 1990 pentru sistemul de operare (MS)DOS. (Aceast
aplicaie a luat ca model aplicaia mai veche XWindow din sistemul de operare UNIX.) n
anul 1995 a fost lansat, sub numele Windows95, o prim variant, pregtit pentru
calculatoarele personale. Evoluia a fost rapid, versiunile succedndu-se la intervale de doitrei ani: Windows98, Windows 2000, Windows XP. Pe de alt parte, Windows NT (care
iniial a fost creat pentru alte tipuri de sisteme de calcul) a fost adaptat i pentru
calculatoarele personale. Din 2007 noutatea o constituie Windows Vista.
Caracteristicile generale ale sistemelor de operare Windows recente sunt urmtoarele:
1) Folosirea de ctre utilizator a unei interfee grafice prietenoase. n afara barei de
activiti (taskbar) pe care aplicaiile deschise sunt reprezentate prin butoane n zona de
lucru (desktop) pot fi plasate iconie ale principalelor aplicaii sau fiiere/dosare pe care le
dorim a fi la ndemn.
2) Posibilitatea alegerii de ctre utilizator a unor nume lungi pentru fiiere sau dosare,
nume formate din mai multe cuvinte. (De menionat c unele sisteme de operare nu permit
apariia spaiului alb n numele de fiiere, de aceea se recomand evitarea acestor situaii.)
3) Recunoaterea automat a caracteristicilor fizice ale echipamentele periferice PNP
(plug and play), fr a mai fi nevoie de intervenia utilizatorului sau de instalarea vreunui
program de control (driver). Aceasta face ca, de exemplu, transferul de date de la aparate
foto digitale s fie permis prin intermediul oricrui port USB.
4) Existena n sistemul de operare a ctorva aplicaii utile, cum ar fi un editor de text
(Notepad), un procesor elementar de text (WordPad) care ns poate prelucra unele
documente Word, un editor grafic elementar (Paint), un utilitar pentru controlul dosarelor
(Windows Explorer), utilitare multimedia (Sound Recorder, Media Player), utilitare pentru
reea, un navigator pentru Web (Internet Explorer) i multe altele.
5) Posibilitatea conectrii la distan a calculatorului la o reea, folosind eventual linia
telefonic.
6) Asigurarea unei protecii fa de tergerea accidental a fiierelor sau dosarelor, prin
dosarul special Recycle Bin. (Datele terse de utilizator de pe discurile fixe nu sunt eliminate
definitiv, ci depuse n Recycle Bin; de aici, la nevoie, ele pot fi recuperate.)
7) Rezervarea unei zone din RAM, n care utilizatorul poate stoca temporar diverse
obiecte, n vederea utilizrii lor ulterioare. Plasarea unui obiect n aceast zon, denumit
clipboard, se face prin comenzile Cut sau Copy (evident, dup selectarea obiectului), iar
preluarea din clipboard se efectueaz prin comanda Paste. Un obiect plasat n clipboard
rmne acolo pn la urmtoarea comand Cut sau Copy (sau pn la pierderea controlului
calculatorului de ctre sistemul de operare).
8) Suportul pentru comand vocal.
Pn n prezent nicio variant a sistemelor de operare (Microsoft) Windows nu s-a
dovedit a fi perfect, fr erori. Firma Microsoft ofer corectarea erorilor descoperite
ulterior instalrii prin intermediul unor fiiere disponibile n site-ul firmei, fiiere care
nlocuiesc pe cele imperfecte, livrate pe kit-ul sistemului de operare. Kit-ul unei aplicaii este
format din totalitatea fiierelor necesare pentru instalarea i configurarea acesteia pe sistemul
de calcul al utilizatorului; este livrat de obicei pe CD-ROM (sau DVD).
n sistemele de operare Windows, toate obiectele operabile fie c sunt documente sau
aplicaii, fiiere, dosare, volume de date etc. sunt reprezentate vizual prin iconie
(pictograme) i sunt manevrate prin intermediul mausului sau a tastaturii (eventual i a
microfonului).
25

Fiierele aplicaiilor i fiierele obinuite (documentele, imaginile):


a) din punctul de vedere al stocrii, sunt organizate n directoare dispuse arborescent n
fiecare volum de date n parte (partiie de disc fix, disc compact introdus n unitatea de citire
sau scriere, mediu amovibil stick cuplat la un port);
b) din punctul de vedere logic al administrrii, sunt grupate n dosare (folders).
Menionm c vechea noiune de director definit drept container de capete de fiiere, a
fost nlocuit de cea de dosar (folder). Aceast din urm noiune presupune existena unei
funcionaliti. Exemple de dosare speciale: My Computer, My Documents, Program Files,
Shared Documents, Control Panel, Printers, Network Neighborhood.
n momentul lansrii n execuie a unei aplicaii se va deschide o fereastr a aplicaiei
respective, iar aplicaia va fi reprezentat de un buton pe bara activitilor. La fel, n
momentul deschiderii unui dosar pentru a-i afia coninutul, dosarul va fi reprezentat de un
buton pe bara activitilor, iar coninutul i va fi afiat n cadrul unei ferestre speciale. Toate
ferestrele au aceleai caracteristici, ele pot fi uor manevrate de ctre utilizator cu ajutorul
mausului, modificndu-li-se dimensiunile i poziia.
De fapt, n toate sistemele de operare Windows (i n cteva altele, unele mai vechi dect
Windows) ntlnim aceleai tipuri de obiecte. Noiunile cele mai des ntlnite, legate de
acestea, sunt patru:
fereastr,
control,
caset de dialog,
eveniment.

O fereastr este un spaiu dreptunghiular de prezentare pe ecran, folosit de o aplicaie n


scopul afirii de rezultate, dar i pentru recepionarea de intrri din partea utilizatorului. O
fereastr poate ocupa aceeai parte a ecranului ca i alt fereastr; dou sau mai multe
ferestre se pot suprapune (sau nu), parial sau total.
Figura de mai sus prezint dou ferestre de aplicaie deschise pe biroul de lucru (desktop).
Este vorba despre aplicaiile Epi Info i SPSS, ultima fiind activ. Bara activitilor, n
partea inferioar a ecranului, ne indic faptul c mai exist dou ferestre nchise, una a
dosarului Curs02, cealalt a aplicaiei Word.
(Dar n fiecare moment doar una singur dintre ferestre este activ, adic poate prelua
intrri de la utilizator.)
26

Fiecare fereastr este reprezentat intern printro structur de memorie i de un


interpretor de evenimente sau de mesaje aprute ca urmare a activitilor utilizatorului
sau sistemului (activiti legate de aceast fereastr).
Orice fereastr are o bordur, o bar de titlu cu butoane, poate avea una sau dou bare
de defilare, mai multe meniuri.
n general, o fereastr are un meniu de sistem (sau meniu de control) grupnd comenzi
folosite pentru a controla fereastra n ansamblu. Acest meniu este localizat n extremitatea
stng a barei de titlu.
Toate aceste noiuni sunt exemplificate n figura urmtoare (este vorba despre fereastra
aplicaiei-accesoriu Paint).

A doua noiune fundamental n Windows este cea de control. Un control este


reprezentat, n general, de o mic iconi cu aspect specializat i funcionalitate fixat, aflat
de obicei drept component a unei casete de dialog. Controalele permit utilizatorului s
introduc text prin tastare, s aleag opiuni, s invoce comenzi.
Exemple de controale sunt butoanele pe care se apas, casetele de validare, casetele de
editare, butoanele radio, barele de defilare i multe altele.
Casetele de dialog seamn cu ferestrele, dar nu trebuie confundate cu acestea din urm!
Casetele de dialog sunt chenare de tip special, cu funcionalitatea restricionat, de obicei
coninnd controale. Sunt utilizate pentru afiare de rezultate, pentru acceptare de intrri din
partea utilizatorului, pentru oferirea de posibiliti de selecie, pentru permiterea de editri.
n fiecare moment doar un singur control/fereastr poate avea focusul, adic poate primi
intrri de la tastatur. Sistemul de operare Windows ofer posibilitatea utilizatorului s mute
focusul ntre controale, spre nainte folosind repetat tasta [Tab], spre napoi folosind
combinaia [Shift]+[Tab].
n figura de mai jos prezentm exemplul casetei de dialog Page Setup (folosit pentru
controlul aspectului unei pagini nainte de a fi imprimat). Se poate observa c sunt dou
grupuri de controale precum i un buton radio (Orientation) !
Apariia evenimentelor este datorat aciunilor utilizatorului asupra mausului sau
tastaturii, dar i unor cauze externe. Exemplele principale sunt:
clic. Acest eveniment este generat atunci cnd un buton al mausului a fost apsat n
zona client a ferestrei; efectul depinde de care buton a fost apsat: stngul, dreptul, cel din
mijloc, poate depinde de asemenea de starea din momentul apsrii a tastelor [Shift], [Ctrl]
i [Alt];
dublu clic;
(Atunci cnd este efectuat un clic sau un dublu-clic pe butoane, meniuri, borduri etc. care
nu se afl n zona client, sunt generate alte evenimente!)
27

tast apsat. Efectul poate depinde de starea tastelor [Shift], [Ctrl] i [Alt], de
asemenea de caracteristicile typematics ale tastaturii;
tast eliberat.
Exist multe alte evenimente posibile, legate de selectarea din meniuri, de modificrile de
locaie sau de mrime, de obinerea/pierderea focusului, de trecerea unui anumit timp fixat
dinainte etc. Programatorii construiesc aplicaiile prin asamblarea de controale; ei pot
programa aciuni asociate diferitelor perechi (control, eveniment) posibile. Toate aplicaiile
Windows sunt construite n acest fel.
Caseta de dialog Page Setup

Maniera de lucru clasic n sistemele de operare Windows este urmtoarea:


Printrun clic cu butonul stng al mausului se realizeaz o selecie.
Printrun dublu clic cu butonul stng al mausului se deschide un folder, un document
sau se lanseaz n execuie o aplicaie.
Printrun clic cu butonul din dreapta al mausului este selectat un obiect i este facilitat
accesul la proprietile obiectului.
(Menionm c generalizarea accesului la Internet a condus i la preluarea n Windows a
modului de lucru din Internet Explorer; au aprut astfel unele modificri, n sensul
posibilitii de a aciona i altfel, diferit de maniera clasic.)
Exerciii. 1) Informai-v asupra modului n care se poate nlocui efectul unei taste de pe
tastatur, atunci cnd ea se defecteaz.
2) Identificai forme ale cursorului mausului.
3) Comanda Control Panel din Windows permite modificarea parametrilor de
funcionare pentru dispozitivele ataate calculatorului. Aflai caracteristicile typematics ale
tastaturii i parametrii mausului.
2.4. Accesoriul Character Map
Sistemele de operare Windows ofer accesoriul Character Map pentru vizualizarea
grafemelor disponibile n fonturi.
28

Fontul dorit poate fi ales n caseta-list Font (vezi figura de mai jos), urmat de un tabel
n care sunt afiate grafemele, n ordinea caracterelor Unicode crora le sunt asociate.
Grafemele pot fi cutate cu uurin innd seam de gruparea caracterelor Unicode n
categorii speciale (semne de punctuaie, sgei, operatori matematici etc.), prin utilizarea
casetelor-list Character set i Group by, precum i a casetei-text Search for.

2.5. Aplicaia-accesoriu Notepad


Presupunnd c dorim s realizm un document folosind literele unui singur font (ceea ce
este o activitate primitiv, destul de rar astzi, analoag activitilor efectuate la vechile
maini de scris), sistemele de operare Windows ofer, n acest scop, accesoriul Notepad.
Este recomandat pentru vizualizarea coninutului unui fiier de explicaii (numit de obicei
README.TXT) sau de iniializare/configurare (cu extensiile .INI, resp. .CFG).
Introducerea de text ntrun document realizat cu Notepad se face n general de la
tastatur. Poziia punctului de inserare este cea la care este inserat caracterul trimis de la
tastatur. Anumite taste/combinaii de taste au efecte speciale. De exemplu:
apsarea tastei [Home] determin repoziionarea punctului de inserare la nceputul
rndului,
apsarea tastei [End] determin repoziionarea punctului de inserare la sfritul
rndului,
apsarea tastei [Delete] determin tergerea caracterului din dreapta punctului de
inserare,
apsarea tastei [Backspace] determin tergerea caracterului din stnga punctului de
inserare,
apsarea combinaiei [Ctrl]+[Backspace] determin tergerea cuvntului din stnga
punctului de inserare,
29

apsarea combinaiei [Ctrl]+[Home] determin repoziionarea punctului de inserare la


nceputul documentului,
apsarea combinaiei [Ctrl]+[End] determin repoziionarea punctului de inserare la
sfritul documentului.
Efectul apsrii altor taste/combinaii de taste este cel de declanare de la tastatur a
comenzilor din meniuri.
Notepad este un accesoriu extrem de simplu de controlat, cu doar cinci meniuri. Alegerea
fontului ce va fi utilizat, precum i mrimea literelor, se efectueaz prin intermediul
comenzii Font din meniul Format (vezi figura urmtoare).

Cea de-a doua comand din acest meniu este de fapt o opiune, Word Wrap, care are ca
efect limitarea textului la zona vizibil. (Odat cu redimensionarea ferestrei, textul este
rearanjat aa nct s umple spaiul disponibil.) n caz c aceast opiune este dezactivat, n
partea inferioar va aprea o bar de defilare ce se activeaz automat atunci cnd un rnd de
text depete (ca lungime) zona vizibil.
Meniul View conine doar o comand, anume opiunea Status Bar, de activare/
dezactivare a barei de stare (vizibil n partea inferioar a ferestrei Notepad). Pe aceast bar
este afiat o singur informaie, anume poziia punctului de inserare.
Meniul File are o compoziie foarte simpl, comparativ cu alte aplicaii. Comenzile sale
sunt uor de neles, dac inem seam de faptul c Notepad creeaz documentele n
memoria volatil, imprimarea lor se efectueaz prin intermediul unei imprimante ataate
calculatorului, iar stocarea unui document pe suport magnetic are loc sub forma
coninutului unui fiier. Comenzile sunt grupate n trei grupuri:
comenzi de lucru cu documente i fiiere,
comenzi de control al paginrii i imprimantei,
comanda Exit de prsire a aplicaiei.

Evident, comanda New va avea ca efect deschiderea unui nou document, n memoria
intern. Acesta va fi identificat ca Untitled pe bara titlului ferestrei Notepad, vezi figura
de mai sus pn la salvarea sa pe suport magnetic. Pentru salvare putem folosi comanda
30

Save As, n execuia creia se va cere alegerea unui nume pentru fiierul al crui coninut va
deveni forma curent a documentului.
Odat salvat pe suport magnetic, apar dou versiuni ale documentului: cea salvat n
fiierul creat i cea din memoria intern. Atenie, numele care este afiat pe bara titlului
ferestrei Notepad se refer la versiunea salvat, iar coninutul afiat n fereastr este redat
conform cu versiunea din memoria intern! Folosirea comenzii Save elimin eventuala
neconcordan.
Diferena ntre efectul comenzilor Save As i Save const n posibilitatea de a alege un alt
nume pentru fiier (n primul caz); evident, atunci cnd documentul este salvat pentru prima
dat, efectul celor dou comenzi este identic.
Caseta de dialog Save As, prezentat n figura urmtoare, este foarte important i merit
studiat n detaliu.
n partea superioar, principalul obiect este o caset-list Save in n care va fi ales
folderul de depunere. Sub aceasta, n zona central, este prezentat coninutul acestui folder.
n partea inferioar, trei casete-list permit alegerea numelui fiierului, a tipului su i a
codificrii. Notepad permite crearea i lucrul cu documente n mai multe codificri: ANSI,
Unicode, UTF-8. (Implicit este folosit codificarea ANSI standard, iar tipul fiierului este
Text, ceea ce este corespunde extensiei .txt.)
Mai multe butoane n partea stng i n partea superioar ajut la navigarea n structura
destul de complex a folderelor existente i chiar la crearea unor noi foldere.
n sfrit, butoanele Save i Cancel servesc la confirmarea comenzii, respectiv la
renunarea la comanda de salvare.
Odat salvat ca fiier, un document oarecare poate fi deschis ulterior pentru a fi refolosit.
Evident, comanda de deschidere este Open, aflat i ea n meniul File. Alegerea acestei
comenzi conduce la caseta de dialog Open, asemntoare celei prezentate n figura de mai
sus. (Ca deosebiri minore, caseta-list Save in devine Look in, caseta-list Save as type
devine Files of type, iar butonul Save devine Open.)

31

Pentru a deschide un fiier presupunnd c i cunoatem folderul de depunere vom


proceda astfel:
1) vom ncerca s selectm acest folder n caseta-list Look in (folosind toate
instrumentele de navigare n structura folderelor ce sunt disponibile);
2) vom alege tipul dorit de fiier n caseta list Files of type (aciune mult uurat dat
fiind c Notepad nu permite dect selectarea fiierelor text);
3) codificarea dorit va fi aleas n caseta-list Encoding;
4) vom alege, n zona central a casetei de dialog, numele fiierului ce va fi deschis.
(Atenie, nu avem motive s tastm numele acestui fiier!)
Notepad nu are opiuni avansate de paginare, dei poate imprima pagini cu antet i subsol,
aa cum sunt stabilite prin comanda Page Setup. Totui, caseta de dialog care se deschide ca
urmare a comenzii Print, permite imprimarea selectiv a paginilor i stabilirea numrului de
cpii.
Meniul Edit (vezi figura urmtoare) conine mai multe comenzi, grupate n patru grupuri:
comanda Undo de anulare a ultimei comenzi executate;
comenzile de editare;
comenzile de cutare/nlocuire;
comenzile speciale.
Efectul fiecrei comenzi este uor de neles dac ne imaginm c ntreg coninutul unui
document este o succesiune liniar de caractere. (n aceast succesiune, ntreruperea
paragrafului curent i implicit trecerea la un paragraf nou sunt determinate de o pereche de
caractere 13, 10 care este inserat n secven ca urmare a apsrii tastei [Enter].) n cadrul
acestei succesiuni de caractere putem selecta, de obicei prin tragere cu mausul, diverse
blocuri de text.
Meniul Edit i alegerea comenzii Copy n Notepad

Odat selectat un bloc de text, acesta poate fi:


a) eliminat din cadrul documentului (prin efectul comenzii Delete),
b) mutat n clipboard (prin efectul comenzii Cut), sau doar
c) copiat n clipboard (prin efectul comenzii Copy).
A patra comand din grupul celor de editare, comanda Paste, este iniial inactiv. Ea
devine activ abia dup executarea unei comenzi Cut sau Copy. Executarea comenzii Paste
are ca efect plasarea la poziia curent a punctului de inserare a unei cpii a obiectului aflat
n acel moment n clipboard.
S reamintim c clipboard este o memorie gestionat de Windows, folosit pentru
transferul de obiecte ntre diversele aplicaii cu care se lucreaz.

32

Tehnica numit copiere/lipire (copy/paste) este foarte util pentru economisirea


timpului de lucru la calculator. De aceea se recomand folosirea combinaiilor de taste care
declaneaz de la tastatur comenzile de editare. Acestea sunt:
combinaia [Ctrl]+[C], care declaneaz comanda Copy,
combinaia [Ctrl]+[V], care declaneaz comanda Paste,
combinaia [Ctrl]+[X], care declaneaz comanda Cut.
Efectul comenzilor de cutare/nlocuire Find, Find Next i Replace este evident.
Folosirea comenzii Replace conduce la o caset de dialog Replace destul de simpl. n
figura de mai jos este exemplificat nlocuirea caracterului . (punct) prin secvena .
(punct urmat de spaiu alb), nlocuire impus de regulile gramaticale adoptate n Romnia.

Cu ajutorul comenzii Go To putem plasa punctul de inserare la nceputul rndului ce va fi


precizat n caseta de dialog corespunztoare.
Comenzile speciale au efect evident: comanda Select All are ca efect selectarea ntregii
succesiuni (secvene) de caractere ce formeaz documentul n acel moment (n scopul unei
copieri sau, mai rar, al eliminrii globale), iar comanda Time/Date are ca efect inserarea
momentului curent la poziia punctului de inserare.
Nu putem ncheia scurta prezentare a comenzilor utilitarului Notepad fr a aminti cele
dou comenzi incluse n meniul Help, i anume:
Help Topics, care ofer utilizatorului informaii organizate i indexate despre acest soft,
ntro caset de dialog Help Notepad destul de interesant,
About Notepad, care ofer informaii despre versiunea instalat i despre drepturile
legale de utilizare.
Evident, aa cum am precizat anterior, dac utilizm Notepad documentul nostru va fi
creat n cea mai mare msur prin tastare. Tastele alfanumerice ne ajut s inserm cu
uurin caracterele 9 (cu tasta [Tab]), 13 urmat de 10 (cu tasta [Enter]) i 32-126, cunoscute
sub numele de caractere text. Dar nu numai acestea, i alte caractere pot fi inserate prin
tastarea unor combinaii. Caracterele 1-31, precum i caracterele 127-255 pot fi inserate
folosind simultan tasta [Alt] i tastele cu cifre din partea dreapt.
(Pentru inserarea caracterelor Unicode > 255 se poate folosi comanda Paste dup ce, n
prealabil, folosind Character Map, acestea au fost copiate. Reprezentarea acestor
caractere prin grafeme ine seam, evident, de fontul care a fost ales prin comanda Font.)
S subliniem nc odat faptul c Notepad este un editor de text care poate ajuta
nceptorii n crearea de documente simple. Este rar folosit ca atare; l putem utiliza ns
pentru a vizualiza coninutul unor fiiere, n special fiiere text. Unii utilizatori l folosesc
pentru a crea pagini Web sau programe PHP (ceea ce nu recomandm).
Sistemele de operare Windows ofer i un procesor de text, denumit WordPad, mai
elaborat i mai puternic dect Notepad. Totui, nu recomandm nici folosirea acestuia,
ntruct utilizarea procesorului de text Word, incomparabil mai puternic, este larg rspndit
astzi n ntreaga lume.
33

2.6. Aplicaia-accesoriu Paint


Paint este un accesoriu destinat crerii i editrii unor imagini formate din reele de
puncte colorate (pixeli), prin utilizarea unor instrumente simple de desenare, precum i
stocrii acestora n cteva formate grafice. Aceste imagini nu se ridic la standarde nalte de
calitate, dar pot fi inserate n documente nepretenioase.
De menionat c Paint opereaz direct asupra reelei de puncte colorate numit i hart
de bii (bitmap) ce formeaz o imagine. Chiar dac folosete instrumente de desenare,
formele care se obin cu aceste instrumente sunt transformate n modificri de culoare ale
unor pixeli i nu mai formeaz vreo structur aparte.
n mod tradiional, stocarea imaginilor bitmap este fcut n (coninuturi de) fiiere de tip
BMP (iniialele de la Bit-Mapped Picture). n coninutul unui asemenea fiier se stocheaz:
numrul de rnduri de pixeli ce formeaz imaginea (R),
numrul de coloane de pixeli (C),
informaii privind formatul,
culorile tuturor pixelilor din imagine (nti pentru cei de pe primul rnd, unul dup altul,
apoi pentru cei de pe rndul al doilea, unul dup altul, . a. m. d.).
Exist mai multe formate de fiiere de tip BMP, ce difer ntre ele prin numrul de Bii
utilizai pentru stocarea culorii unui pixel. Astfel, utiliznd doar un Bit/pixel, posibilitile de
a colora acest pixel sunt foarte reduse: 0 = alb i 1 = negru. Acesta este aa-numitul format
bitmap monocrom. Dac se utilizeaz 24 Bii/pixel, atunci pentru fiecare dintre cele trei
culori fundamentale (rou, verde, albastru) se pot considera 256 de nuane, existnd n total
peste 16 milioane de posibiliti de a colora un pixel, independent de culorile celorlali.
Cunoscnd numrul P de Bii/pixel, este uor de apreciat cantitatea de memorie necesar
pentru stocarea imaginii: aproximativ R C P/8 Bytes.
Dat fiind c o imagine este considerat bun atunci cnd rezoluia sa depete 10
pixeli/milimetru, ne dm seama imediat c prin stocarea unei imagini obinuite n format de
tip BMP consumm cantiti apreciabile de memorie.
Un alt neajuns al formatelor de tip BMP l constituie faptul c nu sunt recunoscute de
ctre aplicaiile vechi de navigare n Web. Paint poate stoca ns imagini i n fiiere de
tipuri care sunt nelese ca atare de ctre toate navigatoarele.
Un asemenea tip este JPEG (iniialele de la Joint Photographic Experts Group), prin care
stocarea imaginii are loc n urma aplicrii unei proceduri de comprimare. Procedura permite
pierderea unor amnunte de detaliu, sacrificate n scopul declarat al reducerii dimensiunii
fiierului. Fiind pus la punct de experi n arta fotografic, detaliile pierdute sunt
nesemnificative, iar reducerea cantitii de memorie consumat pentru stocare este
considerabil (peste 95%). Fiierele de tipul JPEG sunt folosite pentru stocarea imaginilor
preluate de aparatele foto digitale.
Un alt tip de fiier imagine des ntlnit n paginile Web este GIF (iniialele de la Graphic
Interchange Format). Acesta este utilizat n special pentru stocarea de imagini simple, cu
numr mic de culori (de obicei embleme). i n stocarea unei imagini ca fiier de acest tip
este utilizat o procedur de comprimare, care ns sacrific detaliile despre culoare i nu
detaliile imaginii.
Accesoriul Paint permite stocarea imaginilor i sub form de fiiere de tipul TIFF
(iniialele de la Tagged Image File Format). Acesta este un standard folosit deseori de
aparatele foto digitale pentru nregistrarea imaginilor de nalt calitate. Chiar dac se aplic o
procedur de comprimare, aceasta este fr a se pierde detaliile vizuale, ceea ce face ca acest
format s fie adecvat arhivrii imaginilor. Din pcate el nu este nc recunoscut de ctre
aplicaiile de navigare.
34

Accesoriul Paint permite stocarea imaginilor i sub form de fiiere de tipul TIFF
(iniialele de la Tagged Image File Format). Acesta este un standard folosit deseori de
aparatele foto digitale pentru nregistrarea imaginilor de nalt calitate. Chiar dac se aplic o
procedur de comprimare, aceasta este fr a se pierde detaliile vizuale, ceea ce face ca acest
format s fie adecvat arhivrii imaginilor. Din pcate el nu este nc recunoscut de ctre
aplicaiile de navigare.
Figura anterioar prezint fereastra aplicaiei-accesoriu Paint. Zona central constituie
suprafaa de lucru. n stnga suprafeei de lucru se afl un set de butoane care reprezint
instrumentele de desenare, iar dedesubt se afl paleta de culori disponibile. La fel ca n cazul
ferestrei Notepad, i n fereastra Paint distingem o bar de stare n partea inferioar i o bar
a meniurilor n partea superioar. Pe bara de stare se afieaz coordonatele punctului (din
suprafaa de lucru) deasupra cruia se afl cursorul mausului. Bara meniurilor este una dintre
cele mai simple, doar dou meniuri fiind specifice: Image i Colors.
Dimensiunile suprafeei de lucru pot fi stabilite prin selectarea comenzii Attributes din
meniul Image. Un buton radio Units permite stabilirea acestor dimensiuni n oli (inches),
centimetri sau pixeli (vezi figura de pe pagina urmtoare). n aceeai caset de dialog
Attributes putem alege ntre imagini alb/negru i imagini color.
Caseta de dialog Attributes

35

nainte de a folosi un instrument de desenare trebuie s stabilim cele dou culori cu care
se va lucra, anume culoarea de prim plan (foreground color) i culoarea de fundal
(background color). Culorile care au fost alese sunt afiate n colul de stnga-jos, iar
nlocuirea uneia dintre ele cu o alt culoare din palet se face:
cu un clic-stnga (deasupra culorii dorite) pentru culoarea de prim plan,
cu un clic-dreapta pentru culoarea de fundal.
Pentru nlocuirea celor dou culori de lucru se poate proceda i altfel. Anume, dup
alegerea pipetei ca instrument, plasm cursorul mausului deasupra unui punct colorat n
culoarea dorit i cu un clic-stnga facem ca aceasta s devin culoarea de prim-plan, iar cu
un clic-dreapta culoarea de fundal.
Cel mai simplu meniu este acum Colors, cu singura comand Edit Colors, cu ajutorul
creia putem s schimbm culorile existente n paleta de culori cu altele, alese fie folosind
modelul RGB al celor trei culori fundamentale, fie folosind modelul HSL (vezi figura
urmtoare).
Meniul Image, despre care am amintit anterior, conine i comenzi prin care putem
efectua transformri asupra imaginii:
transformri geometrice simple, prin comenzile Flip/Rotate i Stretch/ Skew,
inversarea culorilor, prin comanda Invert Colors.

Meniul View conine o comand interesant, Zoom, cu subcomenzile Large Size i


Custom. Acestea permit mrirea imaginii pentru lucrul cu detalii. Prin ZoomCustom sunt
posibile 4 niveluri de mrire: 2, 4, 6 i 8. ncepnd de la 4, sau prin Zoom Large
Size putem chiar edita imaginea pixel cu pixel.
Meniurile File, Edit i Help sunt asemntoare celor analoage din aplicaia Notepad. O
deosebire fundamental exist totui, i aceasta este uor de neles dac ne dm seama c
acum nu mai este vorba despre editarea unui text, ci a unei imagini. (S facem observaia c
i de aceast dat aplicaia creeaz n memoria intern o secven de caractere, dar aceste
caractere nu mai sunt interpretate drept bloc de text, ci drept culori de pixeli.)
Copierea se poate efectua doar dup selectarea unei pri a imaginii, iar pentru selectare
se utilizeaz unul dintre instrumentele selector.
nvarea manipulrii instrumentelor de desenare este uurat de explicaiile ce apar pe
bara de stare. (n figura de mai jos exemplificm folosirea instrumentului elips transparent,
a crei grosime a fost stabilit anterior n urma folosirii instrumentului segment.) Tot ce se
adaug n suprafaa de lucru este nglobat n imagine i, de regul, nu mai poate fi anulat.
Excepia trebuie s fie reinut: ultimele trei operaiuni efectuate cu instrumentele de
desenare sunt reinute i pot fi inversate, prin comanda Undo din meniul Edit. Se
recomand salvarea variantelor intermediare ale imaginii n fiiere diferite (cu nume
36

diferite), iar n cazul unor activiti grafice pretenioase se recomand folosirea unui soft
specializat, cum este Microsoft Photo Editor, CorelDraw! sau Adobe Photoshop.
(Pentru compararea complexitii, prezentm n figura urmtoare ferestrele aplicaiior
Paint i Adobe Photoshop.)

2.7. (Microsoft) Word


Word este o aplicaie produs de ctre Microsoft, dedicat diverselor activiti de editare
simpl: scrierea unei scrisori simple sau a unui raport sofisticat de cercetare, sau chiar a unui
roman complex. n ultimele dou decade a evoluat de la versiunile primitive 1.0 i 2.0 la
versiuni operaionale capabile i de creare a paginilor Web, de asemenea i de schimburi de
date cu multe alte tipuri de soft.
Fereastra acestei aplicaii prezint trsturile uzuale ale oricrei ferestre de aplicaie: are o
bar de titlu n partea superioar i o bar de stare n partea inferioar. Imediat dedesubtul
barei de titlu apare bara meniurilor, apoi una sau mai multe bare de instrumente (cea
Standard, cea de Formatare, etc.). Cea mai mare parte a ferestrei simuleaz o pagin alb de
hrtie, bordat de bare de defilare n dreapta i dedesubt, eventual o rigl vertical n stnga
i o rigl orizontal deasupra.
Utilizatorul poate alege diferite comenzi grupate n urmtoarele meniuri derulante:
Fiier Editare Vizualizare Inserare Format Instrumente Tabel Fereastr Ajutor
S observm c n denumirea fiecrui meniu una dintre litere este subliniat. Aceasta este
o veche convenie general, respectat n aplicaiile Microsoft (i nu numai): n caz c
lipsete mausul, meniul derulant corespunztor este deschis prin apsarea tastei [Alt] urmat
de apsarea tastei-liter subliniat.
Comenzile din meniuri care sunt folosite cel mai des sunt dublate de butoane (sau de alte
controale) plasate pe bara standard a instrumentelor, eventual pe alte bare de instrumente.
Comenzile grafice sunt plasate sub form de controale pe bara grafic (desenare), ce se afl
de obicei n partea inferioar a ferestrei (deasupra barei de stare). Afiarea diferitelor bare de
instrumente este controlat prin comanda Bare de instrumente din meniul Vizualizare.
Prima comand din primul meniu Fiier (File) este numit Nou; ea este folosit,
evident, pentru a deschide un document nou, i are ca efect afiarea unei pagini albe. ns
Word este dotat cu mai multe machete predefinite de aranjare a textului pe pagin. Un
ablon (template) const dintrun set de opiuni pentru controlul marginilor, coloanelor,
fonturilor i mrimilor literelor etc. Prin urmare, atunci cnd comandm FiierNou, avem
de ales n primul rnd unul dintre abloanele predefinite (sau s crem unul).
Alegerea ablonului se va face prin intermediul unei casete de dialog denumit de
asemenea Nou. Ne ateptm la aceasta ntruct numele comenzii este urmat de trei puncte
(), ceea ce constituie o alt convenie respectat n aplicaiile Windows: dac numele unei
comenzi este urmat de trei puncte, atunci comanda, odat aleas, nu va fi executat automat;
37

dimpotriv, pe ecran va aprea o caset de dialog n care va trebui s stabilim valorile mai
multor parametri care nsoesc comanda.
Utilizatorii neexperimentai pot folosi ntotdeauna ablonul Normal (stocat n fiierul
denumit Normal.dot).
Cteva cuvinte despre documentele Word. La crearea unui document este deschis o
structur complex n memoria volatil a calculatorului, structur identificat prin numele
DocumentN. Aceast structur conine, alturi de text i de caractere-comenzi de
formatare, anumite date de identificare: numele autorului, titlul i subiectul, cuvinte-cheie i
comentarii. Aceast structur este salvat de obicei ca fiier ntro memorie permanent.
Exist trei tipuri principale de fiiere-document ce pot fi create cu Word:
clasice (avnd extensia doc),
rich text format (avnd extensia rtf),
hipertext (avnd extensia html).
Coninutul unei fiier html va fi prezentat ulterior. Coninutul unui fiier rtf este relativ
simplu; este compus doar din caractere text (printabile), organizate ca secvene de entiti de
forma urmtoare
{\comand bloc_de_text}
n care comanda este aplicat blocului de text.
Prin contrast, n coninutul unul fiier doc poate aprea orice caracter (Unicode); unele
caractere, aflate n poziii speciale, pot reprezenta comenzi particulare cum sunt cele de
centrare a paragrafelor, subliniere a cuvintelor etc. De menionat i faptul c interpretarea
coninutului unui asemenea fiier-document depinde i de versiunea aplicaiei Word.
Meniul Fiier conine comenzi folosite pentru controlul fiierelor, comenzi grupate n mai
multe grupuri.
1. Trei comenzi, numite Nou, Deschidere i nchidere, formeaz primul grup. S
observm litera subliniat n fiecare nume de comand, cu aceast ocazie s evideniem alt
veche convenie n aplicaiile Windows: n absena mausului, apsarea tastei-liter subliniat
declaneaz comanda.
Comanda Deschidere este folosit, evident, pentru a deschide un document salvat, creat
nu neaprat cu Word! Evident, ntro asemenea situaie ne putem atepta s pierdem cea mai
mare parte a formatrii documentului, n caz c a fost realizat cu soft al altei firme (nu
Microsoft).
S observm c i numele comenzii Deschidere este urma de trei puncte; caseta de dialog
Deschidere este foarte important i nelegerea tuturor componentelor ei este obligatorie
pentru toi utilizatorii Word-ului!
Cu Word utilizatorul este capabil s controleze simultan mai multe documente. Comanda
nchidere este folosit, evident, pentru a nchide documentul curent.
Nou i Deschidere sunt dublate prin butoane specifice pe bara instrumentelor.
2. Al doilea grup conine comenzile Salvare, i Salvare ca. Aceste comenzi sunt
folosite pentru salvarea documentului curent. S observm c noua caset de dialog Salvare
ca este similar cu caseta de dialog Deschidere (ceea ce nu este de mirare, ntruct
ambele sunt destinate controlului unor fiiere).
Diferena ntre comenzile Salvare i Salvare ca const n posibilitatea de alegere a altui
nume pentru fiier (n cea de-a doua); evident, atunci cnd documentul este salvat pentru
ntia dat, efectul alegerii lui Salvare sau Salvare ca este acelai.
Un buton special pe bara instrumentelor (iconia dischet") dubleaz comanda Salvare.
3. n cel de-al treilea grup sunt grupate cteva comenzi ce controleaz realizarea paginii
pe suport concret (hrtia). Comanda Iniializare pagin controleaz, prin intermediul unei
casete de dialog multiple, apariia textului pe o pagin virtual, iar comanda Imprimare
controleaz, prin intermediul altei casete de dialog similare cu Deschidere", imprimarea
38

documentului curent. O a treia comand din acest grup, Examinare naintea imprimrii,
poate fi folosit pentru vizualizarea, pe ecran, a felului n care va arta pagina imprimat.
Comenzile Imprimare i Examinare naintea imprimrii, relativ des utilizate, sunt
dublate de obicei de butoane (cu iconiele imprimant i foaie cu lup pe bara instrumentelor).
4. Un alt grup conine comanda Proprieti, folosit pentru a controla (ntro caset de
dialog multipl) datele de identificare ale documentului curent.
5. Urmtorul grup are un numr variabil de componente; aici sunt prezentai
identificatorii celor mai recente fiiere-document pe care le-a prelucrat Word, ceea ce ne
permite regsirea rapid a unui asemenea document.
6. n sfrit, ultimul grup conine doar comanda Ieire, folosit atunci cnd dorim s
ncheiem activitatea cu Word. Efectul este similar celui pe care-l obinem prin nchiderea
ferestrei Word, cu alte cuvinte a folosirii comenzii Close din meniul de control al ferestrei.
7. n meniul Fiier ar putea s apar i alte comenzi, dintre care menionm doar
Scaneaz, n cazul n care este ataat un scanner, i Trimitere ctre.
S observm c principalele comenzi ce acioneaz asupra structurilor din memorie i
asupra fiierelor, adic Nou, Deschidere i nchidere, sunt ntlnite de regul n toate
aplicaiile Windows. i comanda Imprimare apare ntro form similar n toate aplicaiile
ce produc rezultate ce pot fi imprimate pe hrtie.
Atunci cnd deplasm indicatorul mausului deasupra paginii albe de pe ecran, este
posibil ca forma s i se schimbe. De obicei are forma asemntoare literei I, ceea ce ne
permite s efectum urmtoarele aciuni:
cu un singur clic (pe butonul stng) plasm un cursor clipitor (avnd forma unei bare
verticale) n poziia cea mai apropiat a textului. n jurul acestui cursor, numit punct de
inserare, putem insera sau distruge text folosindu-ne de taste.
Inserarea de caractere noi are loc ntotdeauna n stnga punctului de inserare. Dimpotriv,
eliminarea caracterelor poate fi fcut n ambele direcii, folosind tasta [BackSpace] nspre
stnga i tasta [Delete] nspre dreapta;
cu un dublu clic va fi selectat cuvntul de dedesubtul indicatorului mausului;
cu un triplu clic va fi selectat ntregul paragraf de sub indicator;
prin tragerea mausului ne este permis selectarea unui bloc de text arbitrar (o secven
contigu de cuvinte);
cu un singur clic (pe butonul drept) se va deschide meniul de context. Comenzile
acestuia ne permit de exemplu s alegem un sinonim al cuvntului de dedesubtul
indicatorului, sau s transformm acest cuvnt n hyperlink.
Coloana alb special din stnga zonei textului este numit bara de selectare (selection
bar). Aici indicatorul mausului devine o sgeat alb cu vrful spre dreapta. n aceast
situaie, un clic pe butonul stng conduce la selectarea rndului corespunztor n zona de
text, cu un dublu clic selectm ntregul paragraf, iar tragerea ne permite s selectm rnduri
contigue.
Odat ce a fost selectat un bloc de text, n interiorul su i n jurul marginilor sale
indicatorul mausului ia forma unei sgei albe cu vrful spre stnga. Putem trage acum
blocul selectat ntro nou poziie.
Aceasta este de fapt o operaiune de editare, de tipul Decupare-Lipire. Aciuni de editare
mai elaborate sunt permise prin intermediul comenzilor grupate n meniul Editare:
1. Un prin grup conine comenzile Anulare i Repetare/Refacere. Aceste comenzi
depind de context, mai precis de ultima aciune efectuat (tastare, tergere, etc.) i permit
corectarea facil a erorilor.
39

Ambele aceste comenzi pot fi sunt dublate de casete-list speciale pe bara instrumentelor,
avnd ca iconie sgei curbe, iar listele coninnd ultimele activiti efectuate.
2. Al doilea grup conine comenzile clasice de editare Decupare, Copiere i Lipire,
toate trei dublate de butoane pe bara instrumentelor. Dac nu este selectat niciun bloc de
text, numele Decupare i Copiere i butoanele respective sunt filtrate cu gri, ceea ce
nseamn c aceste comenzi sunt nepermise n contextul respectiv. Aceasta este o alt
convenie general valabil n toate aplicaiile Windows: numele sau controalele filtrate cu
gri corespund comenzilor sau opiunilor ce nu sunt permise n momentul respectiv. Evident,
dup o selectare de bloc de text, comenzile Decupare i Copiere vor fi permise.
Decuparea unui bloc de text nseamn de fapt mutarea sa n aa-numitul clipboard care,
reamintim, este o memorie special ntreinut de Windows pentru a se permite transferuri de
obiecte ntre aplicaii. Copierea nseamn plasarea n clipboard a unei cpii a blocului de
text selectat. Lipirea nseamn preluarea unei cpii a coninutului magaziei clipboard n
poziia curent a cursorului de editare.
Copierea unui bloc de text selectat poate fi fcut i printro scurttur, prin tastarea
combinaiei [Ctrl]+[C]. O scurttur similar, [Ctrl]+[V], poate fi folosit pentru a lipi din
clipboard.
n acest al doilea grup sunt incluse alte comenzi speciale de lipire, dintre care menionm
doar Lipire ca hyperlink.
3. Al treilea grup conine o comand important, Selectare total, folosit evident
pentru a selecta ntreg coninutul documentului ca bloc de text.
4. Al patrulea grup conine comenzi folosite pentru a regsi informaii particulare n
interiorul unui document i eventual a le nlocui automat cu alte informaii. Toate cele trei
comenzi Gsire, nlocuire i Salt la conduc la aceeai caset de dialog; aici cele mai
importante controale sunt dou casete combinate (text plus list) intitulate De cutat i
nlocuire cu.
Trebuie menionat c n toate casetele-text sunt aplicabile regulile de editare, n particular
copierea i lipirea folosind scurtturile obinuite [Ctrl]+[C], [Ctrl]+[V]!
S observm i iconia (binoclu) din stnga cuvntului Gsire. Aceasta ne spune c
putem avea comanda dublat de un buton pe bara instrumentelor. Dar, atenie, pot avea loc
modificri ale coninutului barei instrumentelor, n urma unei comenzi din meniul ce
urmeaz.
Meniul Vizualizare conine mai multe comenzi ce permit s controlm att modul n care
documentele sunt afiate pe ecran, ct i apariia altor auxiliare.
Primul grup de comenzi conine de fapt mai multe comenzi mutual exclusive (aadar un
buton radio de comenzi) prin care controlm ct de mult informaie este afiat pe ecran
mpreun cu textul documentului. De exemplu, alegnd Aspect pagin Web vom putea
vedea felul n care documentul nostru va aprea n fereastra unui navigator (browser pentru
World Wide Web).
De obicei, atunci cnd se tasteaz rapid fr formatare, se va folosi vizualizarea Normal;
dar, atunci cnd producem documente ce urmeaz a fi imprimate este recomandabil s
folosim vizualizarea Aspect pagin imprimat.
Alte comenzi din meniul Vizualizare evident, plasate n alte grupe ne permit s
controlm apariia antetului (header) i/sau a subsolului (footer), a notelor de subsol
(footnotes) i comentariilor,
controlm apariia riglelor (orizontal i vertical),
controlm apariia i coninutul diferitelor bare de instrumente,
mrim/micorm imaginea paginii pe ecran.
Meniul Inserare conine mai multe comenzi, ce permit utilizatorului s insereze n
document:
40

ntreruperi,
numerotri ale paginilor,
data i ora curent,
simboluri speciale pentru formule simple sau cu diacritice,
comentarii, note de subsol, semne de carte (bookmarks), referine ncruciate i
indexarea termenilor,
text automat,
imagini i chenare,
obiecte realizate cu soft auxiliar,
coninutul altor fiiere,
hiperlegturi (hyperlinks).
S menionm o excepie: pentru inserarea de tabele va trebui s folosim comanda
Inserare Tabel din meniul Tabel!
A formata un document nseamn a aciona pentru a-i mbunti aspectul, n scopul
micorrii timpilor de percepie a componentelor sale importante. Prin formatare se nelege
de obicei modificarea, pentru diverse blocuri de text, a urmtoarelor atribute:
fontul i mrimea literelor;
evidenierea prin nclinare (italic), ngroare (bold) i/sau subliniere;
coloane, borduri, texturi, culori etc.
Formatarea unui document poate fi fcut att n timpul tastrii textului, ct i ulterior
(dup ncheierea tastrii).
Din punct de vedere logic, un document clasic este organizat n seciuni, ca o succesiune
de paragrafe, fiecare paragraf este o succesiune de cuvinte, iar fiecare cuvnt este, evident, o
secven de caractere text. Pe de alt parte, dimensiunile suportului fizic (hrtia) impun
divizarea paragrafelor lungi pe mai multe rnduri. Tradiional se practic prezentarea pe
un numr de coloane (n cadrul seciunii) i sunt adoptate reguli de spaiere i repoziionare a
rndurilor unui paragraf ce nu ncap n ntregime pe coloan.
Se practic de asemenea plasarea pe pagin a unor chenare coninnd imagini sau texte
separate, cum ar fi notele de subsol; de asemenea, se practic plasarea unui antet i/sau unui
subsol coninnd informaii de identificare sau de numerotare a paginilor.
Evident, n realizarea informatizat a documentelor se ine seam de toate elementele
tradiionale.
Majoritatea comenzilor importante prin care se realizeaz formatarea unui document sunt
dublate prin casete derulante i butoane plasate pe o bar special, numit bara de
formatare i afiat de obicei sub bara standard a instrumentelor. Aceste comenzi sunt
grupate n meniul Format.
De obicei n stnga barei de formatare se afl caseta derulant prin care se controleaz
stilul paragrafului curent. Stilul este, prin definiie, ansamblul valorilor atributelor de
formatare pentru un paragraf, considerat ca bloc de text. Cu ajutorul casetei derulante se
poate alege, pentru paragraful curent, unul dintre stilurile gata pregtite (aflate n galeria de
stiluri a ablonului folosit). Galeria de stiluri poate fi explorat printro comand (Stil) uor
identificabil n meniul Format, iar crearea unui stil nou sau modificarea unuia existent se
poate face apelnd la aceeai comand.
De obicei, paragrafele obinuite sunt realizate n stilul Normal al ablonului implicit
Document necompletat, iar pentru paragrafele de titlu sunt prevzute diverse stiluri
adecvate.
Alte dou casete derulante controleaz fontul (de fapt familia de fonturi) i mrimea
literelor pentru blocul de text selectat sau, n lipsa seleciei, pentru caracterul ce urmeaz a fi
tastat.

41

Alinierea rndurilor unui paragraf se face, n mod obinuit, fa de marginile stngdreapt ale coloanei curente. Aceast practic se poate modifica prin schimbarea indentrii,
folosind dou butoane de pe bara de formatare dedicate acestui scop. De asemenea, prin
tradiie se obinuiete s se retrag primul rnd al unui paragraf fa de marginea din stnga,
ceea ce se numete indentare special. A doua posibilitate grafic de a modifica cele dou
margini ale paragrafului, precum i indentarea special, o constituie repoziionarea unor
indicatori aflai pe bara orizontal a riglei. Acelai efect va fi obinut i prin comenzi;
acestea sunt plasate ca opiuni n caseta de dialog Paragraf asociat comenzii Paragraf din
meniul Format.
Alinierea unui rnd fa de marginile stng-dreapt (stabilite pentru paragraf) poate fi
fcut n patru feluri: doar la stnga, doar la dreapta, sau fa de ambele margini (aceast
aliniere se obine prin dilatarea corespunztoare a tuturor spaiilor albe ce separ cuvintele de
pe rndul respectiv); a patra posibilitate este cea de a centra. Cele patru modaliti de
aliniere pot fi alese rapid, prin apsarea butoanelor corespunztoare de pe bara de formatare.
Exist foarte multe posibiliti de evideniere a unui bloc de text, odat ce a fost selectat.
Aceste posibiliti sunt controlate prin patru comenzi din meniul Format:
o Font,
o Paragraf,
o Marcatori i numerotare,
o Borduri i umbrire.
Toate conduc la casete de dialog multiple, a cror utilizare este ns simpl datorit
posibilitii de a controla, prin imagini sugestive afiate instantaneu, efectul alegerii fiecrei
opiuni.
Meniul Format conine i alte comenzi, dintre care menionm comanda Coloane ce
poate fi folosit pentru stabilirea numrului de coloane pentru blocul selectat sau pentru o
seciune a documentului. Se recomand ca stabilirea numrului de coloane s se fac n
interiorul unei seciuni; reamintim c o seciune nou se obine apelnd la comanda
ntrerupere din meniul Inserare, opiunea Continuu (din butonul radio Tipuri de sfrit
de seciune).
De asemenea, comanda Tabulatori poate fi folosit pentru fixarea poziiei i
proprietilor tabulatorilor. Menionm c parametrii de control al tabulrii pot fi schimbai
pentru fiecare paragraf n parte; n mod obinuit ei sunt preluai de la un paragraf la cel
urmtor, aa cum se ntmpl de regul cu toi parametrii paragrafului.
Foarte multe aciuni de formatare pot fi realizate i prin combinaii de taste, de obicei
bazate pe tasta [Ctrl]. Astfel, de exemplu, prin combinaia [Ctrl]+[L] se realizeaz alinierea
paragrafului curent fa de marginea stng (stabilit n acel moment).
Menionm c i inserarea de simboluri speciale sau de alte obiecte n cadrul
documentului este considerat operaie de formatare, dar aciunile corespunztoare sunt
obinute prin comenzi din meniul Inserare.
Un alt meniu foarte amplu este cel denumit Instrumente. Vom insista doar asupra a patru
comenzi ale sale: AutoCorecie, Corectare ortografic i gramatical, Limb i Opiuni.
Evident, un corector gramatical este extrem de util, semnalndu-ne eventualele construcii
greite de propoziii. Folosirea unui asemenea corector gramatical se bazeaz n primul rnd
pe un lexicon de cuvinte n limba respectiv, apoi pe un set de reguli gramaticale clare.
Aceste instrumente sunt implementate n fiiere cu extensia lex i existena acestor fiiere
condiioneaz evident posibilitatea folosirea comenzilor.
Alegerea limbii n care redactm documentul este evident efectuat prin comanda Limb.
S facem observaia c denumirea comenzii este nsoit, n dreapta, de un triunghi negru; n
general, apariia acestui triunghi alturi de denumirea unei comenzi are rolul de a ne avertiza
c aceast comand nu este complet, ci urmeaz s alegem ntre cteva subcomenzi. n
cazul nostru subcomenzile importante sunt dou: Stabilire limb i Desprire n silabe.
42

Comanda AutoCorecie ne permite s completm o list cu erorile pe care le facem n


mod reflex la tastare i cu coreciile ce trebuie efectuate. Atenie, aplicaia Word va efectua
n mod automat aceste corecii! (Acolo unde corecia nu se impune va trebui s revenim.)
Comanda Opiuni conduce la o caset multipl de dialog, foarte ampl, prin intermediul
creia putem efectua modificri asupra valorilor parametrilor ce controleaz global
activitatea aplicaiei Word. Foarte importante, n grupul General, sunt opiunile:
de stabilire a numrului fiierelor recente (pe care le-am utilizat recent); aici controlm
afiarea listei acestor fiiere, aa cum apare n meniul Fiier;
de stabilire a unitii de msur pentru lungimi. n tipografia clasic se folosete mult
punctul tipografic. Menionm c 72 p.t. = 1 (inch), iar 1 inch = 2.54 cm.
O alt opiune important, de regul activat, este cea denumit Selectare nlocuit prin
tastare, plasat n grupul Editare. S ne obinuim cu ideea c un bloc selectat, oriunde i
orict de mare ar fi, va disprea instantaneu odat cu apsarea unei taste oarecare!
(Evident, nu definitiv, cci opiunea Anulare din meniul Editare va determina revenirea la
situaia anterioar.)
Comenzile meniului Tabel controleaz evident tabele, ncepnd cu crearea lor. n
interiorul unui tabel cteva reguli de editare sunt modificate sau chiar anulate. De exemplu,
tabularea nu este permis n interiorul celulelor unui tabel.
mprejurul i deasupra unui tabel indicatorul mausului poate lua diverse forme, unele
nentlnite n alte situaii. Aceste forme sunt folosite pentru redimensionarea coloanelor sau
liniilor i pentru selectarea coloanelor.
Comenzi importante din acest meniu permit:
sortarea liniilor, adic rearanjarea liniilor n alt ordine; este vorba, evident, despre
comanda Sortare;
calcularea unor valori pe baza datelor din celulele tabelului, prin comanda Formul;
conversia liniilor tabelului n paragrafe obinuite, ntre celule putndu-se plasa
caractere de separare; comanda este, evident, Conversie Tabel n text. Exist i posibilitatea
invers, anume cea de a converti n tabel un bloc de text selectat; va fi nevoie, evident, de
precizarea caracterului care determin separarea datelor pe coloane.
Cele cteva comenzi ale meniului Fereastr permit afiarea pe ecran, simultan:
a dou pri distincte ale aceluiai document,
a dou sau mai multe documente distincte, ceea ce permite compararea vizual a
coninuturilor lor.
n acelai meniu apare i lista documentelor deschise, ceea ce permite comutarea rapid a
activitilor de editare, n particular transfer de text, de la un document la altul.
Exerciii. 1) Blocul de text Introducere este afiat pe ecran, cu litere aldine, ntrun
paragraf special. Identificai modul n care va fi salvat informaia aferent blocului de text
ntrun fiier de tip document Word, ntrunul de tip rtf i ntrunul de tip html.
2) Identificai toate opiunile ce pot fi controlate n caseta de dialog ce apare ca urmare a
comenzii InstrumenteOpiuni. Care este rolul fiecreia?
3) Aplicaia Word a evoluat n timp, de la versiune la versiune devenind tot mai complex
i performant. Aflai ce modificri au avut loc fa de versiunea anterioar.
2.8. Aplicaii de calcul tabelar. (Microsoft) Excel
Tradiia activitilor contabile cere ca datele privind veniturile i cheltuielile unei firme
sau gospodrii s fie aranjate sub forma unui tabel. Modul tabelar de aranjare a datelor este
adecvat i pentru alte activiti, n general este adecvat tuturor activitilor n care datele
primare numerice urmeaz a fi prelucrate. Evident, i n domeniul medical ntlnim
43

deseori situaii n care aranjarea tabelar a datelor prezint avantaje considerabile, i aceasta
nu doar n gestiunea spitalului sau a cabinetului medical.
Pentru activitile umane n care sunt folosite tabele au fost create de ctre diverse firme
creatoare de soft aa-numitele aplicaii de calcul tabelar. Cele mai cunoscute sunt Excel,
Lotus 1-2-3, Quattro Pro. n cele ce urmeaz ne vom referi de regul la aplicaia Excel
(creat de firma Microsoft), cu meniunea c deosebirile fa de alte aplicaii similare sunt
minore.
n afara rapiditii cu care sunt executate calculele, n general aplicaiile de calcul tabelar
prezint i alte avantaje:
recalculare automat (i instantanee") a tuturor rezultatelor, imediat ce o valoare
oarecare a fost modificat;
posibiliti multiple de formatare utile pentru prezentarea, pe ecran, a datelor;
posibilitatea reordonrii rapide a liniilor, dup diverse criterii;
existena unei varieti de funcii implementate, de natur matematic, statistic,
financiar care, nsoite fiind de explicaii detaliate privind modul de utilizare, sunt
utilizabile cu uurin chiar de ctre nespecialiti;
posibilitatea realizrii rapide a diagramelor i graficelor statistice, de diverse forme, pe
baza datelor din tabele;
posibilitatea transferului rezultatelor spre i dinspre documente (create nu doar cu
Word).
De peste un deceniu n aceste aplicaii a fost implementat organizarea datelor pe mai
multe foi de lucru (worksheets), presupuse situate una peste alta ca ntro carte. Fiecare
foaie de lucru are o denumire ce o identific Implicit, n Excel aceste denumiri sunt Foaie1
(Sheet1), Foaie2 (Sheet2),
Organizarea ferestrei aplicaiei Excel

44

O foaie de lucru poate fi organizat ca tabel (spreadsheet).


Orice tabel este format din celule dispuse pe linii i pe coloane. n fiecare celul putem
plasa o valoare de un tip extrem de divers:
valoare numeric;
text (secven de caractere);
dat calendaristic;
formul de calcul cu datele plasate n alte celule.
Afiarea pe ecran a valorii unei celule poate fi efectuat n diverse moduri; de regul
valoarea afiat difer, uneori substanial, de valoarea plasat n celul!
Exprimarea formulelor respect regulile clasice ale algebrei, semnele operaiilor
aritmetice fiind +, , * (pentru nmulire) i / (pentru mprire). Pentru a fi deosebite de
textele ordinare, formulele sunt precedate de caracterul =.
Evident, o celul este identificat prin precizarea liniei i coloanei din care face parte.
Astfel, notaia R21C8 identific precis celula aflat pe linia (row) a 21-a i coloana (column)
a 8-a.
Acest mod de identificare este ns rar folosit. De obicei identificarea coloanelor se face
prin litere A, B, iar dup epuizarea acestora prin secvene de dou litere AA, AB, , AZ,
BA, BB, Ct despre identificarea liniei, aceasta este dat de numrul de ordine: 1, 2, 3,
Astfel, notaia H21 identific aceeai celul ca i R21C8.
Ca exemplu general, notaia Foaie2!AB215 identific celula aflat pe coloana a 28-a i
linia a 215-a de pe a doua foaie implicit.
Pe o foaie de lucru organizat ca tabel pot exista cel mult 256 de coloane (ceea ce
nseamn c ultimul identificator de coloan este IV). Ct despre numrul maxim de linii,
acesta este n principiu 65536 (un numr foarte mare fa de necesitile obinuite ale unui
utilizator sau ale unui grup restrns de utilizatori. n realitate limitarea este dat de
capacitatea memoriei de lucru a calculatorului; un calcul imediat, ce ine seam de faptul c
n fiecare celul putem plasa cel mult 32000 de caractere, arat c o foaie de calcul plin
va ocupa aproximativ 1 TB!)
Celulele pot fi grupate, dup dorin, n domenii, iar pentru uurin domeniile pot fi
denumite.
Un domeniu elementar este uor de definit, ca grup dreptunghiular de celule (contigue).
Un asemenea grup este determinat evident de dou celule extreme: cea de col din stnga-sus
i cea de col din dreapta-jos. Evident, o celul poate fi considerat ca formnd, ea singur,
un domeniu elementar degenerat. De asemenea, pot exista domenii de tip coloan, pentru
care dreptunghiul se reduce la celule contigue de pe aceeai coloan; analog pentru linii.
Identificarea unui domeniu elementar (care nu este degenerat) poate fi fcut prin
specificarea identificatorilor celulelor de col, separndu-i prin caracterul :. Astfel, C1:E4
identific un domeniu elementar avnd 12 celule (situate pe 4 linii i 3 coloane), iar A2:D2
identific un domeniu tip coloan, avnd 4 celule.
n general, un domeniu este alctuit din domenii elementare, prin operaiuni de reunire i
intersectare. Pentru simbolizarea reunirii se folosete caracterul ,, iar pentru simbolizarea
intersectrii se folosete caracterul (blanc). Astfel, A3:B5,D3:E5 identific un domeniu
format din 12 celule, grupate n dou domenii elementare separate. Ca s dm un alt
exemplu, B3:C6 A4:D5 identific exact domeniul elementar B4:C5. (n general domeniile
care nu sunt elementare sunt mai rar folosite.)
De obicei ntrun domeniu sunt depuse date ce au o legtur logic ntre ele (dar nu sunt
neaprat de acelai tip). Astfel, n cazul reprezentrii grafice a unor date numerice se
45

obinuiete s se extind domeniul datelor cu o linie i o coloan de explicaii. Excel


nelege rostul fiecrei date din acest domeniu extins.
Fa de Word, n Excel apar noi forme ale indicatorului mausului (vezi figura).
Excel forme ale indicatorului mausului

Forma de cruce alb este folosit pentru selectarea unui domeniu. Domeniul elementar
selectat va fi ncadrat, iar celulele sale vor avea fundalul colorat (cu excepia celulei active,
plasat n col).
Forma asemntoare literei I este folosit n activiti de editare.
Forma de sgeat alb (vrful nspre stnga) este folosit pentru mutarea domeniului
selectat.
Forma de cruce neagr se folosete pentru activiti de umplere automat a coninuturilor
celulelor, prin tragere (drag and drop)
Forma de sgeat dubl este folosit pentru redimensionare (n direciile artate de
sgei).
Ca pentru orice aplicaie Windows, i n fereastra aplicaiei Excel apare bara titlului, bara
meniurilor, bara instrumentelor i bara de stare, ncadrnd zona de lucru. n funcie de
necesiti pot fi afiate i alte bare, ca de exemplu bara de desenare. Specific aplicaiei este:
1) organizarea celei mai mari pri a zonei de lucru n linii i coloane corespunztoare
foii active. Evident, liniile i coloanele sunt bordate cu zone gri pentru identificare. n
stnga sus, spaiul rmas este ocupat de butonul Selecteaz totul;
2) apariia barei formulei, deasupra zonei de lucru, folosit pentru editarea formulei din
celula curent; n stnga ei se afl caseta numelui, folosit pentru redenumire i regsirea
rapid a unui domeniu.
S trecem n revist cteva dintre posibilitile de calcul ale aplicaiei Excel.
1) Completarea automat a unui domeniu (linie sau coloan) cu valorile unei progresii.
Dac se completeaz dou celule contigue cu primele dou valori ale progresiei (exemple:
luni/mari, ianuarie/februarie, 10/20) i se selecteaz aceste dou celule, atunci prin tragere
cu mausul (forma cursorului = cruce neagr) de mnerul de tragere progresia se va
extinde.
2) Extinderea prin copiere a unei formule, de la o celul la un domeniu.
Folosindu-se comenzile EditareCopiere i EditareLipire, coninutul-surs al unei
celule poate fi copiat n alte celule. Dac sursa este o formul implicnd identificatori ai
altor celule, n urma copierii formula se va modifica diferenial.
De exemplu, dac n celula C1 coninutul este formula =A1+B1*A2, atunci prin copiere
n celula E4 (cu dou coloane n plus i trei linii n plus) formula devine =C4+D4*C5 (adic
indicatorii coloanelor au fost mrii cu 2, iar indicatorii liniilor au fost mrii cu 3).
Indicatorii ce nu trebuie s se modifice n urma copierii trebuie s fie nregistrai precedai
de caracterul $. Astfel, dac formula din C1 ar fi fost =$A$1+B$1*$A2, atunci n urma
copierii n celula E4 ar fi aprut formula =$A$1+D$1*$A5.
3) Copierea unui ntreg domeniu, cu adaptarea sau nu a formulelor la noua situaie.
46

Dup selectarea domeniului i folosirea comenzii EditareCopiere, se poate folosi fie


EditareLipire, fie EditareLipire specialValori.
4) Folosirea funciilor ncastrate, implementate n aplicaie.
Este vorba att despre funciile matematice uzuale (trigonometrice, exponeniale i
logaritmice, operaii cu numere complexe), unele funcii financiare, logice sau de prelucrare
a textului, dar mai ales despre majoritatea funciilor statistice necesare prelucrrii elementare
a datelor. Acestea din urm sunt de regul funcii de domeniu, avnd aadar ca argumente
domenii. Iat cteva:
SUM(domeniu) pentru calculul sumei datelor depuse n domeniu;
AVERAGE(domeniu) pentru calculul mediei datelor depuse n domeniu;
STDEV(domeniu) pentru calculul abaterii standard a datelor depuse n domeniu;
FREQUENCY(domeniul datelor, domeniul limitrilor) pentru calculul frecvenei
absolute a claselor formate prin limitrile indicate, din datele depuse n domeniu.
Folosirea tuturor acestor funcii este uurat enorm de caseta de dialog ce ofer toate
explicaiile necesare utilizatorului.
Excel dispune de o serie de posibiliti grafice. Prin comanda InsereazDiagrame
putem obine diverse reprezentri grafice ale datelor depuse ntrun domeniu. Este important
de reinut c legtura ntre datele din domeniu i reprezentarea grafic a lor este dinamic
(ceea ce nsemn c orice modificare a datelor va fi reflectat instantaneu n diagram).
Controlul reprezentrii grafice este asigurat printro succesiune de patru casete de dialog.
Ele permit, n ordine:
1. alegerea tipului de diagram: cu bare, rozet etc.;
2. confirmarea (sau modificarea) domeniului datelor precum i precizarea seriilor de
date;
3. declararea diverselor componente anex: titlu, legend, etichete etc.;
4. alegerea modului de afiare: ca obiect grafic inserat n foaia de calcul, respectiv ca
foaie nou. (Aceast ultim opiune este cea recomandat.)
Odat realizat, graficului i se pot aduga diverse componente suplimentare, eventual
obinute cu alte programe: imagini din fiiere grafice, figuri geometrice standard
(dreptunghiuri, sgei, etc.), texte din WordArt. Acestea pot fi plasate n orice poziie i pot
fi transformate geometric (translatate, rotite, deformate, ) independent, conform regulilor
obinuite. Pentru aceste aciuni se folosesc de obicei butoanele plasate pe bara de desenare, a
crei afiare este controlat cu opiunea VizualizeazBareDesen).
Posibilitile aplicaiei Excel sunt mult mai ample, depind cu mult cele prezentate n
acest curs. n ncheierea acestei seciuni repetm c Excel face parte din softul de uz general,
adresat tuturor utilizatorilor.
Exerciii. 1) Formatarea unei celule de pe o foaie de calcul Excel implic mai multe
opiuni. Identificai opiunile de aliniere, de colorare i de protecie.
2) Aflai amnunte despre componentele care pot fi incluse la cerere n Excel.
3) Comenzile Lipire special din meniul Editare i Celule din meniul Format sunt
foarte importante. Identificai efectul fiecreia, n toate contextele posibile.
2.9. Microsoft Office 2007
Aplicaiile Word i Excel, mpreun cu alte cteva (PowerPoint, Access, Outlook, ...) au
fost grupate de firma productoare Microsoft n suita Office. Prezentarea anterioar a
principalelor comenzi utilizabile n aceste aplicaii corespunde versiunilor anterioare lui
Office 2007. Caracteristica fundamental a acestor versiuni o constituia gruparea comenzilor
47

n meniuri, pe baza afinitilor dintre ele. Evident, exista posibilitatea de modificare, att a
barei meniurilor, ct i a compoziiei lor, dar n esen meniurile erau relativ stabile, iar
comenzile inutilizabile erau obturate.
Odat cu Office 2007 a avut loc o schimbare drastic s organizrii suitei, ncepnd chiar
cu adoptarea noii interfee grafice Office Fluent. Practic bara meniurilor a disprut, iar
meniurile au devenit simple grupuri de comenzi. n locul acestei bare au aprut trei obiecte
noi, anume butonul Office, panglica i minibara de acces rapid (vezi figura).

Mai mult, comenzile au fost regrupate, de regul n funcie de gradul lor de utilitate.
Astfel, cele mai des folosite de ctre utilizator sunt la ndemn, reprezentate prin obiecte
sugestive. Scopul reorganizrii interfeei grafice a fost clar: eficientizarea muncii de obinere
a unui rezultat final estetic i transmisibil.
Butonul Office nlocuiete n esen vechiul meniu File. Prin intermediul su putem
efectua operaiunile de creare, preluare, export i tri mitere de fiiere speciale. Fiierele
speciale pot fi documente sau foi de calcul clasice, dar i de tip nou, identificabile prin
extensiile DOCX (pentru documente), XLSX (pentru foi de calcul).
Panglica este format din mai multe tablete, care ar putea fi asimilate meniurilor
clasice. Totui, coninutul unei tablete-meniu este mult mai complex i se schimb n funcie
de situaia de moment.
Minibara de acces rapid, n partea superioar a ferestrei, conine butoane care reprezint
cele mai folosite comenzi.
Ca regul general se pstreaz urmtoarea: accesul la metodele cu care se poate aciona
asupra unui obiect selectat, indiferent care, sunt listate n meniul de context al obiectului.
Accesul la acest meniu este determinat de un clic-dreapta deasupra obiectului.
Suita Office 2007 conine urmtoarele aplicaii:
a) Word 2007, pentru crearea de documente;
b) Excel 2007, pentru calcul tabelar;
c) PowerPoint 2007, pentru crearea de prezentri;
d) Access 2007, pentru administrarea bazelor de date;
e) Outlook 2007, pentru gestionarea mesageriei electronice;
f) InfoPath 2007, pentru crearea de formulare.
Vom reveni n cursurile 5 i 6.

48

Cursul 3. Elemente de teoria probabilitilor


n luarea deciziilor n condiii de incertitudine aa cum se ntmpl de regul n
medicin, dar nu numai! metodele statisticii sunt de cea mai mare importan.
Aceste metode au un specific aparte, iar rezultatele obinute n urma aplicrii lor trebuie
acceptate ntotdeauna cu asumarea unui anumit risc. Fundamentarea acestor metode se poate
face n cadrul teoriei probabilitilor, veche de circa patru secole. Aceasta nu nseamn deloc
absolutizarea acestei teorii, iar n ultimele decade au aprut multe alte teorii avnd ca scop
tratarea incertitudinii. Totui, cunoaterea teoriei probabilitilor rmne necesar pentru
nelegerea altfel a multor fapte pe care le ntlnim.
Coninutul acestui curs este urmtorul:
3.1. Experimente i evenimente ......................................................................................
3.2. Probabiliti ..............................................................................................................
3.3. Evenimente condiionate i probabilitile lor .........................................................
3.4. Teorema lui Bayes ...................................................................................................
3.5. Comparaii i paradoxuri .........................................................................................
3.6. Variabile aleatoare i distribuii ...............................................................................
3.7. Distribuii binomiale ................................................................................................
3.8. Distribuii Poisson ....................................................................................................
3.9. Distribuii continue ..................................................................................................
3.10. Distribuii normale (Gauss) ...................................................................................
Adrese web utile:
www.info.umfcluj.ro/resurse
plato.stanford.edu/entries/bayes-theorem
www.britannica.com/EBchecked/topic/56808/Bayess-theorem
www.bmj.com/cgi/content/full/309/6967/1480
www.stats.gla.ac.uk/steps/glossary/

49

50
52
54
56
58
60
65
68
69
72

3.1. Experimente i evenimente


Biostatistica este o parte a statisticii, statistica se bazeaz pe calculul probabilitilor, iar
acest calcul presupune cunoaterea unui anumit neles al noiunii de eveniment. Acest
neles este legat de noiunea de experiment.
n fizica clasic ntlnim multe legi ce au caracter determinist, de exemplu legea cderii
corpurilor. Aceast lege ne permite s prezicem cu precizie traiectoria unei ghiulele sau
chiar a unei rachete. n cazul n care repetm experimentul, vom obine de fiecare dat
acelai rezultat.
Din contra, n termodinamic cele mai multe legi nu au caracter determinist. Repetnd o
experiment, am putea obine de fiecare dat un alt rezultat. Fenomenele i procesele
termodinamice sunt aleatoare: nu se poate prezice rezultatul unui asemenea fenomen sau
proces, ns se poate prezice o distribuie a rezultatelor.
Legile biologice (ncepnd cu cea a lui Mendel) au toate un caracter aleator.
Prin experiment vom nelege un process repetabil, care are un rezultat fie identificabil,
fie msurabil. Exemple tipice sunt urmtoarele:
Aruncarea unui zar; rezultatul obinut este identificabil;
Msurarea diametrului unei celule (n microni), sau a nlimii unei persoane (n
centimetri), sau a tensiunii arteriale sistolice; rezultatele sunt, evident, msurabile;
Examinarea unei radiografii pulmonare a unui pacient; rezultatul este identificabil
(const fie n detectarea, fie n nedetectarea tumorii);
Numrarea cazurilor de grip nregistrate sptmnal de un medic de familie;
rezultatul este identificabil. (Chiar dac este exprimat n numere, aceste numere nu apar ca
urmare a unei msurri!)
(S ne amintim c msurarea unui obiect nu nseamn altceva dect compararea sa cu un
alt obiect, de acelai fel, ales anterior ca unitate de msur!)
n multe cazuri i n biologie cel mai frecvent rezultatul unui experiment nu este unic
i nu poate fi prezis cu precizie; se spune c avem de-a face cu un experiment aleator.
Aceasta nseamn c, dac repetm de mai multe ori un experiment aleator admind c o
putem face de fiecare dat am putea obine un alt rezultat.
Evenimentele elementare sunt rezultatele posibile ale unui experiment aleator. Iar prin
eveniment vom nelege o colecie de evenimente elementare.
Exemple evidente sunt legate de aruncarea unui zar: muli oameni obinuii consider c
este un eveniment. Conform definiiei de mai sus, aceasta la fel ca i
apariia feei
apariia feei
apariia lui

este un eveniment elementar! Atenie, eveniment este de asemenea


sau

! n urma unui asemenea experiment pot aprea multe evenimente

nu doar ase, ci i alte cincizeci i opt n total aizeci i patru!


Un alt exemplu de eveniment l constituie detectarea unei tumori dup ce vom fi
examinat radiografia pulmonar a pacientului Ion Ionescu. (Aici situaia este mult mai
simpl, existnd doar dou situaii: vom detecta tumoarea sau nu. Acestea sunt ns
evenimentele elementare! Ne vom da seama n cele ce urmeaz c teoria stabilete existena
a patru evenimente!)
Din punct de vedere logic, odat cu un eveniment am putea considera aa-numitul.
eveniment complementar.
Pentru a nelege cum se opereaz cu evenimente, s considerm i exemplul
experimentului ce const n msurarea diametrului unei celule, n urma cruia obinem un
rezultat msurabil. Dac alegem un interval arbitrar [a, b] de numere reale unde a < b
50

vom obine urmtorul eveniment legat de acest interval: rezultatul msurrii diametrului unei
celule este n acest interval, adic este un numr ntre a i b. S notm cu E acest eveniment
particular.
Din punct de vedere logic apare i evenimentul complementar: rezultatul msurrii
diametrului celulei este n afara intervalului, ceea ce nseamn c fie este mai mic dect a, fie
este mai mare dect b. Acest eveniment complementar lui E va fi notat E (a se citi E
barat). Evident, dac intervalul nostru este [0, 1 (km)], atunci este sigur c rezultatul
msurrii diametrului celulei va cdea n acest interval. Avem de-a face n acest caz cu
evenimentul sigur.
Complementarul evenimentului sigur este numit evenimentul imposibil i este notat cu
simbolul (acelai folosit n teoria mulimilor pentru notarea mulimii vide).
(Atunci cnd aruncm un zar, evenimentul sigur const n apariia unei fee, iar
evenimentul imposibil const n faptul c nu apare nicio fa.)
S continum cu exemplul msurrii diametrului celulei i s considerm un alt interval
[c, d] de numere reale (cu c < d). S notm cu F urmtorul eveniment: rezultatul msurrii
diametrului cade n acest ultim interval [c, d], adic ntre c i d.
Avem acum dou evenimente veritabile, E i F (i automat nc dou, complementarele
lor, E i F ). ns logica ne spune c mai apare un eveniment, anume: rezultatul msurrii
diametrului cade ntre c i b (vezi figura urmtoare).

Este natural s notm acest ultim eveniment cu E F i spunem c el este conjuncia


evenimentelor E i F. Vom citi expresia E F astfel evenimentul E i F.
n general, odat date evenimentele E i F ca rezultate posibile ale aceluiai experiment,
ne putem imagina un al treilea eveniment E F ca rezultat posibil al experimentului
nostru.
De exemplu, dac vom arunca un zar i dac E nseamn apariia unei fee cu mai puin
de trei puncte, iar F nseamn apariia unei fee pare, atunci E F nseamn exact
apariia lui

. Dac ns F ar nsemna apariia lui

, atunci evident E F ar fi

imposibil, adic E F = .
n general, dac pentru dou evenimente E i F constatm c
E F = ,
vom spune c evenimentele noastre sunt exclusive.

Din punct de vedere logic, odat date dou evenimente E i F, am putea lua n
considerare, pe lng conjuncia E F , i disjuncia notat E F . n exemplul de mai sus
al msurrii celulelor, acest eveniment ar putea fi interpretat astfel: rezultatul msurrii
diametrului unei celule este ntre a i d (vezi figura de mai sus).
Atenie, am putea ntlni i alte situaii, cum este aceea ilustrat n figura urmtoare: aici
E F nseamn c rezultatul msurrii diametrului este fie ntre a i b, fie ntre c i d.

51

Cele trei operaii cu evenimente, prezentate succint n cele de mai sus (anume
complementul, conjuncia i disjuncia) ne permit s construim un calcul cu evenimente.
Nu este cazul s insistm asupra acestuia, deoarece este analog calculului cu mulimi (ceea
ce este sugerat i de notaiile folosite), iar majoritatea regulilor sunt evidente.
Aceast analogie constituie fundamentul reprezentrii evenimentelor ca pri ale unui
univers U. Conjuncia evenimentelor devine intersecia prilor corespunztoare (vezi
figura urmtoare), iar disjuncia evenimentelor devine reuniunea prilor corespunztoare.
Evident, U nsui va reprezenta evenimentul sigur.

S considerm acum o familie finit E1 , E 2 ,..., E n de evenimente. n caz c disjuncia


acestora coincide cu evenimentul sigur, vom spune c familia este exhaustiv.
n cazul n care oricare dou evenimente distincte Ei , E j (i j) din familie sunt

exclusive, adic Ei E j = , vom spune c evenimentele familiei sunt mutual exclusive.


Cea mai interesant situaie este cea a unei familii de evenimente care este simultan
mutual exclusiv i exhaustiv. n aceast situaie se spune c familia este complet.
Ca exemplu extrem de simplu, s considerm un zar ce va fi aruncat pe mas. S notm
cu E1 apariia feei
, cu E 2 apariia lui
sau
, cu E3 apariia oricrei alte fee.
Este evident c familia E1 , E 2 , E3 este complet. Un alt exemplu extrem de simplu de
familie complet de evenimente este dat de familia D1 , D2 , D3 , unde
D1 urmtoarea pacient care va fi internat n spital sufer de apendicit,
D2 pacienta sufer de salpingit,
D3 pacienta este n orice alt situaie.
3.2. Probabiliti

S admitem c experimentul ce const n examinarea radiografiei pulmonare a unui


pacient are doar dou rezultate posibile: fie detectm, fie nu detectm o tumoare. Acest
experiment este similar cu cel al aruncrii unei monede, n care de asemenea sunt posibile
doar dou rezultate: fie apare stema, fie nu apare stema. Ceva face ns diferena, i anume
ansele diferite. Noiunea de probabilitate ncearc s nlocuiasc, la nivel abstract, ceea ce
prin experiena noastr personal considerm a fi ansele, sau sorii de izbnd.
Suntem obinuii s folosim cuvntul probabilitate n diverse contexte. De exemplu, ne
exprimm preri despre probabilitatea ca o anumit maladie, i nu alta, s fie cauza
simptomelor/semnelor pe care le prezint pacientul. De asemenea, evalum probabilitatea
unui eveniment ce ar putea aprea cndva n viitor, cum ar fi mbolnvirea de cancer n
urmtorii 10 ani a unei persoane astzi n vrst de 40 de ani.
52

Limba englez prezint o mai mare flexibilitate n descrierea diverselor situaii. Astfel, se
face deosebirea ntre probability of an event i likelihood of a hypothesis. Exist de
asemenea cuvintele odds i chances.
O fundamentare precis se poate face doar n cadrul unei teorii bine nchegate.
Principala ipotez a teoriei elementare a probabilitilor este urmtoarea: fiecrui
eveniment E elementar sau nu i se asociaz un numr P(E) cuprins ntre 0 i 1 (= 100%).
Acest numr este numit probabilitatea lui E i nu face altceva dect s exprime sorii ca
evenimentul E s apar ca rezultat al experimentului.
Evenimentul sigur are probabilitatea 1 (adic este sigur c va aprea). Evenimentul
imposibil are probabilitatea 0 (adic este imposibil s apar). Pentru orice alt eveniment E,
oamenii nu-i cunosc probabilitatea. Atenie, ei pot doar s-o estimeze, iar fiecare om n
parte ar putea s-o fac altfel.
Cum putem estima probabilitatea unui eveniment E? Dispunem de trei metode: cea
practic, cea logic i cea computaional.
Metoda practic const n repetarea de multe ori a experimentului. Uneori E va aprea ca
rezultat, alteori nu. Vom numra de cte ori apare evenimentul E i vom calcula, prin
mprire, frecvena relativ
numrul aparitiilor evenimentului
f =
numrul total de ncercri
Evident, aceast frecven relativ depinde puternic de numrul total de ncercri. Totui,
oricare frecven relativ f estimeaz probabilitatea P(E)! Suntem convini c dac numrul
total de ncercri va crete nemrginit, frecvena relativ va tinde spre probabilitatea P(E).
Astfel, dac vom arunca o moned de 100 de ori, iar n acestea stema apare de 48 de ori,
vom putea estima probabilitatea evenimentului ce const n apariia stemei ntro aruncare
viitoare prin numrul 48 = 48%. Dac vom avea suficient timp disponibil pentru a efectua
100

alte 900 de aruncri (n total 1000 de aruncri) i vom constata c stema a aprut n alte 510
cazuri (n total n 558 cazuri), atunci vom putea estima probabilitatea prin numrul
558
1000

= 55.8%.

Se accept unanim ideea c odat cu creterea numrului de aruncri estimarea


probabilitii prin frecvena relativ va fi din ce n ce mai bun. (Totui, nu exist niciun
fundament logic pentru aceast convingere! i cum oare trebuie s procedm n caz c un
experiment nu poate fi repetat n exact aceleai condiii, aa cum se ntmpl de obicei n
biologie, economie i sociologie?)
Metoda logic de estimare a probabilitilor consist n raionamente asupra condiiilor
geometrice i fizice. De exemplu, atunci cnd aruncm un zar (i suntem total lipsii de
informaii despre acesta), nu avem niciun motiv s credem c o fa ar fi privilegiat n
raport cu oricare alta. Prin urmare este logic s acceptm c cele ase fee i mpart ntre
ele ansele n mod echitabil.
(Dar cum tim oare c zarul este perfect? Ce-ar fi dac simetria geometric ar fi uor
modificat sau dac zarul n-ar fi omogen?)
Metoda logic ne indic valoarea

1
2

pentru probabilitatea apariiei stemei la aruncarea

unei monede. (Aceasta, atenie, n lipsa unor informaii despre falsificarea monedei!)
Metoda computaional pentru obinerea probabilitii evenimentului E presupune c
tim deja (cu alte cuvinte, am estimat) probabilitile altor evenimente, legate de E.
O prim i imediat relaie este aa-numita relaie a complementului: dac E este un
eveniment cruia i cunoatem probabilitatea, atunci cunoatem i probabilitatea
complementului su, din:
P( E ) = 1 P( E ) .

53

Ca o consecin imediat, dac E are o probabilitate mare, atunci complementul E are


o probabilitate mic.
Relaia de adunare este uor de exprimat: dac E i F sunt dou evenimente arbitrare,
atunci

P( E F ) = P( E ) + P( F ) P( E F ) .
Cu alte cuvinte, cunoscnd probabilitile P( E ) i P( F ) , vom cunoate de asemenea
pe P( E F ) , cu condiia s cunoatem i pe P( E F ) ! Ca un caz particular, atunci cnd
E i F sunt exclusive, avem
P ( E F ) = P ( E ) + P( F )
(deoarece n acest caz P( E F ) = P() = 0 ).
Relaia de adunare este uor de explicat. Dar pentru aceasta vom interpreta pe P( E ) ca
aria prii E, acceptnd c universul U are aria egal cu unu (vezi figura urmtoare).

Acum, dac adunm ariile lui E i F vom obine aria lui E F , dar vom observa c aria
interseciei E F a fost luat n considerare de dou ori!
Probabilitatea P(E) nu este singurul numr care exprim sorii de izbnd. Unii folosesc
n mod frecvent cota lui E, notat cu O(E) notaia provine de la cuvntul englezesc odds.
Acest numr poate fi exprimat ca un raport ntre probabilitatea evenimentului E i
probabilitatea complementarului su, adic astfel:
P( E )
O(E) =
1 P( E )
(valabil, evident, n caz c P( E ) 1 ).
De exemplu, cota ca s se obin stema la aruncarea unei monede este exact 1; cota ca s
se obin faa
la aruncarea unui zar este de 20%. Msura cot este centrat pe numrul
1 i are tendina de a exagera ansele mari.
Este uor de stabilit c
O( E )
P(E) =
1 + O( E )
aa nct cota i probabilitatea sunt echivalente, n sensul c oricare dintre ele se poate
calcula imediat cunoscnd pe cealalt.
3.3. Evenimente condiionate i probabilitile lor

Noiunea de eveniment, aa cum a fost ea folosit anterior, are sens doar n viitor (sau
n necunoscut). Odat ce evenimentul a aprut (mai precis am aflat c a aprut), el se
transform n fapt care a avut loc iar probabilitatea sa i pierde sensul.
S considerm o situaie n care un eveniment a priori A va influena un eveniment
ulterior E, iar apariia lui A ne va obliga s re-estimm ansele apariiei lui E. Vom spune c
E este condiionat de A.
54

Pentru a nelege cum se prezint asemenea situaii, s considerm propoziia urmtoare:


probabilitatea ca un brbat n vrst de 40 de ani s decedeze n urmtorii 10 ani este de
15%.
Aici evenimentul E este decesul n urmtorii 10 ani, ncepnd din acest moment, iar
evenimentul A este un brbat va ajunge la vrsta de 40 de ani.
S considerm un exemplu poate ceva mai relevant din punct de vedere medical. S
admitem c avem de-a face cu pacieni care pot suferi sau nu de maladia M, i s lum n
considerare un semn-test S, care ar putea s dea rezultat pozitiv sau negativ. Cteodat vom
emite afirmaia:
Pacientul testeaz pozitiv, n condiiile n care sufer de maladia M
alteori vom emite afirmaia:
Pacientul sufer de maladia M, n condiiile n care testul a ieit pozitiv.
Ambele afirmaii de mai sus se refer la evenimente condiionate.
n general, notaia E | A se citete evenimentul E condiionat de ctre A.
n reprezentarea evenimentelor prin pri ale universului (a se vedea figura urmtoare)
realizarea a priori a evenimentului A restrnge universul (de la U la partea A). Evenimentul
condiionat E | A este reprezentat de intersecia celor dou pri, dar dac dorim s-i
evalum probabilitatea prin arie, atunci va trebui s ne raportm la noul univers A n loc de U
(iar aria lui A va deveni 1 n aceast nou situaie). Prin urmare,
P( E A)
P( E | A) =
P( A)
(evident, atunci cnd P( A) 0 ).

Dou evenimente E i F sunt numite independente (ntre ele) dac nicunul nu


condiioneaz pe cellalt, ceea ce nseamn c realizarea a priori a unuia nu modific
probabilitatea celuilalt:
P( E | F ) = P( E ) i P( F | E ) = P( F ) .
De exemplu, dac avem dou monede i le aruncm separat, atunci apariia stemei la
aruncarea primei i apariia stemei la aruncarea celei de-a doua sunt evenimente
independente.
Bazndu-ne pe experiena clinic, vom putea accepta de exemplu c apariia durerii n
cadranul inferior stng i apariia durerii n cadranul inferior drept ar fi evenimente
independente.
Relaia evenimentelor independente este urmtoarea:
P( E F ) = P( E ) P( F ) .
55

(Atenie, acest relaie este valabil doar pentru evenimente independente!)


Aceast relaie ne permite s spunem c probabilitatea obinerii unui dublu ase la
aruncarea simultan a dou zaruri, ca i la aruncarea repetat a aceluiai zar este 361 .
3.4. Teorema lui Bayes

Aceast teorem are urmtoarea exprimare abstract, matematic:


Dac D1 , D2 ,..., Dn este o familie complet de evenimente ale cror probabiliti a
priori P( D1 ), P( D2 ), ..., P( Dn ) sunt cunoscute, iar S este un alt eveniment pentru care
toate probabilitile condiionate
P( S | D1 ), P( S | D2 ),..., P( S | Dn )
sunt cunoscute, atunci probabilitile condiionate inverse P( Di | S ) sunt obinute cu
formula:
P( Di ) P( S | Di )
.
P( Di | S ) =
P( D1 ) P( S | D1 ) + P( D2 ) P( S | D2 ) + ... + P( Dn ) P( S | Dn )

Teorema lui Bayes este un instrument ce poate fi folosit pentru a re-evalua probabilitile
diferitelor ipoteze diagnostic posibile.
Notaiile D1 , D2 ,..., Dn de mai sus se pot referi la aceste ipoteze diagnostic posibile.
Probabilitile a priori P( Di ) pot fi estimate prin diverse metode, de exemplu prin folosirea
datelor statistice sau de recensmnt la nivel naional. Evenimentul S poate fi un semn sau
un simptom. n contextul prezenei acestui semn/simptom, probabilitile ipotezelor
diagnostic trebuie s fie re-evaluate; teorema lui Bayes de mai sus ne doteaz cu o formul
prin care putem calcula aceste probabiliti a posteriori.
S considerm urmtorul exemplu simplu, cu doar dou diagnostice posibile:
D1 pacientul nostru are tuberculoz,
D2 = D1 pacientul nostru nu are tuberculoz,
S pacientul Ion Ionescu testeaz pozitiv (n radiografia pulmonar).
Evident, D1 , D2 este o familie complet. Din datele de recensmnt la nivel naional tim
c 3% din populaie are tuberculoz. Aadar, putem estima:
P( D1 ) = 3% = 0.03 ;
i n consecin
P( D2 ) = 1 0.03 = 0.97 .
Trebuie s estimm i probabilitatea condiionat P( S | D1 ) . Din experien medical tim
c 90% dintre pacienii suferinzi de tuberculoz testeaz pozitiv n radiografia pulmonar.
Aadar, P( S | D1 ) = 0.90. De asemenea, exist sori foarte mici, s zicem de 1%, ca o
persoan ce nu are tuberculoz s testeze pozitiv. Aadar, estimm c P( S | D2 ) = 0.01.
Dispunem acum de toate ingredientele pentru a folosi formula lui Bayes:
0.03 0.90
0.027
P( D1 | S ) =
=
= 0.736 .
0.03 0.90 + 0.97 0.01 0.0367
Prin urmare, probabilitatea ca Ion Ionescu, care a testat pozitiv n radiografia
pulmonar, s aib tuberculoz este estimat acum la 73.6%.
(Cu alte cuvinte, din cauza apariiei evenimentului S, probabilitatea de a avea tuberculoz
crete de la 3% la 73.6%.)
56

S considerm acum un exemplu ceva mai sofisticat (luat din Introduction to Clinical
Informatics de Degoulet i Fieschi, Springer Verlag, 1999):
D1 Pacienta noastr (dintrun spital mare) are apendicit,
D2 Pacienta noastr are salpingit,
D3 Pacienta noastr este n orice alt situaie.
Probabilitile a priori ar putea fi estimate i din nregistrrile spitalului. S presupunem
c n anul care a trecut, din 10000 paciente tratate n spital, 1000 au fost diagnosticate cu
apendicit iar 500 cu salpingit. Prin urmare P( D1 ) = 0.10 , P( D2 ) = 0.05 , P( D3 ) = 0.85 .
(S ne amintim c D1 D2 D3 trebuie s fie evenimentul sigur!)
S considerm acum urmtoarele dou simptome:
R durere n cadranul inferior drept,
L durere n cadranul inferior stng.
Specialitii ar putea s ne ofere estimri bune ale probabilitilor a priori:
P( R | D1 ) = 0.80 , P( R | D2 ) = 0.50 , P( R | D3 ) = 0.05 ,
P( L | D1 ) = 0.10 , P( L | D2 ) = 0.50 , P( L | D3 ) = 0.05 .
Ca urmare, avem toate datele necesare pentru a calcula folosind formula lui Bayes
probabilitile a posteriori:
P( D1 | R) = 0.54 , P( D2 | R) = 0.17 , P( D3 | R) = 0.29 .
Aceasta nseamn c probabilitatea ca o anumit pacient care se plnge de dureri n
cadranul inferior drept s aib apendicit sunt estimate la 54% iar salpingit la doar 17%.
Totui, ce putem spune dac pacienta se plnge de dureri n ambele cadrane inferioare?
Am putea da un rspuns probabilistic dac am dispune de estimrile necesare din partea
specialitilor.
S ncheiem aceast seciune cu observaia c chiar dac este un instrument puternic
n medicin folosirea teoremei lui Bayes este foarte limitat, din cauza condiiilor impuse,
anume
a. Maladiile trebuie s fie mutual exclusive,
b. Diferitele semne i simptome ce intervin n procesul de diagnoz trebuie s fie
independente,
condiii care se ntlnesc destul de rar n practica medical.
Exerciiu. ntrun spital mare a fost iniiat un test nou pentru diagnoza cancerului, test care
pare promitor. S-a constatat c 97% dintre pacienii spitalului, suferinzi de cancer,
reacioneaz pozitiv la test. ns reacioneaz pozitiv i 5% dintre cei ce nu au cancer! tiind
c doar 2% dintre pacienii spitalului au cancer, care este probabilitatea ca un pacient ce
reacioneaz pozitiv la test s aib ntr-adevr cancer?
Formal, va trebui s obinem probabilitatea condiionat P(C | S ) n care C este
evenimentul pacientul are cancer iar S este evenimentul pacientul reacioneaz pozitiv la
test. Conform teoremei lui Bayes, aceasta este
P(C ) P( S | C )
P(C | S ) =
P(C ) P( S | C ) + P(C ) P( S | C )
Putem estima, pe baza datelor din spital, probabilitatea P( S | C ) la valoarea 0.97, iar
probabilitatea P( S | C ) la valoarea 0.05. Putem considera c P(C ) = 0.02 i automat
P(C ) = 0.98 .
Dac formula lui Bayes pare complicat, vom putea raiona n felul urmtor:
57

Din 10000 pacieni ai spitalului


0.02 (2%)
un numr de 200 sufer de cancer,

0.98 (98%)
iar 9800 nu sufer de cancer

0.97 (97%)

0.05 (5%)

Dintre acetia, testeaz pozitiv 194,


respectiv 490, n total 684 testeaz pozitiv.
Aadar, frecvena celor care au cancer n rndul celor ce reacioneaz pozitiv la test este
194
f =
= 28.4%
684
i putem estima probabilitatea noastr prin aceast frecven.
3.5. Comparaii i paradoxuri

Fr a folosi formulele adecvate de calcul, aprecierile intuitive pe care le facem curent


pot conduce la paradoxuri de multe tipuri. Cele logice (paradoxul lui Epimenide, cel al lui
Zenon . a.) sunt destul de bine cunoscute i au rezolvri acceptate. Exist ns unele ceva
mai sofisticate, cu rezolvri statistice.
S lum n considerare dou medicamente (fie ele identificate prin MedA, respectiv
MedB) avnd ca scop creterea imunitii organismului. Despre care dintre ele putem afirma
c este mai bun (dect cellalt)?
Ce poate s nsemne mai bun dect? Evident, ne putem imagina diverse criterii de
comparaie. S folosim rata de succes a fiecrui medicament. Comparndu-le dup ratele
de succes, este evident c mai bun va fi considerat medicamentul al crui rat de succes
este mai mare.
Rata de succes a unui medicament o putem defini ca raport ntre
a) numrul de indivizi la care medicamentul ar avea ca efect o cretere semnificativ a
imunitii, i
b) numrul total de indivizi ai populaiei.
Tabelul urmtor prezint aceast situaie.
Cretere semnificativ
a imunitii

Rata de
succes
Numr de
A
N = A+C
A
C
R=
indivizi
A+C
Evident, nu ne putem permite s experimentm medicamentul pe ntreaga populaie.
Metodele statistice ne nva s estimm rata de succes pe baza datelor pe care le
obinem dintrun eantion. Admind c eantionul are n indivizi (nu insistm acum asupra
procedurii de selectare a lor, dar admitem c ea corespunde regulilor impuse) i c, dintre
a
acetia, la un numr a s-a constatat o cretere semnificativ a imunitii, raportul r =
n
conform tabelului urmtor:
Cretere semnificativ
Stagnare sau
Total
Rata de
a imunitii
descretere
indivizi
succes
Numr de
a
a
na
n
r=
indivizi
n
ne poate oferi o estimare a ratei de succes R.

58

Stagnare sau
descretere

Total
indivizi

Lund n considerare acum cele dou medicamente i admind c eantioanele folosite


pentru estimarea ratelor de succes sunt disjuncte (ceea ce nseamn c niciun individ nu a
fost testat i cu MedA i cu MedB), vom obine tabelul:
Cretere semnificativ
a imunitii

Stagnare sau
descretere

Total
indivizi

MedA

nA = a + c

MedB

nB = b + d

Rata de
succes
a
rA =
a+c
b
rB =
b+d

Am putea decide c MedA este mai bun dect MedB n cazul n care rA > rB .
S nu uitm ns c lum aceast decizie bazndu-ne pe eantioane din populaie i nu pe
investigarea ntregii populaii. Ce ncredere am putea avea c ordonarea pe care am decis-o
se dovedete corect i n situaia n care am selecta alte eantioane?
Compararea direct ntre rA i rB nu este ns justificat din punct de vedere statistic.
Din acest punct de vedere, pentru comparare va trebui s utilizm o statistic (formul)
creia s-i cunoatem distribuia valorilor dac nu perfect, mcar aproximativ.
O asemenea statistic este:
R A RB
1
1

R(1 R)
+
N
N
B
A
unde

A+ B
N A + NB
este rata de succes pe ansamblu. Despre aceast statistic se tie c este aproximat bine cu o
distribuie normal standard (n caz c sunt satisfcute unele condiii referitoare la numrul
de indivizi din eantion/eantioane).
Pe baza valorilor concrete, pe care le obinem n urma exploatrii datelor provenite din
eantion/eantioane (s zicem c sunt cele din tabelul urmtor), vom putea evalua valoarea
p ca msur a riscului pe care ni-l asumm lund decizia de ordonare.
R=

MedA
MedB

C.S.I.
24
22

S.D.
26
28

MedA are o rat de succes de 0.48, deci prin comparaie cu rata 0.44 ar putea fi declarat
medicament mai bun dect MedB. ns valoarea p a acestei afirmatii este de 0.725, mult prea
mare pentru a avea ncredere n aceast ordonare. Ar trebui s avem ncredere mai degrab n
afirmaia c cele dou medicamente sunt echivalente.
n figura de mai jos este prezentat un calcul concret, efectuat pe o foaie de calcul Excel,
pentru urmtoarele date iniiale:

Dac ne-am ghida strict dup rata de succes, am putea ntlni situaii paradoxale. Ca
exemplu, s presupunem c datele din tabelul de mai sus au fost obinute n urma testelor
efectuate pe brbai i femei. Dac am fi inut seam de stratificarea dup sex, datele ar fi
fost urmtoarele:
59

Brbai
MedA
MedB
Femei
MedA
MedB

CSI
20
10
CSI
4
12

SD
15
5
SD
11
23

Total
35
15
Total
15
35

Rata de succes
0.5714
0.6667
Rata de succes
0.2667
0.3429

i am fi constatat c pentru ambele straturi MedB ar fi fost declarat mai bun, n total
contradicie cu cele stabilite pentru asamblu.
Am prezentat o exemplificare a aa-numitului paradox al lui Simpson din teoria
deciziilor. Acesta ne atrage atenia c deciziile care nu sunt bine fundamentate, luate la nivel
global pentru o populaie neomogen, pot fi n total contradicie cu deciziile care ar trebui
luate la nivelul straturilor.
(Ieirea din paradox, prin metodele statisticii, nu prezint nici un fel de dificultate. Vom
aborda aceste metode n cursul 7.)
3.6. Variabile aleatoare i distribuii

Variabilele aleatoare i distribuiile nu sunt altceva dect alte moduri de a descrie


rezultatele experimentelor aleatoare.
O definiie precis a termenului variabil aleatoare este dificil de obinut. n fapt, o
variabil aleatoare exprim rezultatul unui experiment (puin altfel dect o face ansamblul
evenimentelor). Atunci cnd folosim o variabil aleatoare, considerm c rezultatul
experimentului este exprimat n form numeric.
(Atenie, aceasta nu nseamn c rezultatul ar fi un singur numr! Este posibil ca
rezultatul se fie multi-dimensional, adic un vector de numere, ns aceast situaie este mai
complex i este studiat abia dup ce se dobndete suficient experien.)
Valorile unei variabile aleatoare (unu-dimesionale) pot fi reprezentate prin puncte pe axa
real. innd seam de aceast reprezentare, se poate face uor distincia ntre:
a) variabile aleatoare discrete, i
b) variabile aleatoare continue.
(Atenie, clarificarea deosebirii ntre discret i continuu prezint dificulti serioase
din punct de vedere matematic sau filosofic. Intuiia ne spune c un numr finit de puncte
nu pot fi distribuite pe axa real dect discret, iar exemple pentru continuu sunt
intervalele de numere reale.)
Aadar, pentru o variabil aleatoare discret X
valorile posibile ale variabilei, notate x1 , x 2 ,..., xn ,... , sunt numerice i discrete.
Diversele variabile aleatoare (ce au aceleai valori) se deosebesc ntre ele prin ansele ca
s ia aceste valori. Putem vorbi despre o distribuie (de probabilitate) atunci cnd cunoatem
nu doar valorile posibile ale unei variabile aleatoare, ci i probabilitile acestor valori.
Pentru cazul variabilelor aleatoare discrete nu avem dificulti n a explica ce nseamn
distribuia de probabilitate:
cunoatem toate probabilitile p1 , p 2 ,..., p n ,... asociate acestor valori.
Aadar, o variabil aleatoare discret X este descris perfect de tabelul:
x1

p1

x2

...

p2

...

x n ...

p n ...

n care pe prima linie sunt nirate valorile posibile ale variabilei. Probabilitile de pe a doua
linie sunt numere reale care satisfac dou condiii:
60

1) toate sunt pozitive, adic


p n 0 pentru fiecare valoare x n ;
2) suma lor este 1:
p1 + p 2 + ... + p n + ... = 1 .

Numrul p n este interpretat ca sorii de izbnd ca, ntrun experiment viitor, variabila
aleatoare X s ia exact valoarea xn . Cu alte cuvinte, p n este probabilitatea evenimentului
X = x n , ceea ce notm:
p n = P( X = x n ) .

Exemplu. Tabelul urmtor


AA Aa aa
9
6
1

16 16 16

ar putea descrie genotipul (unei anumite gene, cu alelele A i a). Evident,

9
16

este

probabilitatea ca un individ al populaiei, ales aleatoriu, s aparin genotipului AA.


Exprimnd genotipul AA prin numrul 0, genotipul Aa prin numrul 1 iar genotipul aa
prin numrul 2, tabelul
0
9

16

2
1

16

1
6
16

poate fi acceptat ca descriind o distribuie de probabilitate. Variabila aleatoare respectiv


poate fi interpretat ca numrul alelelor dominate n genotip.
Rezultatul ce ar putea fi obinut n urma aruncrii unui zar perfect echilibrat (nainte de
a-l afla) este o variabil aleatoare, a crei distribuie de probabilitate este reprezentat
1

evident de tabelul:

1
6

2 3
1
6

1
6

4 5 6
1 1 1 (dar, atenie pe prima linie sunt nirate, ca valori

6 6 6

posibile ale variabilei, nu numere, ci reprezentri ale feelor zarului. Probabilitile de pe a


doua linie sunt toate egale ntre ele pentru c nu avem motive s suspectm c una dintre
fee ar fi privilegiat n raport cu celelalte.)
Sexul unui viitor nou nscut este descris de tabelul:
feminin masculin

0.49
0.51

(din datele statistice se tie c, din 100 de nou nscui, 51 sunt fete), iar n urma aruncrii
unei monede perfect omogene i rotunde (i subiri) rezultatul ce va fi obinut poate fi descris
de tabelul
stema banul

0.5
0.5

Asemenea tabele pot fi transformate relativ uor n distribuii de probabilitate, ns


nlocuirea etichetelor feminin/masculin respectiv stema/banul cu numere este
arbitrar.
innd seam de ordonarea natural a numerelor, pe prima linie a oricrui tabel prin care
descriem o distribuie de probabilitate putem lista ordonatvalorile:
x1 < x 2 < ... < x n < ... .
Cunoscnd distribuia de probabilitate, putem calcula imediat ansa ca variabila X s ia
valori intermediare. De exemplu:
61

P( X x1 ) = P( X = x1 ) = p1 ,
P( X x 2 ) = P( X = x1 X = x 2 ) = P( X = x1 ) + P( X = x 2 ) = p1 + p 2 ,
P( x1 < X < x3 ) = P( X = x 2 ) = p 2 ,
P( x1 < X x3 ) = P( X = x 2 ) P( X = x3 ) = P( X = x 2 ) + P( X = x3 ) = p 2 + p3

etc. n general,
P( X x k ) =

pi

pentru k = 2, 3,

i =1

P( x j < X x k ) =

pi

i = j +1

pentru 0 < j k .
n general, dac ne referim la distribuia de probabilitate:
x 2 ... x n ...
x
,
X : 1
p1 p 2 ... p n ...
valorile x1 , x 2 ,..., xn ,... ale variabilei aleatoare discrete X sunt numere. Dac putem calcula

valoarea
x1 p1 + x 2 p 2 + ... + x n p n + ...

atunci aceast valoare este cunoscut ca media variabilei X i este notat cu E ( X ) . Este de
fapt media ponderat a valorilor posibile x1 , x 2 ,..., xn ,... , ponderile fiind exact
probabilitile p1 , p 2 ,..., p n ,... . Numrul E ( X ) ar putea servi ca un centru al tuturor
valorilor lui X.
Litera E din notaia de mai sus a fost universal adoptat deoarece media teoretic este
numit n limba francez esprance iar n limba englez expectation. nelesurile acestor
cuvinte, anume ct sperm s fie (n francez), respectiv la ce s ne ateptm (n
englez) reflect mai bine coninutul noiunii dect cel de medie, care este pur
calculatoriu.
S observm c toate valorile posibile x1 , x 2 ,..., x n ,... apar n formula mediei E ( X ) , iar
cele cu probabilitate mai mare contribuie mai mult la formarea acestei medii. Este
ntrutotul posibil ca numrul E ( X ) s fie diferit de toate valorile variabilei X.
De exemplu, n cazul distribuiei de probabilitate asociate aruncrii unui zar corect, se
calculeaz cu uurin valoarea
1
6

1
6

1
6

E ( X ) = 1 + 2 + ... + 6 = 3.5 ,

iar aceasta nu corespunde niciunei fee a zarului!


S considerm dou variabile aleatoare, fie acestea X avnd valorile x1 , x2 ,..., x n ,...
respectiv Y, avnd valorile y1 , y 2 ,..., y m ,... . Faptul c X ia exact valoarea xn este, aa cum
am vzut anterior, un eveniment. La fel, faptul c Y ia exact valoarea y m este un alt
eveniment. Aceste dou evenimente ar putea s fie independente ntre ele sau nu. Reamintim
c independena lor nu nseamn altceva dect c probabilitatea conjunciei
X = xn i Y = y m
coincide cu produsul probabilitilor evenimentelor, cu alte cuvinte:
P( X = x n Y = y m ) = P( X = x n ) P(Y = y m )

Despre variabilele aleatoare X i Y se spune c sunt independente n caz c egalitatea


anterioar este valabil oricare ar fi valorile celor dou variabile aleatoare.
62

Independena variabilelor aleatoare X i Y poate fi exprimat n cuvinte astfel: faptul c X


ia o anumit valoare nu schimb cu nimic probabilitile ca, ulterior, Y s ia diversele valori
posibile.
Cu distribuiile de probabilitate se pot efectua formal diverse operaii aritmetice (i nu
numai). Pe lng distribuia
x
X : 1
p1

x2

...

p2

...

x n ...
,
p n ...

fie Y o alt distribuie de probabilitate, descris de tabelul:


y
Y : 1
q1

y2
q2

... y n ...
.
... q n ...

n aceast situaie vom putea considera suma X + Y , care are ca valori sumele distincte
x1 + y1 , x1 + y 2 ,... , cu probabilitile respective r11 , r12 ,... .
S facem ns observaia c tabelul urmtor nu reprezint aceast distribuie sum:
x1 + y1

r11

x1 + y 2
r12

... x1 + y n
...
r1n

x 2 + y1 ... x n + y m

r21
...
rnm

Prin definiie, numrul rij este interpretat ca probabilitate a evenimentului X = xi i


Y = y j . Aceast probabilitate nu coincide cu produsul P( X = xi ) P(Y = y j ) dect n cazul
n care evenimentele individuale X = xi i Y = y j sunt independente ntre ele. Cu alte

cuvinte, n general rij pi q j !


Probabilitile valorilor sumei sunt obinute cu ajutorul formulei:
P( X + Y = s) =

P( X = x Y = y)

x+ y=s

care nu este uor de aplicat!


S lum un exemplu simplu (dar formal). Anume, s considerm tabelul urmtor, care
conine unele date privind repartizarea cetenilor dintrun ora, n funcie de dou criterii:
Sufer de astm
Nu sufer de astm
Total
bronic (1)
bronic (2)
Fumtori (1)
21
419
440
Nefumtori (2)
9
1151
1160
Total
30
1570
1600
S considerm variabila aleatoare X avnd valorile numerice 1 (ceteanul este fumtor) i
2 (ceteanul nu este fumtor). Probabilitile acestor valori sunt estimate prin frecvenele
relative, prin urmare vom putea reprezenta distribuia de probabilitate asociat variabilei X
prin tabelul
1
440

1600

1160

1600

Variabila aleatoare Y exprim incidena astmului bronic, lund valorile numerice 1


(ceteanul sufer de astm bronic) i 2 (ceteanul nu sufer de astm bronic). Analog, vom
putea reprezenta distribuia de probabilitate asociat variabilei Y prin tabelul
1
30

1600

1570 .

1600

63

Ce se poate spune despre suma (formal) X + Y ? Valorile distincte pe care le poate lua
sunt n numr de trei, anume 2, 3 and 4. Avem:
P( X + Y = 2) = P( X = 1 Y = 1) = P(fumeaz si astm bronsic) =

21
1600

P( X + Y = 4) = P( X = 2 Y = 2) = P(nu fumeaz si nu astm bronsic) =

1151
1600

P( X + Y = 3) = P(fumeaz si nu astm bronsic, sau nu fumeaz si astm bronsic)


=

419
1600

9
1600

428
1600

Aadar, vom putea reprezenta distribuia de probabilitate a sumei formale prin


2
X + Y : 21

1600

3
428
1600

1151 .

1600

n mod analog, produsul formal al variabilelor aleatoare X i Y poate fi definit ca variabila


aleatoare, notat prin X Y , care are ca valori produsele distincte x1 y1 , x1 y 2 ,... n
exemplul de mai sus, distribuia de probabilitate produs este reprezentat de:
1
X Y : 21

1600

2
428
1600

1151 .

1600

Ptratul X 2 este definit ca produsul X X . n caz c X are doar valori pozitive, tabelul
urmtor descrie ptratul su:
x2
X2: 1
p
1

x 22
p2

... x n2 ...
.
... p n ...

(Se observ c linia probabilitilor rmne aceeai cu a distribuiei X!)


Se poate stabili c media E ( X 2 ) a ptratului X 2 , n caz c exist, este ntotdeauna mai
mare dect ptratul E ( X ) 2 . Diferena ntre aceste numere este cunoscut ca variana
variabilei aleatoare X i este notat Var ( X ) . Aadar,
Var ( X ) = E ( X 2 ) E ( X ) 2 .

Exist i o alt formul


Var ( X ) = E (( X E ( X )) 2 ) ,

n care intervine abaterea (deviaia) variabilei X fa de media sa. De fapt, formula exprim
faptul c variana variabilei X este media ptratului deviaiei variabilei aleatoare X de la
media sa E ( X ) . Aceasta justific folosirea varianei ca msur a mprtierii valorilor n
jurul centrului E ( X ) .
Proprietatea esenial a mediei E, n raport cu suma variabilelor aleatoare, este rezumat
de formula urmtoare:
E ( X + Y ) = E ( X ) + E (Y ) .
Ct despre varian, n general,
Var ( X + Y ) Var ( X ) + Var (Y ) .

Totui, n cazul n care variabilele aleatoare X i Y sunt independente, exist egalitatea


Var ( X + Y ) = Var ( X ) + Var (Y ) .
O variabil aleatoare care poate lua o singur valoare nu este altceva dect un numr
obinuit. Cele mai simple variabile aleatoare veritabile sunt cele care pot lua doar dou
valori posibile; dintre acestea, cele mai cunoscute sunt variabilele aleatoare Bernoulli (care
sunt asociate experimentelor n care rezultatul poate fi doar succesul sau eecul).
Orice variabil aleatoare Bernoulli poate lua aadar doar dou valori, care sunt notate
numeric prin:
64

0, care corespunde eecului, respectiv


1, care corespunde succesului.
O variabil aleatoare Bernoulli este perfect determinat de probabilitatea succesului;
dac aceast probabilitate este notat prin p, atunci tabelul corespunztor distribuiei este:
0

1 p

1
.
p

Aceast distribuie particular va fi notat prin Be( p ) , scondu-i n eviden parametrul p


care o determin. Media ei este imediat:
E ( Be( p )) = p .
Ct despre variana ei, i aceasta se calculeaz cu uurin, dac observm c ptratul
distribuiei Be( p ) coincide cu Be( p) ; astfel,
Var ( Be( p)) = p (1 p ) .
Atunci cnd aruncm o moned (perfect echilibrat), rezultatul este exprimat ca o
distribuie Be 1 ; valorile acestei distribuii Be 1 sunt interpretate de exemplu ca numrul

()

()

stemelor care apar deasupra (0 sau 1).


Atunci cnd rspundem la ntmplare (adic cu ochii nchii) la o singur ntrebare
dintrun test gril, cu 5 rspunsuri posibile, dintre care doar unul corect, rezultatul obinut la
acea ntrebare este exprimat prin distribuia Be(0.2 ) ; valorile acesteia sunt interpretate ca
numr de puncte obinute (0 sau 1) la acea ntrebare.
De menionat c rezultatele obinute prin rspunsurile la dou ntrebri dintrun test gril
pot fi considerate a fi independente ntre ele, ca variabile aleatoare, doar dac n alegerea
rspunsului la a doua nu suntem deloc influenai de rspunsul pe care l-am dat anterior la
cealalt.
Numrul de fete care rezult n urma unei nateri simple poate fi exprimat prin distribuia
Bernoulli Be(0.51) .
Numrul de fete care rezult n urma unei nateri de gemeni nu poate fi ns exprimat
printro distribuie Bernoulli; este un exemplu de distribuie binomial.
S ncheiem aceast seciune, dedicat distribuiilor discrete generale, cu urmtorul
exemplu: C este numrul copiilor (cu vrsta sub 20 de ani) n cadrul unei familii obinuite.
Ca distribuie, este dat de tabelul:
0
1
2
3
4
5 i peste
c
0.47
0.23
0.18
0.08
0.03
0.01
p
Ce se poate spune despre evoluia populaiei pentru urmtorii 20 de ani?
Media se calculeaz imediat, admind o eroare (care?):
E (C ) = 0 0.47 + 1 0.23 + 2 0.18 + 3 0.08 + 4 0.03 + 5 0.1 = 1.00
ceea ce nseamn c, n medie, o familie obinuit are un singur copil. Evident, va trebui s
ne ateptm la o njumtire a numrului de indivizi n populaie, n urmtorii 20 de ani.
(Atenie, acest raionament simplist, care nu ine seam de o serie de date colaterale sau de
amnunt, ne permite o proiecie rapid pentru viitor, chiar dac discutabil din multe puncte
de vedere.)
3.7. Distribuii binomiale

S considerm patru monede pe care le aruncm simultan. Numrul de steme care apar
deasupra este reprezentat de o variabil aleatoare, care evident are ca valori doar pe 0, 1, 2, 3
sau 4. O trecere n revist a tuturor posibilitilor identific probabilitile corespunztoare:
0
1

16

4
16

6
16

4
16

1 .
16

65

S ne imaginm c nu aruncm simultan patru monede, ci aruncm de patru ori la rnd


aceeai moned. Este evident c numrul de steme care apar deasupra are aceeai
distribuie ca mai sus.
Acest exemplu admite urmtoarea generalizare. S considerm o secven X 1 , X 2 ,..., X n
de n distribuii Bernoulli, toate de tipul Be( p) , fiecare reprezentnd o ncercare independent
de cealalt. Toate sunt caracterizate de aceeai probabilitate p a unui succes n ncercarea
respectiv. Numrul de succese obinute global n cele n ncercri consecutive este de fapt
suma
X 1 + X 2 + ... + X n ,
care constituie o nou variabil aleatoare (distribuie). Aceasta este notat prin b(n, p ) , iar
valorile ei sunt numerele 0, 1, ... , n. Probabilitatea de a obine un numr de k succese n
cele n ncercri consecutive ceea ce nseamn c variabila b(n, p) ia ca valoare pe k are
expresia urmtoare
P(b(n, p ) = k ) = C kn p k (1 p) n k .
Variabilele aleatoare/distribuiile b(n, p) care se obin pentru diferitele numere n de
componente i diferitele probabiliti de succes p sunt numite variabile aleatoare
binomiale respectiv distribuii binomiale.
Valorile distribuiei binomiale b(n, p ) sunt discrete; prin urmare, formula urmtoare, ce
d probabilitile cumulate, este evident:
P(b(n, p) j ) =

P ( b ( n, p ) = k ) .

k =0

Dac n locul distribuiei sunt cunoscute aceste probabiliti cumulate, atunci orice
probabilitate de forma P(b(n, p ) = k ) este obinut imediat printrun calcul simplu:
P(b(n, p) = k ) = P(b(n, p) k ) P(b(n, p ) k 1) .
O alt formul util este urmtoarea
P(i b(n, p) j ) = P(b(n, p ) j ) P(b(n, p) i 1) .
S rezumm: o distribuie binomial este legat de un experiment ce satisface condiiile:
a) Const dintrun numr de n ncercri;
b) Rezultatul fiecrei ncercri poate fi clasificat fie ca un succes, fie ca un eec;
c) Probabilitatea p a unui succes este acceai n toate ncercrile;
d) Fiecare ncercare este independent de oricare alta.
Valorile ei reprezint numrul de succese obinute n cele n ncercri.
Media distribuiei binomiale b(n, p ) este uor de obinut:
E ( b(n, p)) = np .
Ct despre varian, i formula de calcul a acesteia este imediat:
Var (b(n, p )) = np(1 p) .
Exemplu. Un test este alctuit din 15 ntrebri, fiecare avnd ataate cte cinci rspunsuri
posibile (doar unul corect). S evalum probabilitatea ca o persoan, care rspunde la
ntmplare, s obin exact 8 rspunsuri corecte (adic nota de trecere). S calculm apoi
media rspunsurilor corecte pe care le obin persoanele care rspund la ntmplare.
Atunci cnd se rspunde la ntmplare, numrul de rspunsuri corecte are o distribuie
binomial asociat unui numr de 15 ncercri, iar probabilitatea succesului, n fiecare
1
5

ncercare, este p = = 0.2 .


Dac numrul de rspunsuri corecte este k = 8 , atunci vom ti s cutm n tabele (ceea
ce nu este recomandat) sau s calculm (i aceasta este nerecomandat) probabilitatea
P( b(15, 0.2) = 8)

a crei valoare este 0.00034, adic sub 1!


66

Pe de alt parte, media se obine cu uurin,


E (b(15, 0.2)) = 15 0.2 = 3 .
Prin urmare, n urma rspunsurilor la ntmplare se va obine, n medie, 3 rspunsuri
corecte.
(Aadar, n aprecierea cunotinelor, notarea ar trebui s nceap de la 3 puncte, ceea ce
nseamn c cu 8 puncte obinute nu s-ar obine not de trecere!)
Exist tabele clasice ce conin valorile P(b(n, p) = k ) pentru cteva valori selecionate
ale lui p ( p = 0.25 , p = 0.2 , p = 0.1 .a.). Totui, n urma generalizrii folosirii
calculatoarelor aceste tabele au devenit superflue.
n Excel dispunem de funcia denumit BINOMDIST ce are patru argumente i anume,
n ordine (vezi figura de mai jos):
numrul de succese k ;
numrul de ncercri n ;
probabilitatea p a unui succes ;
un parametru logic, a crui valoare TRUE indic dorina de a obine probabilitatea
cumulat.
n exemplul de mai sus ar fi trebuit s cerem BINOMDIST(8, 15, 0.2, FALSE).

Exerciii. 1) Folosind Excel, reprezentai grafic setul de probabiliti P(b(n, p) = k ) pentru


n = 120 , p = 0.2 , k = 100,...,120 , apoi calculai suma acestor probabiliti. Ce interpretare ar
putea avea rezultatul?
2) Evaluai media punctelor obinute, rspunznd la ntmplare, la un test format din 40
de ntrebri cu un rspuns corect din dou, continuat cu 40 de ntrebri cu un rspuns corect
din patru, ncheiat cu 40 de ntrebri cu un rspuns corect din cinci.
n Excel exist nc o funcie legat de distribuiile binomiale, anume cea denumit
NEGBINOMDIST. Aceast funcie este folosit pentru calcularea probabilitii de a obine
exact e eecuri nainte de a se obine al k-lea succes (evident, cu condiia ca probabilitatea p
a succesului s fie aceeai n toate ncercrile).
n figura urmtoare sunt reprezentate grafic dou distribuii binomiale.
Exemple de reprezentri grafice ale distribuiilor binomiale
n = 15 , p = 0.25
n = 25 , p = 0.2

67

Exerciiu. Din practica medical se tie c doar unul din trei pacieni suferinzi de maladia
D se vor vindeca n urma tratamentului cu medicamentul M. Pentru ca un medicament nou N
s fie acceptat ca superior lui M, regulile impuse n unele spitale cer ca dintrun numr de 12
pacieni (suferinzi de maladia D) tratai cu acest medicament, cel puin 7 s se vindece. Care
este probabilitatea ca, n urma experimentrii pe 12 pacieni, medicamentul nou s fie
discreditat, chiar dac rata sa de vindecare este de 1 din 2? Dar dac rata de vindecare este de
3 din 4?
1
2

Cu rata de vindecare r = = 0.5 , numrul de pacieni vindecai, dintre cei 12 tratai cu


medicamentul N, este descris de variabila aleatoare b(12,0.5) . Medicamentul nou va fi
discreditat dac numrul de pacieni vindecai va fi de cel mult 6. Probabilitatea acestui
eveniment se obine apelnd
BINOMDIST(12, 0.5, 6, True)
iar valoarea concret este 0.613, destul de ridicat!
3
4

Pentru rata de vindecare r = = 0.75 , probabilitatea ca medicamentul s fie totui


discreditat este BINOMDIST(12, 0.75, 6, True) = 0.054, o valoare destul de redus.
3.8. Distribuii Poisson

O alt familie de distribuii discrete utilizate n modelri ale proceselor/fenomenelor


biologice este cea a distribuiilor Poisson. S ne amintim c o variabil aleatoare discret
exprim numrul de succese obinute ntrun numr n, fixat, de ncercri. O variabil
aleatoare Poisson exprim numrul de apariii rare care au loc ntrun interval de timp dat,
sau ntrun interval spaial (regiune, domeniu) bine delimitat.
Un experiment Poisson este caracterizat de trei condiii:
1) Numrul de apariii ntrun interval dat este independent de ce se ntmpl n orice alt
interval;
2) Probabilitatea unei apariii singulare ntrun interval dat este proporional cu
lungimea acelui interval;
3) Probabilitatea mai multor apariii ntrun interval tinde spre 0 atunci cnd lungimea
intervalului tinde spre 0 (ceea ce se interpreteaz de obicei spunnd c apariiile sunt
rare).
O distribuie Poisson reprezint numrul de apariii ntrun interval dat, n condiiile n
care sunt satisfcute condiiile unui experiment Poisson. O asemenea distribuie depinde de
un singur parametru (real pozitiv) i este notat de obicei cu Po() . Variabila aleatoare
corespunztoare ia ca valori numerele naturale 0, 1, 2, ..., n, ... cu probabilitile respective
P( Po() = n) =

n
exp( n) .
n!

Exist mai multe tabele care conin valori ale probabilitilor P( Po() = n) pentru diferite
valori ale parametrului (tabele ce pot fi ntlnite n diverse cri). Totui, n era
calculatoarelor asemenea tabele sunt superflue; de exemplu, n Excel avem la dispoziie
funcia POISSON.
Un raionament matematic conduce la urmtoarele rezultate privind media i variana unei
distribuii Poisson:
E (Po()) = i Var (Po()) = .
Exemple. n biologie i n alte tiine ale vieii se accept c incidena atacurilor
paraziilor asupra unei populaii este descris bine de o distribuie Poisson. Distribuii
Poisson sunt folosite n organizarea activitilor la staiile de servire (nu trebuie s ne gndim
68

doar la pompele de benzin, ci i la serviciile de urgen n spitale) ntruct descriu bine


numrul de sosiri ale clienilor (maini, respectiv pacieni) ntrun interval de timp dat.
Exemplu. eful unei uniti SMURD tie, din experiena proprie, c n medie se primesc
lunar 12 apeluri de urgen ce necesit folosirea elicopterului.
Elicopterul poate efectua cel mult trei misiuni ntro zi. Care este probabilitatea ca, ntro zi
obinuit, s apar mai mult de 3 apeluri de urgen care s necesite folosirea elicopterului?
Evaluarea este simpl, ntruct un asemenea fenomen se modeleaz cu distribuii Poisson.
n cazul nostru avem =

12
30

= 0.4 (admind c luna are 30 de zile). Probabilitatea depirii

capacitii este
P( Po( ) > 3) = 1 P( Po() 3) = 0.00077

extrem de sczut. Ar trebui s ne ateptm, odat la trei ani, la o situaie excepional.


Exemple de reprezentri grafice ale distribuiilor Poisson

3.9. Distribuii continue

n toate consideraiile anterioare au fost abordate numai distribuii pentru care variabilele
aleatoare asociate lor au valori discrete, fie n numr finit ca n cazul distribuiilor
binomiale b(n, p ) , fie numrabile cazul distribuiilor Poisson Po() . Acestea sunt
cunoscute ca distribuii discrete. n cele ce urmeaz vom considera distribuii pentru care
variabilele aleatoare asociate sunt capabile s ia valori ntrun domeniu continuu (interval) de
pe axa real. Acestea sunt cunoscute ca distribuii continue.
Evident, valorile unei asemenea variabile aleatoare/distribuii apar ca rezultate ale unor
msurtori (de lungimi, greuti, durate de timp, temperaturi, concentraii etc.).
ntro figur anterioar au fost reprezentate, ntro form asemntoare histogramelor,
distribuiile binomiale b(15, 0.25) i b(25, 0.2). n ambele cazuri valorile posibile ale lui k au
fost plasate pe abscis, echidistant ntre valoarea minim 0 i cea maxim n (15, respectiv
25). Pe ordonat se msoar valorile probabilitilor P(b(n, p) = k ) . Ne dm seama c,
atunci cnd n crete nemrginit, pstrnd aceeai lungime pentru intervalul [0, n],
segmentele verticale tind s formeze un domeniu continuu ca n figura de mai jos. Curba
care delimiteaz acest domeniu, n partea superioar, este graficul unei densiti de
probabilitate. Ca s fim mai precii, s definim o densitate de probabilitate ca fiind o funcie
real continu f aa nct:
1) are valori pozitive:
69

f ( x) 0 pentru orice x R , i

2) aria delimitat de graficul ei i de axa absciselor este 1, adic:

f ( x ) dx = 1 .

De fapt, aria delimitat de graficul funciei, de axa absciselor i de numerele reale a i b,


arie dat de expresia ab f ( x) dx , este legat de o distribuie/variabil aleatoare continu X
prin relaia:
P ( a < X b) =

b
a

f ( x ) dx .

S facem observaia c pentru o distribuie discret este posibil s-i listm toate
valorile. Din contra, este imposibil s listm toate valorile unei distribuii continue. (Se tie
din teoria mulimilor c este imposibil s listm toate punctele unui interval.)
Este important s observm c valoarea f (x) a unei funcii densitate de
probabilitate nu este definit ca probabilitatea vreunui eveniment.

Totui, relaia urmtoare stabilete o legtur cu probabilitile evenimentelor:


c

P( X c) = f ( x) dx .

Pentru o distribuie continu, avnd asociat variabila aleatoare X, se definete prin


formule adecvate media i variana. Anume:

E ( X ) = xf ( x) dx , i

Var ( X ) = E (( X E ( X )) 2 ) .

Nu este deloc obligatoriu ca graficul funciei densitate de probabilitate (asociat unei


distribuii continue) s fie o curb continu. Ceea ce conteaz este faptul ca aria de sub
curb s fie egal cu 1.
Distribuiile continue pot fi descrise i prin aa-numita funcie de distribuie, care nu este
altceva dect o funcie real
F : R [0, 1]

70

definit astfel
x

F ( x) = P( X x) = f ( z ) dz .

Ne dm seama cu uurin c F este o funcie cresctoare i c densitatea de probabilitate


f se poate obine din funcia de distribuie conform relaiei:
f ( x) = F ' ( x) .
(pentru punctele x n care funcia de distribuie F este derivabil).
n figura de mai jos este prezentat graficul unei funcii de distribuie.

Ca exemplu evident, s considerm funcia al crei grafic este curba din figura de mai
jos. Funcia este constant pe poriuni, mai precis f ( x) = 1 pentru x [0, 1] , n rest f ( x) = 0 .
Distribuia continu a crei densitate de probabilitate este aceast funcie poart numele de
distribuia uniform. Variabila aleatoare asociat va fi notat cu U.
S facem observaia c, pentru orice a, b [0, 1]
P ( a < U b) =

b
a

dx = b a ,

ceea ce nseamn c probabilitatea ca variabila U s ia valori ntre a i b este exact


lungimea intervalului [a, b] .

ansele ca variabila U s ia valori n dou intervale de lungimi egale sunt astfel egale,
ceea ce justific numele de uniform.
Un calcul rapid ne ajut s obinem media i apoi variana distribuiei uniforme. Anume:
E (U ) =

1
0

xdx =

1
2

(ceea ce nu este deloc surprinztor), apoi:


1
0

1
2

Var (U ) = ( x ) 2 dx =

1
12

Distribuiile discrete pot fi asimilate distribuiilor continue. ntr-adevr, dac


x1 < x2 < ... < x n < ...

este secvena de valori a variabilei aleatoare discrete X (asociat distribuiei discrete), atunci
distribuia discret este descris perfect de histograma sa. Graficul frecvenelor (relative)
cumulate nu este altceva dect o reprezentare a funciei de distribuie. Pentru un numr x din
intervalul ( x k , x k +1 ) , este evident c
F ( x) = P ( X x) = P ( X x k ) = F ( x k )

ceea ce explic aspectul n trepte al funciei de distribuie (vezi exemplul din figura de mai
jos).
71

De multe ori, dat o distribuie discret i una continu, ne punem ntrebarea dac ele sunt
apropiate sau nu, cu alte cuvinte dac una dintre ele o reprezint pe cealalt. De
rspunsul la aceast ntrebare poate depinde o decizie important. Rspunsul da este
ntotdeauna subiectiv. Statistica ne permite s evalum riscul ataat deciziei.
3.10. Distribuii normale (Gauss)

n multe raionamente teoretice distribuiile normale (Gaussiene) joac roluri importante.


O distribuie normal, determinat de parametrii i 2 > 0 , notat cu N(, 2 ) , este
caracterizat prin densitatea de probabilitate:
f ( x) =

( x ) 2
exp

2
2 2

Graficul acestei funcii este n form de clopot fiind cunoscut sub numele de clopot al
lui Gauss simetric n raport cu linia vertical x = .
Dup ce se calculeaz cteva integrale, se obin urmtoarele rezultate:
E ( N(, 2 )) =

i
Var ( N(, 2 )) = 2 ,

formule care ne ofer o interpretare evident pentru cei doi parametri.


Graficul funciei
densitate a distribuiei
normale pentru

= 0 , 2 = 0.25

Graficul funciei densitate a


distribuiei pentru = 0 , = 1
Graficul funciei densitate a distribuiei pentru = 2 , 2 = 4

axa valorilor variabilei


Despre parametrul se spune c este media teoretic, iar despre 2 se spune c este
variana teoretic. Aceasta din urm este ptratul deviaiei standard teoretice > 0 a
distribuiei N(, 2 ) . Astfel c nu este deloc surprinztor c ntinderea clopotului depinde
de mrimea lui (a se vedea figura de mai sus pentru cteva exemple).
Evident, variabila aleatoare asociat unei distribuii normale ar putea lua ca valoare orice
numr real. Totui, probabilitatea valorilor scade pe msur ce ele se deprteaz de media
teoretic .

72

Este imposibil s se completeze tabele de valori pentru toate distribuiile normale.


Urmtorul rezultat a fost folosit intens n trecut pentru a efectua calcule n legtur cu
distribuiile normale. Dac X este o distribuie de tipul N(, 2 ) , atunci distribuia
1
( X )

este de tipul N(0, 1) . Mai mult,


Z=

P ( X x ) = P Z

iar aceasta ne permite s folosim datele ce se afl n tabelul aa-numitei distribuii normale
standard N(0, 1) .
Totui, folosirea tabelelor este astzi depit, iar softul general permite efectuarea cu
uurin a oricrui calcul n legtur cu distribuiile normale. De exemplu, n Excel exist
dou funcii, numite NORMDIST i NORMINV, care depind de parametrii i . Caseta
de dialog a primei este prezentat n figura de mai jos. Pentru a calcula valorile n modul
clasic, adic n legtur cu distribuiile normale standard, exist dou funcii suplimentare,
uor de utilizat, numite NORMSDIST i NORMSINV.

(Ce tip i rol are cel de-al patrulea argument al funciei NORMDIST din Excel?)
O densitate de probabilitate de tip clopot Gauss ce corespunde unei distribuii
continue este ideal, ea nu poate aprea n legtur cu o populaie natural. Totui,
importana distribuiilor normale este motivat de urmtoarele:
a) modeleaz bine numeroase variabile numerice care apar n practic n legtur cu
populaii mari, cum ar fi nlimea, greutatea, coeficientul de inteligen al oamenilor, dar
i diametrul celulelor bacteriilor sau erorile de msurare;
b) aproximeaz bine multe alte distribuii, cum sunt cele binomiale;
c) constituie fundamentul inferenei statistice, ntruct reprezint distribuia estimrilor
parametrului unei populaii, estimrile fiind obinute din toate eantioanele posibile.
S ilustrm ultima motivaie prin urmtorul exemplu. S presupunem c populaia noastr
are un numr de 25 de indivizi, crora le cunoatem talia (datele sunt n tabelul urmtor).
Individul
1
2
3
4
5
6
7
8
9
10
11
12
13

Talia
0.1
0.1
0.3
0.1
0.5
0.1
0.1
0.3
0.3
0.9
0.7
0.1
0.3

Individul
14
15
16
17
18
19
20
21
22
23
24
25
Total

Talia
0.7
0.3
0.1
0.1
0.9
0.3
0.1
0.7
0.1
0.7
0.3
0.3
8.5

73

Talia medie este =

8.5
= 0.34 , iar distribuia indivizilor este prezentat n figura de mai
25

jos. Se observ c este o distribuie asimetric (n jurul mediei).

Cum s-ar putea estima aceast medie , msurnd doar indivizii unui eantion mic
(format din doar 4 indivizi)? Evident, prin media aritmetic:
x + x 2 + x3 + x 4
m= 1
4

unde xi este talia individului i din eantion.


Avem ns posibilitatea de a alege foarte multe eantioane de cte 4 indivizi, mai precis se
pot alege
25 24 23 22
4
C 25
=
= 12650 eantioane.
1 2 3 4
S le lum unul dup altul, i s calculm pentru fiecare n parte media aritmetic:
Eantionul nr.
1
2

12650

Indivizii ce-l compun


1, 2, 3, 4
1, 2, 3, 5

22, 23, 24, 25

Taliile corespunztoare
0.1, 0.1, 0.3, 0.1
0.1, 0.1, 0.3, 0.5

0.1, 0.7, 0.3, 0.3

Media taliilor
0.15
0.25

0.35

Evident, nu se pune problema listrii tuturor celor 12650 eantioane posibile. Totui,
folosind un soft de calculator, putem programa cu uurin obinerea tuturor celor 12650
medii de eantion. Distribuia lor este prezentat n figura alturat.
Se poate observa c histograma este mai bine aproximat de o Gaussian.

S reinem o idee fundamental: atunci cnd avem de-a face cu o populaie mare de valori
numerice, a crei distribuie are media (necunoscut!), mediile de eantion formeaz o
nou populaie de numere, care este distribuit (aproximativ) normal cu aceeai medie .
n mod tradiional se consider c distribuii normale cuantific erorile involuntare ce
apar n msurtorile lungimilor sau greutilor (maselor). n aceste situaii, dac reprezint
valoarea msurat, atunci va reprezenta eroarea de msurare. Distribuii normale exprim
de asemenea aa-numitul zgomot ce afecteaz transmisia datelor pe liniile de comunicaie.
74

n general, despre curba Gaussian asociat distribuiei normale N(, 2 ) este de reinut
c:
a) Mediana, adic valoarea Me care separ populaia (infinit) n dou pri de mrimi
egale, coincide cu media teoretic ;
b) ntre abscisele i + (care sunt situate la distana fa de media , aria
de sub graficul funciei densitate este 0.683. Aceasta nseamn c 68.3% dintre indivizii unei
populaii normale sunt situai ntre i + ;
c) ntre abscisele 2 i + 2 (care sunt situate la distana 2 fa de media ,
aria de sub graficul funciei densitate este 0.955. Aceasta nseamn c peste 95% dintre
indivizii unei populaii normale sunt situai ntre 2 i + 2 ;
d) Practic, ntreaga arie de sub grafic (de fapt 99.5%) se afl ntre abscisele 3 i
+ 3 . Acesta fapt conduce la aa-numita regul a celor ase sigma (cunoscut sub acest
nume de ctre cei ce iau decizii): presupunnd c populaia este distribuit normal, deviaia
ei standard este estimat la 1/6 din diferena dintre valoarea maxim i cea minim, valori ce
sunt obinute dintrun eantion suficient de mare.
n particular, ne vom atepta ca 68.3% (adic ceva mai mult de 2/3) dintre oameni s aib
un IQ ntre 84 i 116, i doar unul din 500 s aib IQ-ul peste 148. (Se tie c IQ este
distribuit normal cu media 100 i variana 256.)
Se practic aproximarea unor distribuii binomiale b(n, p ) prin distribuii normale, mai
ales atunci cnd numrul n de ncercri este mare. Este obligatoriu ns s fim precaui,
ntruct distribuia binomial este de regul asimetric.
De fapt, distribuiile binomiale b(n, p ) sunt simetrice doar pentru p = 0.5 , iar asimetria
crete pe msur ce probabilitatea succesului p se deprteaz de 0.5. Se accept c
aproximarea binomial b(n, p) prin normala N(, 2 ) este bun doar n cazurile n care
n p 5 i n (1 p ) 5 , iar n aceste cazuri parametrii distribuiei normale se obin prin
identificarea mediilor i varianelor: = n p , 2 = n p (1 p) .
Ca motivaie pentru asemenea aproximri este nevoia de aprecieri rapide asupra efectelor
unor decizii pe care le lum. Ca exemplu, s considerm cazul unei alegeri pentru un
organism de conducere format din 20 de membri, care vor fi alei de ctre o adunare format
din 100 de delegai.
Decizia care a fost luat este urmtoarea: fiecare delegat va vota selectnd 20 de nume de
pe buletinul de vot ce conine toate cele 100 de nume, iar comisia de validare va declara ca
fiind alei acei delegai ce totalizeaz cel puin 51 de voturi pentru.
Ce efect are o asemenea decizie? Ce anse exist ca s se aleag organismul de conducere
n urma votului?
n ipoteza c fiecare delegat alege la ntmplare 20 de nume de pe buletinul de vot,
20
= 0.2 . Presupunnd c niciunul
probabilitatea succesului pentru un candidat va fi de 100
dintre cele 100 de buletine nu este invalidat, numrul de voturi obinute de ctre un candidat
(oarecare) este dat de variabila aleatoare asociat distribuiei binomiale b(100, 0.2) .
S-o aproximm cu distribuia normal N( 20, 16) , ntruct = n p = 100 0.2 = 20 i
2 = n p (1 p ) = 20 0.8 = 16

de unde = 4 . Cunoscnd datele anterioare despre


distribuiile normale, putem evalua rapid c 99.5% dintre rezultatele obinute de ctre
candidai se vor situa ntre 3 = 20 3 4 = 8 i + 3 = 20 + 3 4 = 32 iar ansele ca vreun
candidat s fie ales cu cel puin 51 de voturi favorabile sunt practic nule. Fr crearea de
coaliii premergtoare votului, alegerile pentru organismul de conducere pot continua la
nesfrit.

75

(O soluie de ieire din impas ar fi s se acorde fiecrui delegat dreptul de a alege nu 20,
ci 40 de nume de pe buletinul de vot. n aceast situaie p = 0.4 , = 40 , 2 = 40 0.6 = 24 ,
adic 5 . De data aceasta ar fi 2% anse ca numrul de voturi obinute de un candidat s
fie mai mare dect + 2 = 40 + 10 = 50 . Ne putem atepta la alegerea n organul de
conducere a cel puin 2 delegai nc din primul tur.)
ntrun anume sens, o curb Gaussian exprim distribuia indivizilor din populaia
infinit a numerelor reale, n raport cu anumite puncte speciale de pe axa absciselor.
S presupunem c dispunem de o funcie care, pentru orice numr pozitiv z, calculeaz
aria de sub grafic, la stnga lui z a se vedea figura de mai jos. (O asemenea funcie este
NORMSDIST, atunci cnd Cumulative = TRUE, n Excel.)
Atunci P( Z > z ) este aria de sub grafic, la dreapta abscisei z, cu alte cuvinte:
P( Z > z ) = 1 P( Z z ) .
Dac z este negativ, atunci z este pozitiv. ntruct graficul este simetric fa de origine,
concludem c:
P( Z < z ) = P( Z > z ) = 1 P( Z z ) .
De asemenea,
P( z ' < Z z ) = P( Z z ) P( Z z ' ) .

Ca exemplu, pentru z = 1.96 obinem P( Z 1.96) = 0.975 = 97.5% ; din formulele de mai
sus rezult P( Z > 1.96) = 2.5% i P( Z < 1.96) = 2.5% !
Cteodat suntem interesai n poziionarea (relativ) a unui individ ce face parte dintro
populaie distribuit normal. Ca exemplu, tim c un individ a obinut scorul 68 la o
competiie. Numrul 68 nu ne spune nimic despre clasarea acelui individ; la fel de bine ar
putea fi apropiat de minim, de median, de maxim. Performana real nu este deloc evident!
O procedur uzual pentru descrierea performanei reale const n indicarea scorului
standard (cunoscut i ca scorul Z). Acest scor exprim ct de mult deviaie standard se
afl sub rezultat. Scorul Z se calculeaz cu uurin odat ce sunt cunoscui parametrii
populaiei, anume se scade media a populaiei din rezultatul x, apoi se mparte diferena
x la deviaia standard:
x
.

n practic i sunt estimate din datele pe care le avem la dispoziie. De exemplu,


z=

dac rezultatul 68 a fost obinut de o persoan la un test IQ (pentru care se presupune c


= 100 i = 16 , atunci scorul Z are valoarea 2, ce corespunde unei performane sczute!
Distribuia normal ne ajut s definim ceea ce poate nsemna individ normal al unei
populaii. n teoria calitii, indivizii care au scoruri Z ntre 2 i +2 sunt etichetai ca
standard, iar cei care au scoruri Z ntre 3 i +3 sunt etichetai ca normali.
S observm c, prin standardizare, o valoare a unei distribuii normale arbitrare este
nlocuit printro valoare a distribuiei normale standard N(0, 1) . S reinem c prin
standardizare putem compara scorurile (indivizilor) din diversele populaii.
76

Familia distribuiilor normale prezint o importan deosebit i datorit unor rezultate


utilizate n teoria eantionrii. Vom reveni n cursul 8 asupra acestei teorii.
Exerciii. 1) Admitem c nlimea unui brbat adult este distribuit normal cu = 175 i
= 7 (cm). Care este probabilitatea ca un brbat adult s fie mai nalt de 185 cm, tiind c
este mai nalt de 180 cm?
Asemenea aprecieri implic evaluarea unor probabiliti condiionate. Mai precis, notnd
cu H nlimea unui brbat adult considerat ca variabil aleatoare cu distribuia N(175, 49)
vom evalua folosind NORMDIST din Excel:
P( H > 185 | H > 180) =

P( H > 185) 1 NORMDIST(185,175,7, True) 0.0766


=
=
= 0.322 .
P( H > 180) 1 NORMDIST(180,175,7, True) 0.2375

2) Admind c numrul de leucocite pe unitatea de volum de snge diluat, evaluat la


microscop, este distribuit Poisson cu media = 100 , care este probabilitatea ca s fie
observat un numr de cel mult 90?
Evident, putem face apel la funcia POISSON din Excel, formula
=POISSON(90,100,True)
oferindu-ne rezultatul dorit. S adoptm ns o alt cale, anume prin aproximarea distribuiei
Poisson Po() cu una normal N(, 2 ) . Determinarea parametrilor se va face prin egalarea
mediilor distribuiilor
= = 100

respectiv a varianelor distribuiilor 2 = = 100 . n urma aproximrii, probabilitatea dorit


va putea fi obinut i prin formula:
=NORMDIST(90,100,10,True)
(Abateri exist, dar doar la nivel de procent. Putem neglija asemenea erori mici.)

77

Cursul 4. Elemente de biostatistic


S ne imaginm c studiem un numr de indivizi ai unei populaii, de exemplu studenii
din anul al II-lea, Facultatea de Medicin. (De ce? Poate din motive sociale, politice,
economice, medicale, ...) Putem lua n considerare, din multitudinea de caracteristici
posibile, doar cteva: nlimea, greutatea, culoarea prului, numrul de membri ai familiei,
nivelul cunotinelor de anatomie, nivelul de inteligen. Exprimnd aceste caracteristici prin
variabile (unele numerice, altele nu), admitem c prin msurare sau evaluare vom obine
seturi de date care umplu tabele de date. ntrebrile eseniale care se pun de obicei sunt
urmtoarele:
cum putem s descriem sintetic datele pe care le-am obinut?
cum putem s transmitem altora informaiile pertinente despre ansamblul indivizilor,
fr ns a le transmite toate datele obinute?
La acest gen de ntrebri statistica poate da un rspuns. Dar, pentru a nelege justificrile
metodelor statisticii i a le interpreta corect rezultatele, va trebui s ne familiarizm cu
cteva distribuii teoretice, dintre care cele normale sunt cele mai cunoscute.
Coninutul acestui curs este urmtorul:
4.1. Populaii i eantioane, caracteristici i variabile .................................................
4.2. Reprezentri grafice .............................................................................................
4.3. Statistici descriptive. Centrarea unei variabile numerice .....................................
4.4. Statistici descriptive. Deviaia n jurul centrului ..................................................
4.5. Statistici descriptive pentru variabile calitative i ordinale .................................
4.6. Covariana i corelaia ..........................................................................................
4.7. Problema general a statisticii ..............................................................................
Adrese web utile:
www.mste.uiuc.edu/hill/dstat/dstat.html
www.stats.gla.ac.uk/steps/glossary/paired_data.html

78

79
81
83
84
87
88
91

4.1. Populaii i eantioane, caracteristici i variabile

Statistica este o tiin care se ocup cu tratamentul datelor obinute din grupuri mici de
indivizi i extinderea rezultatelor la populaii mari.
Principala caracteristic a proceselor biologice este variabilitatea. Aceast variabilite
determin un anumit grad de incertitudine. Statistica ne permite s stabilim legi n care s
inem seam de incertitudine.
Biostatistica este acel domeniu particular al tiinelor n care metodele specifice statisticii
sunt aplicate problemelor biologice (inclusiv medicale), n particular diverselor fenomene i
procese care afecteaz calitatea fizic i mental a oamenilor.
Biostatistica, fiind o ramur a statisticii, ne permite s dm rspuns la ntrebri cum sunt
urmtoarele:
a. Care valori sunt normale pentru un anumit proces biologic?
b. Ct de mult riscm atunci cnd alegem un anumit tratament?
c. Este oare mai bun noul tratament dect cel clasic?
Cuvntul populaie are, n limbajul de zi cu zi, un neles evident. De obicei, atunci cnd
ne referim la o populaie, considerm implicit c numrul indivizilor ei este mare; aceasta
nu exclude ns multe situaii, cum este cea din exemplul formal populaia pacienilor dr.
Ionescu ce sufer de cardiopatie ischemic, n care este clar c acest numr nu este prea
mare. Se subnelege c o populaie are caracter dinamic (adic numrul indivizilor ei variaz
n timp). Totui, se presupune c la un moment particular de timp sau ntrun interval de
timp bine definit populaia este bine definit.
Fiecare individ al unei populaii i are identitatea sa proprie, iar indivizii prezint o
anumit variabilitate. Atunci cnd studiem o populaie se iau n considerare doar anumite
atribute importante ale indivizilor; aceste atribute poart numele de caracteristici.
De obicei studiile efectuate asupra indivizilor unei populaii sunt costisitoare i de durat;
cteodat ele au ca efect chiar distrugerea indivizilor studiai. Este de neconceput s poat
fi studiai chiar toi indivizii unei populaii mari. Raiunea eantionrii este limpede: prin
efectuarea de studii asupra unei pri relativ mici din populaie parte care este numit
eantion s strngem suficient informaie care s ne permit s inferm la nivelul ntregii
populaii asupra caracteristicilor studiate.

Numrul indivizilor din eantionul ales este numit volumul eantionului i este notat de
obicei, atunci cnd ne referim la un eantion potenial (eantionul nu a fost precizat) prin
litera n.
Unele caracteristici cum ar fi greutatea unui pacient diagnosticat cu tuberculoz,
nlimea sa, sau inteligena unui student sunt msurate i exprimate prin numere. Alte
caracteristici cum ar fi sexul sau categoria de vrst nu sunt msurate, ci sunt identificate
prin apartenena la un grup. Caracteristica culoare a obiectelor ar putea fi msurat
(exprimat prin lungimea de und), ns de obicei este identificat prin apartenena la
grupurile rou, portocaliu, galben etc.
Atunci cnd ncercm s comparm sau s clasificm indivizi, s stabilim legturi ntre
caracteristicile lor, aceste caracteristici sunt reprezentate prin variabile. Pentru a reprezenta o
caracteristic printro singur variabil va trebui s introducem o scar, ceea ce nseamn:
1. S definim spaiul observabil, adic mulimea tuturor valorilor posibile;
2. S definim o structur pe spaiul observabil, i
3. S admitem c putem asocia fiecrui individ cte o (singur) valoare din spaiul
observabil.
Pentru a preciza ideile, s considerm cteva exemple. Caracteristica nlime a
pacienilor este reprezintat evident printro variabil, deoarece considerm n mod intuitiv c
79

valorile sunt numere reale (cu alte cuvinte spaiul observabil este R iar acest spaiu are o
structur foarte bogat: operaii aritmetice, ordonare total etc.). Este clar c dac ne alegem
o unitate de msur (metrul, centimetrul, ) atunci pentru fiecare pacient vom putea s
obinem e drept, cu o uoar cheltuial de timp o unic valoare a nlimii sale. Numerele
obinute sunt reale, prin urmare le putem ordona ntre ele, de asemenea le putea aduna,
scdea, etc. O asemenea variabil este numit variabil numeric.
Aceeai caracteristic nlime ar putea fi reprezentat de o variabil de cu totul alt tip.
Spaiul observabil este acum format doar din etichetele foarte scund, scund, mediu,
nalt i foarte nalt. Nu mai este necesar o msurare precis a pacienilor, le vom putea
aprecia vizual nlimea. Asemenea etichete nu pot fi adunate sau sczute, este definit
doar ordonarea ntre ele. De data aceasta avem un exemplu de variabil ordinal.
Cteodat o caracteristic este exprimat printro variabil de decizie (sau variabil
binar) ce ia doar dou valori admis/respins (respectiv da/nu etc.).
O alt situaie ce trebuie scoas n eviden este cea a caracteristicii inteligen a unui
student, care poate fi exprimat printrun ansamblu de variabile.
Aadar, o caracteristic studiat ar putea fi reprezentat, direct sau indirect, prin mai
multe variabile.
Atunci cnd avem de-a face cu un eantion mare (adic are un numr mare"de
indivizi), de obicei variabilele numerice sunt nlocuite prin variabile calitative, ordinale (care
reprezint aceeai caracteristic). Mai precis, datele numerice sunt grupate ntrun numr
mic de clase. De exemplu, se utilizeaz foarte adesea clase de vrst sau clase de nlime.
Numrul K de clase este ales n strns dependen de problema studiat i nu exist
definit vreun algoritm de stabilire a sa. Un numr prea mic de clase are dezavantajul c
ascunde particularitile claselor; din contra, un numr mare de clase face dificil
reprezentarea grafic a rezultatelor. (Se recomand reprezentarea grafic a rezultatelor
datorit percepiei mai rapide pe cale vizual a informaiei.) Se poate face recomandarea de a
se forma ntre 8 i 20 de clase.
S lum de exemplu clasele de vrst ale pacienilor, considernd c studiem un eantion
de indivizi diagnosticai cu o anumit maladie. Pare natural s grupm vrstele lor n clase
delimitate subiectiv dup cum urmeaz C1 = 0-4 ani, C2 = 5-9 ani, C3 = 10-14 ani i
aa mai departe.
Observm c toate clasele descrise anterior au aceeai lungime, anume 5 ani. Aceasta
este recomandat, dar nu este obligatoriu!
n cazul n care fie indivizii sunt grupai natural n clase, fie datele colectate au fost
grupate n clase, putem calcula frecvene. Pentru o clas de date, frecvena absolut este
numrul indivizilor pentru care datele aparin acelei clase. Frecvena relativ se calculeaz
prin mprirea frecvenei absolute la numrul total al indivizilor din eantion. Uneori se
folosesc i aa-numitele frecvene cumulate.
Frecvenele variabilelor (nu numai cu valori numerice) se obin cu uurin n Excel prin
intermediul funciei FREQUENCY(). Aceast functie are dou argumente:
1. Domeniul n care au fost plasate valorile variabilelor (data array);
2. Domeniul n general pe o coloan n care se trec valorile de separare, n ordine
cresctoare (bins array).
Rezultatele aplicrii acestei funcii sunt plasate ntrun domeniu ce are o celul n plus fa
de domeniul valorilor de separare. n aceast celul suplimentar va fi afiat numrul
valorilor ce depesc cea mai mare valoare de separare.
Un exemplu de folosire a funciei FREQUENCY n Excel este prezentat n figura
urmtoare.
80

iar rezultatul aplicrii, dup extinderea formulei, este urmtorul:

4.2. Reprezentri grafice

Adeseori o reprezentare grafic, interpretat vizual, poate fi extrem de eficient pentru


prezentarea unor date sau rezultate. S considerm, de exemplu, cazurile de infarct
nregistrate ntrun ora mare, grupate dup zilele sptmnii:
Ziua sptmnii
Frecvena absolut a cazurilor de infarct
Luni
4
Mari
4
Miercuri
7
Joi
3
Vineri
6
Smbt
4
Duminic
8
TOTAL
36
O inspectare vizual a numerelor din tabel nu este la fel de eficient ca examinarea
vizual a unei diagrame cu bare sau a unei rozete.Iar reprezentarea datelor ntro diagram cu
bare sau de tip rozet este o operaiune uoar, implementat n orice soft statistic sau de
81

calcul tabelar. n figurile de mai jos diagrama cu bare a fost obinu cu Excel, diagrama de
tip histogram a fost obtinut cu Statistica, iar diagramele de tip rozet au fost obinute cu
Excel i EpiInfo.

n tabel, n diagrama cu bare, n histogram i n rozete este prezentat aceeai informaie.


Probabil c suntem de acord cu toii c informaia reprezentat grafic este mai uor de
neles. (O mic corecie: n diagrama de tip histogram este reprezentat o curb
suplimentar, care ns este inutil n cazul nostru. Vom aborda ulterior interpretarea acestei
curbe.)
Se poate observa, n cele dou rozete, c prezentarea rezultatelor depinde de softul folosit,
existnd unele diferene (datorate rotunjirilor). Exist i deosebiri n modul n care trebuie
introduse datele. Doar n Excel putem pleca de la tabelul de mai sus. n general se pleac de
la datele primare caz dup caz.
Att tabelele de frecvene, ct i diagramele sunt adecvate pentru afiarea variabilelor
care au un numr mic de valori. Asemenea reprezentri tabelare sau diagramatice nu
sunt deloc potrivite pentru variabilele care au un numr mare de valori numerice (aa cum
este cazul greutii pacienilor exprimat n grame). Evident, n asemenea situaii se practic
gruparea valorilor n cteva intervale de valori, iar abia apoi rezultatele gruprii sunt
prezentate n histograme.
De exemplu, s presupunem c am cntrit 240 de indivizi (a cror nlime este de 1.65
m) i am obinut rezultate care au fost grupate n 16 intervale (grupuri, clase), anume:
C1 = 41-45 kg 5 cazuri;
C2= 46-50 kg 10 cazuri;
C3 = 51-55 kg 20 cazuri;
C4 = 56-60 kg 36 cazuri;
...
C15 = 111-115 kg 0 cazuri;
C16= 116-120 kg 1 caz.
Folosind Excel, Statistica i EpiInfo, din aceste date se obin histogramele urmtoare:

82

S remarcm c ntro histogram clasele sunt intervale de numere reale, iar ntro
diagram cu bare clasele sunt reprezentate prin etichete (labels).
Reprezentarea grafic a datelor ar putea fi folositoare i pentru identificarea datelor
eronate sau a valorilor aberante (outliers). Aceste valori aberante, de orice fel ar fi,
distorsioneaz serios rezultatele analizelor statistice.
Atunci cnd se construiete o diagram de tip histogram, pe axa orizontal se marcheaz
punctele de separare ntre clase i, pentru fiecare clas, se ridic pe vertical un dreptunghi
cu nlimea proporional cu frecvena (fie absolut, fie relativ) clasei. Dreptunghiurile
sunt de limi egale. ntro histogram veritabil aria tuturor dreptunghiurilor este 1.)
S ncheiem aceast seciune subliniind c reprezentrile grafice sunt folosite pentru
accelerarea transferului de informaie de la om la om. Acest transfer bazndu-se ns pe
percepia vizual, toate iluziile optice pot fi folosite pentru a induce o percepie eronat
asupra unor date. Trebuie s fim ateni la corectitudinea tipului de diagram, la falsificarea
datelor prezentate, la modificarea nejustificat a scrilor de msurare, i nu n ultimul rnd la
adecvarea textele titlurilor, etichetelor i legendelor de pe diagram.
4.3. Statistici descriptive. Centrarea unei variabile numerice

S considerm c, ntrun studiu efectuat asupra unei populaii mari, suntem interesai n a
studia o anumit caracteristic reprezentat printro variabil numeric. Dup ce am ales un
eantion s zicem de n indivizi i am fcut msurtorile necesare, vom dispune de
numerele reale x1 , x2 ,..., x n . Aceste numere sunt reprezentate prin puncte pe axa real (a se
vedea figura urmtoare) iar intuiia ne spune c acestea sunt distribuite echilibrat n jurul
unui centru.
Pare evident cum putem obine acest centru m: vom calcula media aritmetic a numerelor
(adic nsumm numerele, apoi mprim suma la numrul total n al indivizilor din eantion):
x + x2 + ... + xn
m= 1
n

S profitm de ocazie pentru a introduce al doilea neles al cuvntului statistic, i


anume urmtorul: un numr calculat folosind datele obinute dintrun eantion. Formula de
mai sus ofer un prim exemplu de statistic.

83

n formula de mai sus toate mrimile msurate sunt tratate n mod echitabil (niciuna nu
este tratat altfel dect celelalte). Mai mult, rezultatul este exprimat n aceleai uniti de
msur ca i valorile msurate.
Apariia nu neaprat din eroare! unei valori aberante (outlier) influeneaz poziia
mediei aritmetice, totui nu prea mult a se vedea figura urmtoare.

Funcii care calculeaz instantaneu media aritmetic sunt implementate n orice soft
statistic sau de calcul tabelar. De exemplu, n Excel aceast funcie este numit
AVERAGE() i are un singur argument, anume domeniul n care au fost plasate datele
numerice. ns, n orice soft statistic media aritmetic este afiat mpreun cu alte statistici
elementare, care sunt considerate strict necesare pentru analiz.
De exemplu, Statistica, n modulul su Basic Statistics/Tables conine o comand
Detailed Descriptive Statistics. Ca un alt exemplu, softul biostatistic EpiInfo 2004 are un
modul numit Analysis; aici se ntlnete comanda Means, mpreun cu alte comenzi,
grupate n grupul Statistics.
n practic media aritmetic nu este singura statistic utilizat pentru a indica centrul
datelor. n cazul n care datele sunt ordonate, ca de exemplu astfel:
x1 x2 ... xn

poate fi folosit i mediana pentru a indica centrul. Mediana (Me) este punctul ce divide
valorile n dou pri egale.
n situaia n care toate valorile xi sunt distincte, iar n = 2m + 1 (adic numrul datelor
este impar), mediana Me coincide cu valoarea x m+1 care este situat exact n mijloc; atunci
cnd n = 2m (numrul datelor este par), mediana Me este media aritmetic a celor dou
valori, xm i x m+1 , situate n mijloc.
n unele situaii, pentru a indica centrul mediei aritmetice i medianei i este preferat
modul. Pentru date categoriale (nenumerice), modul Mo este o statistic definit ca acea
valoare ce are frecvena maxim. Pentru date numerice, modul Mo, ca centru al datelor,
este dat de formula:
Mo = 3 Me 2 m .
4.4. Statistici descriptive. Deviaia n jurul centrului

Adeseori evaluarea mprtierii datelor n jurul centrului, eventual o msur a acestei


mprtieri, este la fel de important ca i aflarea centrului. Multe dintre statisticile care
exprim mprtierea sunt definite plecnd de la noiunea de deviaie, ele diferind ntre ele
doar prin nelesul pe care-l acordm acestui termen.
O prim statistic, evident, este amplitudinea, notat cu A, i care este definit ca
diferena ntre valorile maxim i minim ale seriei de date:
A = xmax xmin .
Amplitudinea ne informeaz asupra lungimii intervalului de variaie (n cazul unor date
numerice); are dezavantajul c depinde doar de dou dintre valorile seriei, i nu ne
informeaz deloc asupra modului n care datele sunt mprtiate ntre extreme.
Din contra, deviaia medie (abaterea medie) depinde echitabil de toate valorile seriei
de date. Aceast statistic presupune c a fost calculat anterior media m a seriei. Definiia
84

precis este urmtoarea: deviaia medie este media aritmetic a abaterilor valorilor fa de
media lor, abateri luate n valoare absolut:
E=

| xk m |
.
n

Din punct de vedere matematic aceast formul nu este potrivit (funcia modul nefiind
derivabil). Acesta este motivul principal pentru nlocuirea sa cu urmtoarea statistic,
numit media ptratic a seriei de date:
Q=

2
( x k m)
.
n

Pentru a nelege justificarea formulei urmtoare, s ne imaginm c valorile x1 , x2 ,..., x n


sunt variabile aleatoare distribuite normal, independente ntre ele, toate avnd aceeai medie
teoretic i aceeai varian teoretic 2 :
x k = N(, 2 ) , E ( x k ) = , Var ( xk ) = 2 .
x + x + ... + x n
n aceste condiii, m = 1 2
va fi o variabil aleatoare normal, avnd aceeai
n
2
medie teoretic , dar varian mai mic Var (m) = n .

De asemenea, Q va fi o variabil aleatoare. Prin calcul se obine urmtorul rezultat:


E (Q) =

n 1 2
.
n

Observm c media lui Q nu coincide, aa cum ne-am fi ateptat, cu variana teoretic


! Avem de-a face cu un aa-numit fenomen de deplasare (bias). Dac ns considerm
expresia
2

V =

2
( x k m)
n 1

care este numit variana seriei de date, atunci media E (V ) coincide cu variana teoretic
2 , adic este nedeplasat (unbiased). De aceea estimarea lui se face de obicei prin

abaterea standard, definit mai jos.


Deviaia medie este exprimat n aceeai unitate de msur ca i valorile seriei de date,
ns acest lucru nu mai este valabil pentru media ptratelor, nici pentru varian. Dac dorim
o statistic ale crei valori s fie exprimate n aceeai unitate de msur ca i valorile seriei,
care s depind echitabil de toate valorile, simultan s aib i proprieti matematice bune,
atunci formula urmtoare satisface toate aceste condiii. Formula ne d aa-numita deviaie
standard (sau abatere standard) a seriei de date:
s=

2
( x k m)
.
n 1

(la numitor apare numrul valorilor din seria de date, diminuat cu 1).
Formula de mai sus pentru s necesit foarte multe calcule; evident, ele sunt implementate
n soft. Astfel aplicaia Excel dispune de funcia STDEV() al crui unic argument este, la fel
ca n cazul funciei AVERAGE(), domeniul n care a fost plasat seria de date. n Excel
avem la dispoziie multe alte funcii statistice, ca de exemplu MEDIAN(), cu folosire
evident.
Statistica ne ofer, n modulul Basic Statistics/Tables, comanda Detailed Descriptive
Statistics. Ca rezultat al ei se afieaz media Mean, deviaia standard Std.Dev., valorile
minim i maxim (vezi figura urmtoare).

85

Comanda Means (mpreun cu altele, grupate n grupul Statistics) din modulul Analysis
al aplicaiei EpiInfo ofer multe rezultate, incluznd media aritmetic, mediana, variana,
deviaia standard (a se vedea figura urmtoare).

S rezumm cele de mai sus: dac dispunem de o serie de date numerice, pentru a le
evalua centrul i mprtierea n jurul centrului putem folosi urmtoarele statistici:
Media aritmetic m;
Mediana Me;
Modul Mo;
Amplitudinea A;
Abaterea medie (deviaia medie) E;
Variana V;
Abaterea standard (sau deviaia standard), notat cu s.
(Terminologia dubl n limba romn este cauzat de adoptarea recent a termenilor din
englez.)
Lista anterioar nu este deloc exhaustiv; n practic sunt des utilizate i alte statistici:
Cuartilele q1 (prima, de 25%) i q3 (a treia, de 75%). Acestea sunt numerele care,
mpreun cu mediana Me = q 2 (considerat ca a doua cuartil) divid datele seriei n patru
pri (de volume) egale;
Asimetria (skewness), care exprim evident lipsa de simetrie a seriei de date n jurul
centrului.
S ncheiem aceast trecere n revist prin prezentarea unui tip special de diagram,
cunoscut ca box-and-whisker plot, des folosit n reprezentarea grafic a datelor medicale.
ntro astfel de diagram:
o linie transversal sau un asterisc indic centrul;
un dreptunghi indic variabilitatea n jurul centrului; acest dreptunghi (box)
fie conine 50% din datele seriei, anume cele aflate ntre cuartilele q1 i q3 ;

fie conine datele seriei aflate ntre m 2 s i m + 2 s .


linii (whiskers) extind dreptunghiul n ambele direcii; aceste linii indic domeniul de
variaie (excluzndu-se eventualele valori aberante, care sunt marcate special).
86

Un exemplu de trei box-and-whisker plots realizate cu Statistica este prezentat n figura


de mai jos. Ele arat distribuii destul de dezechilibrate pentru valorile tuturor celor trei
variabile GLIC_08, GLIC_14, GLIC_20.

4.5. Statistici descriptive pentru variabile calitative i ordinale

n cazul variabilelor cantitative datele sunt numerice, prin urmare putem calcula media lor
prin operaii aritmetice de adunare i mprire sau abaterea standard (pentru care
calculele sunt ceva mai complexe). n cazul variabilelor calitative ns, valorile sunt etichete,
iar operaiile aritmetice nu sunt definite!
Am putea nlocui etichetele prin numere de exemplu am putea recodifica eticheta
admis prin 1 iar eticheta respins prin 0 i apoi s facem calculele cu aceste numere;
dar, evident, nu avem nicio justificare n a face aa ceva.
Dat o variabil calitativ, am putea fixa o valoare particular a ei i apoi, pentru fiecare
individ din eantion, am putea nota prezena respectiv absena acestei valori. Prezena este
notat de obicei prin 1, iar absena prin 0. Dac prezena valorii este constatat la a indivizi
ai eantionului, prin raportare vom obine imediat frecvena relativ a acestei valori:
f =

a
.
n

Pentru valoarea aleas, acest raport joac acelai rol pe care-l joac media aritmetic n
cazul variabilelor cantitative. (De fapt, este media unor valori ce pot fi doar 1 sau 0.) Prin
urmare este o statistic de centrare.
mprtierea este evaluat, n aceast situaie, prin aa-numita varian a valorii alese,
definit prin:
V = f (1 f )

sau prin deviaia standard a valorii:


s = f (1 f ) .
(Este vorba de fapt de formulele obinuite, prezentate n paragraful anterior, adaptate
pentru valorile x k = 0 sau 1.)

Adevrata statistic de centrare pentru ntreaga serie de date (aadar pentru ansamblul
valorilor etichete) este, n acest caz, modul, care nu este altceva dect eticheta/etichetele
avnd frecvena maxim.
n cazul variabilelor ordinale datele, chiar dac sunt exprimate numeric, nu pot fi tratate
aritmetic. Valorile posibile aa-numitele modaliti ale unei variabile ordinale,
v1 , v 2 ,..., v K , pot fi doar comparate ntre ele, nu putem vorbi despre calcului vreunei medii
aritmetice. Totui, distribuia valorilor (pe modaliti) poate fi descris de un indicator de
centrare (al centrului valorilor) i de un indicator de dispersie (al mprtierii valorilor n
87

jurul centrului). Indicatorul de centrare este mediana. n ceea ce privete indicatorul de


dispersie, n literatura de specialitate se sugereaz folosirea urmtoarei expresii:
K 1

Fk (1 Fk )

D=

k =1

unde k = 1,2,..., K reprezint modalitile variabilei ordinale iar Fk , k = 1,2,..., K sunt


frecvenele relative cumulate asociate modalitilor. Se observ imediat c indicele de
mprtiere ia valori pozitive; de asemenea, valoarea sa este mrginit superior de

K 1
,
4

prin urmare din D se poate obine un indicator de dispersie normat d ( 0 d 1 ):


d=

D
.
( K 1) 4

Exemplu. n ncercarea de dozare a unei enzime, de la 104 indivizi alei aleator dintrun
lot de 200 voluntari au fost obinute urmtoarele rezultate, clasate conform aprecierii
preliminare a specialitilor:
Concentraia

Foarte mic

Mic

Medie

Mare

Foarte mare

Numr indivizi
6
11
32
40
15
Reprezentnd clasele de concentraii prin numerele 1 5, de exemplu n sens cresctor,
ncepem prin a calcula frecvenele relative
fk
0,0577
0,1058
0,3077
0,3846
0,1442
apoi frecvenele cumulate
Fk

0,0577

0,1635

0,4712

0,8558

apoi produsele
Fk (1 Fk )

0,0544

0,1367

0,2492

0,1234

i n final suma produselor D = 0,5637 .


Frecvenele cumulate sunt suficiente pentru a depista c mediana ca indicator de
centrare adaptat acestei situaii corespunde categoriei Mare. Aceasta pune sub semnul
ntrebrii modul de apreciere al specialitilor; acetia ar trebui s-i revizuiasc opiniile.
Indicatorul de dispersie normat d care n situaia noastr (K = 5) coincide cu indicatorul
D, are relevan numai n cazul efecturii de comparaii cu situaii similare.
4.6. Covariana i corelaia

Rare sunt studiile efectuate asupra unei populaii n care suntem interesai n a studia doar
o anumit caracteristic (reprezentat printro variabil), independent de multe alte
caracteristici ale indivizilor populaiei. De regul studiem simultan mai multe caracteristici.
S considerm printrun exemplu cazul cel mai simplu, cel n care studiem dou
caracteristici: se nregistreaz, pentru fiecare nou nscut, vrsta mamei (n ani) i greutatea
noului nscut (n grame). Oare exist vreo legtur ntre aceste dou variabile? i dac da,
oare putem exprima aceast legtur printro formul liniar? La prima vedere se pare c
rspunsurile la aceste ntrebri sunt fie da, fie nu. ns modul binar de a rspunde la
ntrebri nu este specific statisticii! n cadrul statisticii se dau rspunsuri diversificate, de
exemplu exprimate printrun numr ce exprim intensitatea legturii ntre cele dou variabile
(?). Iar fiecare persoan ar putea s interpreteze acest numr dup cum dorete, fie ca un
da, fie ca un nu!
Una dintre posibilitile de a da asemenea rspunsuri nuanate const n folosirea
coeficientului de corelaie (Pearson), al crui calcul se bazeaz pe estimarea covarianei.
88

Covariana unei perechi ( X , Y ) de variabile aleatoare este o noiune teoretic, bazat pe


posibilitatea calculrii mediei variabilelor aleatoare. Mai precis, covariana este diferena
dintre media produsului X Y i produsul mediilor:
Cov( X , Y ) = E ( X Y ) E ( X ) E (Y ) .
Evident, n cazul n care Y coincide cu X, din definiia de mai sus rezult
Cov( X , X ) = E ( X 2 ) E ( X ) 2 = Var ( X ) .
Exist i o alt formul a covarianei
Cov( X , Y ) = E (( X E ( X )) (Y E (Y )))

care arat c avem de-a face, de fapt, cu o medie (expectation).


Faptul c orice covarian poate fi tratat ca o medie servete la stabilirea unei relaii
interesante:
Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y ) .
Valorile covarianei sunt numere reale, pozitive sau negative. Totui, ele nu pot fi orict
de mari, cci exist o limitare
Cov( X , Y ) 2 Var ( X ) Var (Y )

ceea ce justific introducerea coeficientului de corelaie (teoretic)


( X , Y ) =

Cov( X , Y )
Var ( X ) Var (Y )

ale crui valori sunt cuprinse n intervalul [1, 1]


Dou observaii sunt evidente:
(1) atunci cnd ( X , Y ) = 0 , cele dou variabile aleatoare sunt independente;
(2) n cazul n care ntre variabile exist o relaie liniar Y = a + bX cu b > 0 , este imediat
c ( X , Y ) = 1 .
n practic, atunci cnd studiem legtura ntre dou variabile numerice, ncepem prin a
alege un eantion, apoi nregistrm datele provenite din msurtorile efectuate asupra
indivizilor; datele rezultate sunt prezentate fie ntrun tabel:
Individul
1
2
...
k
...
n

Valorile variabilei X

Valorile variabilei Y

x1
x2

y1
y2

...

...

xk

yk

...

...

xn

yn

fie ca un nor de n puncte n plan (a se vedea figura de mai jos).

89

n cazul n care (avem impresia c) punctele sunt aliniate, ne exprimm spunnd c exist
o corelaie liniar ntre variabilele X i Y.
S notm cu m X respectiv mY mediile celor dou serii de date. Covariana ntre
variabilele X i Y va fi estimat prin covariana dintre cele dou serii de date, care se
calculeaz cu formula
C=

1
n

( xk m X )( yk mY ) .

(Se observ c atunci cnd seria de date Y coincide cu seria de date X, expresia
covarianei C devine expresia varianei V.)
Corelaia (liniar) ntre cele dou serii de date este definit prin aa-numitul coeficient de
corelaie Pearson (care estimeaz coeficientul de corelaie teoretic ntre variabilele X i Y):
( xi m X )( yi mY )

rX , Y =

( xi m X ) ( yi mY )

Acest numr este ntre 1 i 1. n cazurile extreme (adic atunci cnd numrul rX ,Y este
apropiat fie de 1, fie de 1) avem de-a face cu o puternic legtur liniar ntre seriile de
date, pe care o putem extrapola (asumndu-ne riscuri!) la o legtur liniar:
Y = + X

ntre variabile.
S facem observaia c formula de calcul a coeficientului de corelaie Pearson poate fi
rescris n felul urmtor:
rX ,Y =

C
s X sY

unde s X respectiv sY sunt abaterile standard ale celor dou serii de date.
Calculul destul de dificil al numrului rX ,Y este efectuat n Excel prin intermediul
funciei CORREL(). Aceast funcie are dou argumente care sunt, evident, domeniile n
care am depus cele dou serii de date.
Ca un caz concret, s presupunem c pentru 10 indivizi alei n eantion au fost
msurate temperatura axilar (n C) i pulsul (n numr de oscilaii/minut), obinndu-se
rezultatele din tabelul urmtor:

Pulsul xk

Temperatura axilar y k

1
2
3
4
5
6
7
8
9
10

75
80
70
90
75
85
80
90
100
95

38.2
37.5
36.5
38.3
37.1
38.0
37.6
38.5
39.4
38.9

Prin calcul (cu funcia CORREL() din Excel) obinem (vezi figura de mai jos):
rX ,Y = 0.911885 0.912

90

valoare care ne indic o legtur liniar puternic ntre puls i temperatura axilar.

Coeficientul de corelaie Pearson poate fi calculat doar dac dispunem de date numerice.
S considerm acum c valorile variabilelor X i Y nu pot fi obinute prin msurtori;
dimpotriv, ele sunt numere de ordine, aa cum ar fi, de exemplu, rangurile acordate
concurenilor de ctre doi arbitri. Coeficientul de corelaie Pearson, chiar dac este
calculabil, nu ofer o interpretare adecvat a concordanei ntre evalurile arbitrilor. n
situaii de acest fel se va calcula, cu formula
ro = 1

6 d k 2
n( n 2 1)

n care d k este diferena rangurilor obinute de concurentul k, aa-numitul coeficient de


corelaie Spearman.
4.7. Problema general a statisticii

Se consider o populaie practic infinit pentru care se dorete estimarea parametrului


, pe baza datelor obinute dintrun eantion x1 , x2 ,..., x n (de volum n), presupus ales la
ntmplare.
Pentru estimarea parametrului se adopt un estimator A. (Acest estimator se exprim n
funcie de valorile x1 , x2 ,..., x n , prin urmare este o statistic. Atunci cnd eantionul va fi fost
ales, pe baza datelor culese x1 , x2 ,..., x n eantionul va produce o valoare a = , care va
constitui o estimaie a parametrului.)
Exemplul clasic este cel al parametrului bi-dimensional (, ) care determin populaia
numerelor reale presupus distribuit normal N(, 2 ) . Un estimator bine cunoscut este
urmtorul:
x + x + ... + x
1
2
n
,

( x1 m) 2 + ( x 2 m) 2 + ... + ( x n m) 2
n

Evident, acest estimator este bi-dimensional.


Atunci cnd cunoatem datele obinute dintrun eantion, vom putea spune c este
estimat prin media aritmetic
x + x 2 + ... + x n
(aadar = m )
m= 1
n

91

iar este estimat prin


s=

( x1 m) 2 + ( x 2 m) 2 + ... + ( x n m) 2
(aadar = s ).
n

n general, dac analizm problema estimrii parametrului prin estimatorul A,


observm c A nu este altceva dect o variabil aleatoare, legat prin formula aleas de cele
n variabile aleatoare X 1 , X 2 ,..., X n care reprezint indivizii din eantion i despre care se
presupune c sunt independente ntre ele i identic distribuite (au aceeai distribuie).
Noiunea de estimator, prezentat mai sus, este ntrun fel un abuz de limbaj.
Estimatorul A este de fapt o familie de formule A(n), cci intr n calcule i volumul n al
eantionului. Toate pot fi interpetate ca variabile aleatoare. Aadar, odat fixat volumul n al
eantionului, putem vorbi despre media E ( A(n)) i despre variana Var ( A(n)) .
n tratatele de statistic se spune c estimatorul A este absolut corect dac sunt
ndeplinite dou condiii:
1) E ( A( n)) = oricare ar fi volumul n al eantionului (se spune c A este nedeplasat),
2) Var ( A(n)) tinde ctre 0 atunci cnd n crete nemrginit (se spune c A este
convergent).
Evident, pot exista muli estimatori pentru acelai parametru . Este interesant, odat
fixat volumul n al eantionului, s gsim formula A(n) cu variana minim, cu alte cuvinte
cel mai eficace estimator.
S particularizm pentru exemplul populaiei distribuite normal N(, 2 ) i al
estimatorului medie aritmetic
M ( n) =

X 1 + X 2 + ... + X n
.
n

Pentru acesta se stabilete c


E ( M (n)) = pentru orice n,
2
, deci tinde spre 0 atunci cnd n crete nemrginit.
n
Prin urmare, estimatorul medie aritmetic pentru parametrul este absolut corect.
Var ( M (n)) =

Se demonstreaz n tratatele de statistic c este i cel mai eficace. Prin urmare mai
eficace dect mediana. (Dar, atenie, pentru populaii distribuite normal!)
( X 1 M (n)) 2 + ( X 2 M (n)) 2 + ... + ( X n M (n)) 2
pentru
n
n 1 2
parametrul 2 . Pentru acesta se stabilete c E (Q(n)) =
, ceea ce nseamn c este un
n

S considerm estimatorul Q (n) =

estimator deplasat (biased)! n schimb, pentru estimatorul


V (n) =

( X M (n)) 2 + ...
n
Q (n) = 1
n 1
n 1

se demonstreaz n tratatele de statistic urmtoarele:


E (Q( n)) = 2 i
Var (Q(n)) tinde spre 0 atunci cnd n crete nemrginit.
Este aadar un estimator absolut corect pentru 2 . Ca o concluzie final,
= m , =

n
s
n 1

constituie un estimator bi-dimensional absolut corect pentru parametrul bi-dimensional


(, ) .
92

Cursul 5. Internet
Folosirea Internetului este larg rspndit astzi. Cursul este dedicat unei treceri n revist
a tehnologiilor i metodelor Internetului, cu accent pe specificul publicrii rezultatelor
activitii tiinifice.
Coninutul acestui curs este urmtorul:
5.1. Reele locale i protocoale de comunicaie .......................................................... 94
5.2. Internet i World Wide Web ................................................................................ 95
5.3. Protocoalele TCP/IP i Internetul. Protocolul FTP .............................................. 98
5.4. Intraneturi i servere proxy. Site-uri Web i educaia medical astzi .............. 103
5.5. Publicarea unui articol tiinific ......................................................................... 106
5.6. Limbajul HTML - noiuni introductive .............................................................. 107
5.7. Metalimbajul XML - noiuni introductive ......................................................... 116
Adrese web utile:
www.wikipedia.org
(en.wikipedia.org/wiki/Internet)
www.primulpas.ro
www.thefreedictionary.com/FTP
( /HTTP, /XML)

93

5.1. Reele locale i protocoale de comunicaie


Reelele locale (LAN = Local Area Network) au fost create n scopul partajrii
resurselor fiiere, foldere, baze de date, aplicaii, imprimante, discuri compacte etc. ntre
mai multe calculatoare. Ele permit astzi multe alte activiti, ntruct viteza de transfer a
datelor ntre calculatoarele reelei este relativ mare (10 100 1000 Megabii pe secund).
Pe lng legtura fizic ntre calculatoare (asigurat de plci de reea, cabluri UTP sau
unde radio, dar la distane destul de reduse), pentru a crea o reea este nevoie i de un soft de
comunicaie.
Sistemele de operare actuale (cum sunt de exemplu Windows XP sau Vista) permit
controlul unei reele n care
a) toate calculatoarele au acelai rang (peer-to-peer), sau
b) un numr de calculatoare sunt clieni ai unui calculator central. (Dar, atenie,
calculatorul central va avea un sistem de operare de tip special.)

Fiecare calculator al reelei trebuie s aib un nume distinct de identificare. Acest nume
este nsoit de obicei de o scurt descriere a calculatorului.
Dar exist i opiunea de a organiza cu calculatoarele reelei sau doar cu o parte a lor
un grup de lucru, identificat i acesta printrun nume.
Pentru controlul transmisiei datelor ntre calculatoarele unei reele locale au fost
imaginate multe tipuri de tehnologii (AppleTalk, IBM Token Ring, ...), dar cel mai rspndit
astzi este Ethernet. Tehnologia Ethernet cu cabluri UTP de tip CAT-5 ce permite o vitez
de transfer de 100 Megabii pe secund presupune conectarea plcilor de reea ale
calculatoarelor la un dispozitiv special, numit distribuitor (hub sau switch). n prezent se
extinde tehnologia Ethernet cu conexiuni fr fir, ce presupune legarea plcii de reea prin
radio la un dispozitiv special WAP (Wireless Action Point).
Protocoalele de comunicaie definesc modul n care sunt transmise datele ntre
calculatoare. n sistemele de operare pot fi implementate diverse astfel de protocoale:
TCP/IP, IPX/SPX, NetBEUI, PPP, UPnP etc. Perechea de protocoale TCP/IP st la baza
Internetului i va fi prezentat mai detaliat n paragraful urmtor. UpnP (Universal Plug and
Play) este o tehnologie relativ nou, care permite calculatorului s descopere automat
dispozitivele hard care i se ataeaz.
Administratorul unei reele este responsabil cu adoptarea unei politici de conturi de
utilizator, de asemenea cu adoptarea unei politici de securitate. Administratorul recomand
fiecrui utilizator ca, pentru conectarea la reea, s-i adopte o parol de acces ct mai sigur,
i de obicei l oblig s i-o modifice periodic. Este recomandat blocarea unui cont dup ce
se constat cteva ncercri consecutive nereuite de conectare.
Pentru reea va fi stabilit i o politic de auditare, care va avea ca rezultat crearea unei
nregistrri (ntrun jurnal) a:
evenimentelor legate de conectarea utilizatorilor,
modificrilor n administrarea conturilor,
accesului la directoare/foldere i/sau la fiiere,
evenimentelor de sistem.
n reelele mai mari cum sunt cele organizate n universiti este util un serviciu de
gestionare a resurselor i de monitorizare a configuraiilor calculatoarelor componente.
Din punct de vedere formal, o comunicaie ntre calculatoare are loc simultan pe mai
multe niveluri sau straturi. La baz avem de-a face cu stratul fizic, nivel la care se
controleaz comunicaia datelor binare. Dac, de exemplu, transmisia datelor se realizeaz
94

prin variaii de frecven ale unui curent electric alternativ, atunci la acest nivel (fizic)
trebuie s se decid ce frecvene vor reprezenta bitul 0 i ce frecvene vor reprezenta bitul 1.
Stratul legturii de date (datalink), aflat imediat deasupra celui fizic, are rolul principal
de a forma, din fluxul de bii identificai, secvene speciale numite cadre, prin controlul
crora s poat fi detectat eventuala deteriorare a datelor n decursul trasmiterii. Aadar un
cadru va conine un fel de sum de control. Putem considera c plcile de reea asigur
comunicaia ntre calculatoare la acest nivel.
Fiecare plac de reea are, prin construcie, o adres proprie care o individualizeaz. Este
aa-numita adres pentru controlul accesului (MAC = media access control), format din 48
de bii. n cazul primirii unor date, placa de reea informeaz sistemul de operare, care le
preia.
Deasupra stratului legturii de date ntlnim stratul de reea. La acest nivel se determin
calea pe care o urmeaz datele n reea, precum i viteza de transmisie. Se asigur livrarea
datelor la destinaie, indiferent de calea urmat i de gazdele intermediare folosite. Datele
ce trebuie transmise sunt divizate, la acest nivel, n pachete de date (numite i datagrame).
5.2. Internet i World Wide Web

World Wide Web (WWW sau Web) este cea mai mare bibliotec electronic de
informare din lume. Este o colecie de miliarde de documente legate ntre ele, depuse
organizat n memoria a milioane de calculatoare. Web-ul a fost creat n 1989, iar prima
utilizare public a fost efectuat abia n 1992. Este cea mai popular parte a reelei
mondiale de comunicaii care este Internetul, datorat unei idei a lui Tim Berners-Lee,
cercettor la Centrul European de Cercetri Nucleare din Geneva. Internetul a aprut
ncepnd cu anul 1964 i s-a dezvoltat gradual, iniial cu sprijin guvernamental american. n
1969 s-a format o prim reea, ARPAnet, legnd patru universiti americane.
Dezvoltndu-se din ce n ce mai rapid, Internetul poate fi imaginat astzi ca reea de
calculatoare care acoper practic ntreg globul pmntesc. Numele sugereaz c este vorba
despre conexiuni ntre reele locale de calculatoare, dar calculatoarele din Internet pot fi de
diverse tipuri i pot utiliza o mare varietate de softuri de comunicaie. De asemenea, n
Internet se ntlnesc i alte dispozitive, ca de exemplu ruterele (routers), cu rol de dirijare a
traficului ntre reelele legate ntre ele.
Pentru a putea naviga n Web (de fapt n Internet), un utilizator obinuit de calculator
are nevoie s apeleze la serviciile unui furnizor de servicii Internet (Internet Service
Provider), n mod obinuit contra cost. n plus, va avea nevoie de un soft de navigare
(exemplu Internet Explorer creat de Microsoft). Acest program navigator (browser)
permite vizualizarea documentelor din Web, dar permite i obinerea altor documente,
interacionarea cu alte programe etc.
Un site Web const dintrun calculator a crui memorie conine documente organizate sub
form de pagini Web, precum i dintrun program aa-numitul server Web care permite
trimiterea documentelor solicitate spre utilizatorii Internetului.
Atunci cnd un utilizator dorete s se conecteze la un site Web, folosete navigatorul
pentru a solicita o anumit pagin Web. Pagina Web constituie de fapt un fiier n al crui
coninut blocurile de text sunt ntreesute cu balize (etichete = tags) de marcare. Ca
rspuns la solicitarea navigatorului, serverul Web i trimite o copie a fiierului solicitat,
urmnd ca navigatorul s-i interpreteze coninutul. Navigatorul va folosi balizele de marcare
pentru formatarea textului pe ecran, sau pentru a crea alte solicitri, eventual de la alte siteuri Web.
Balizele de marcare sunt exprimate ntrun limbaj special care este neles pe deplin de
ctre navigator. De exemplu, n HTML balizele bold <B> i </B> ncadreaz textul ce va fi
afiat cu litere ngroate de ctre navigator. Balizele anchor <A > i </A> ncadreaz ceea
ce poart numele de hipertext; acesta trebuie interpretat ca un text care reprezint o legtur
spre o informaie coninut de obicei n alt pagin Web.
95

Documentele n Web (paginile Web) pot fi create cu ajutorul oricrui soft ce permite
inserarea de balize de marcare:
soft de editare (ncepnd cu Notepad), cu condiia cunoaterii etichetelor,
soft specializat (de exemplu FrontPage).
Utilizatorul care navigheaz n Web folosete dou tehnici pentru accesarea
informaiei:
fie indic localizatorul uniform de resurs (Uniform Resource Locator = URL) al
informaiei dorite,
fie selecteaz un hipertext sau o zon fierbinte (hot zone) a unei imagini din pagina Web
curent.
Pentru regsirea unui fiier resurs din Internet navigatorul trebuie s cunoasc att
localizarea fiierului (calculatorul n memoria cruia este depus, drumul de acces i
denumirea fiierului), ct i modul de comunicare cu calculatorul care gzduiete fiierul.
Modul de comunicare este cel prevzut de un anumit protocol acceptat n Internet (de regul
HTTP, dar i FTP sau altele). Un URL nglobeaz toate aceste date.
Protocolul specific de comunicaie n Web este HTTP (HyperText Transfer Protocol).
Protocoalele de reea sunt reguli standardizate care permit calculatoarelor de
arhitecturi diferite, folosind sisteme de operare diferite s comunice ntre ele i s utilizeze
date n comun. Scopul principal const n comunicarea la nivelul aplicaiilor pe care le
folosesc utilizatorii.

Reelele mari de calculatoare n particular Internetul sunt formate din calculatoare


gazd, canale de comunicaie de date, dispozitive de dirijare a datelor (router, bridge, ).
n Internet circulaia datelor la nivelul stratului de reea este reglementat prin protocolul
IP. Mai precis, acesta alege o cale de transmisie a datelor, informeaz dispozitivele
intermediare (rutere = routers) cum s prelucreze pachetele de date, genereaz eventualele
mesaje de eroare.
S precizm c un router este un dispozitiv de dirijare a pachetelor de date, care
efectueaz urmtoarele operaiuni (vezi figura urmtoare):
1) deschid fiecare pachet de date primite;
2) i citesc adresa de destinaie;
3) stabilesc ruta optim de urmat, n acel moment, pentru pachetul de date;
4) trimit pachetul mai departe, spre destinatar. Evident, dac destinatarul se afl n
aceeai reea, pachetul i va fi trimis direct. n celelalte situaii pachetul va fi trimis unui ruter
mai apropiat de calculatorul-destinaie.
Pachetele primite de un ruter sunt plasate, n ateptarea procesrii, ntro coad de
ateptare, de capacitate suficient. Evident, atunci cnd aceast coad este plin, orice
pachet nou sosit va fi pierdut. Asemenea situaii sunt prevzute n protocolul TCP, care
asigur retrimiterea de ctre surs a pachetelor pierdute.
Deasupra stratului de reea ntlnim ceea ce se cheam stratul de transport. La nivelul
stratului de transport se efectueaz, la emitor, fragmentarea mesajului n segmente de
dimensiuni relativ mici, conforme cu cerinele stratului de reea; n gazda receptoare se
efectueaz, n mod dual, reasamblarea mesajului din fragmentele primite.
n Internet comunicaiile la nivelul stratului de transport sunt reglementate prin protocolul
TCP (Transport Control Protocol). Este un protocol sigur, ce garanteaz primirea datelor
n ordinea corect i eliminarea pachetelor duplicate; n plus, prin acest protocol se ncearc
s se optimizeze viteza de transmisie a datelor.
96

Schema transmisiei datelor n Internet

n Internet, deasupra stratului de transport este considerat direct stratul aplicaiilor. La


acest (ultim) nivel se asigur legturile ntre diversele aplicaii ce implementeaz serviciile
utile (pota electronic, transferul de fiiere, informarea, videoconferine etc.). Aceste
aplicaii utilizeaz de regul protocoalele TCP/IP pentru transmiterea/ recepionarea
mesajelor. Subliniem faptul c mesajele sunt de obicei divizate n pachete, iar pentru ca
pachetele s-i ating destinaia, ele trebuie s conin informaia corespunztoare (adresa IP
a gazdei de destinaie). Fiecare pachet IP conine att adresa destinatarului, ct i adresa
expeditorului, iar un segment TCP conine numrul portului spre care trebuie dirijat pentru a
ajunge la aplicaia dorit.
La nivelul stratului aplicaiilor au fost implementate, n decursul timpului, diverse
protocoale de comunicaie. Cu siguran cel mai utilizat astzi este HTTP (HyperText
Transfer Protocol), care a fost proiectat special pentru transferul documentelor n Web.
Trebuie s amintim ns alte dou clasice, anume SMTP (Simple Mail Transfer Protocol),
proiectat pentru asigurarea serviciului de pot electronic i FTP (File Transfer Protocol),
proiectat pentru asigurarea transferului de fiiere ntre diverse sisteme de calcul.
Un port (de Internet) este o cale de acces soft ntre calculator i Internet, identificat
printrun numr i avnd de obicei un scop precis. De exemplu, portul 21 este folosit de
obicei de ctre programele ce implementeaz FTP. n cazul navigrii n Web, majoritatea
serverelor Web ateapt cererile n portul 80, unele ns n portul 8080. Primirea mesajelor
e-mail are loc de obicei prin portul 110, etc.
Numrul de porturi, chiar la un calculator personal obinuit, este destul de mare i marea
majoritate ar putea fi folosite maliios, dac nu ruvoitor.
Ori de cte ori un calculator se conecteaz la Internet este pus n faa unui potenial
pericol. Datele gzduite n fiierele sale ar putea fi inta unor ncercri de furt. Pentru a le
proteja, soluia evident deconectarea nu este acceptabil.
Noiunea de firewall are un coninut hard i unul soft. Din punct de vedere hard, ar putea
nsemna un simplu ruter plasat n faa calculatorului (sau reelei locale) cu rolul de
examinare prealabil a pachetelor de date primite i de interzicere a trecerii pentru pachetele
care fie solicit servicii incorecte, fie vin de la adrese suspecte.
Pot fi folosite i programe de protecie de tip firewall, care preiau i analizeaz pachetele
de date ce urmeaz a fi transmise ctre anumite porturi. Ele pot fi instruite s blocheze
selectiv transmiterea unor pachete spre anumite porturi sau adrese IP, interzicnd astfel
funcionarea unor programe nedorite.
97

Atacurile asupra serverului funcionnd pe o gazd Internet pot lua mai multe forme. Cea
mai cunoscut este cea de tip DOS (denial of service), constnd n bombardarea serverului
cu cereri de acces ntrun ritm care-i depete posibilitile de prelucrare.
Dintro neglijen de manevrare a mesajelor de e-mail un utilizator poate instala programe
de tip cal troian pe propriul calculator. Aceste programe pot transmite la distan date
eseniale din memoria calculatorului, sau pot servi la preluarea controlului neautorizat asupra
calculatorului. Evident, un soft firewall care filtreaz pachetele la ieirea spre Internet va
putea bloca funcionarea acestora, ajutnd i la identificarea infeciei.
Viruii sunt programe care, prin ataarea de programe (aplicaii) veritabile, la execuia
acestuia pot efectua diverse aciuni distructive asupra calculatorului. Astfel de programe se
pot transmite prin orice fiiere care pot conine instruciuni, de exemplu prin documente
Word n care au fost create macroinstruciuni de editare sau prin imagini comprimate de
tipul JPEG care conin algoritmul de decomprimare. Trebuie s fim contieni de riscurile
prelurii fiierelor ataate mesajelor de e-mail. Doar fiierele-text pot fi considerate de
ncredere. Protecia nu poate fi asigurat de soft firewall, este nevoie de programe anti-virus
speciale, care ns nu fac fa dect scurt timp avalanei de tipuri noi de infecii.
5.3. Protocoalele TCP/IP i Internetul. Protocolul FTP

Internetul, aa cum este folosit astzi, comport trei aspecte:


din punct de vedere strict fizic, este o reea de calculatoare ce dispun fiecare de
propriile resurse, pe care le pot pune la dispoziie unui numr imens de utilizatori;
din punct de vedere informaional, este o bibliotec imens, dotat cu toate
accesoriile necesare informrii;
din punct de vedere social, este asemntor unei societi umane, cu toate
beneficiile i avatarurile pe care le poate avea societatea asupra individului.
Internetul a fost creat pentru a oferi diverse servicii. Serviciile (pota electronic,
transferul de fiiere, informarea, transferul de voce ...) sunt reglementate prin diverse
protocoale (SMTP, FTP, HTTP, VoIP, ). Protocoalele au fost implementate n diverse
aplicaii (n cepnd cu arhaicele mail i ftp, urmnd apoi navigatoarele), mai mult sau
mai puin fidel. Ne putem atepta ca implementri diferite s ofere variante diferite ale
serviciilor!
S reamintim terminologia legat de Internet, considerat ca reea mondial de reele de
calculatoare. n primul rnd trebuie menionat c sistemele de calcul individuale conectate la
Internet poart numele de gazde (hosts), ntruct gzduiesc resurse (resources). Fiecare
gazd Internet este identificat prin (cel puin) o adres IP (IP address). Aceasta este un
numr pe 32 bii i se exprim de obicei sub forma
c.c.c.c

unde c reprezint numere reprezentabile pe 8 bii (deci ntre 0 i 255 inclusiv).


Exemple: 193.226.48.153, 64.1.10.254
Adresa IP a unei gazde este dublat de obicei de o adres literal, alfanumeric, citirea
creia s ofere o oarecare indicaie despre poziia geografic sau domeniul gazdei. O
asemenea adres literal este analoag denumirii unui fiier, cu deosebirea c analoaga
extensiei poart numele de domeniu principal. n general, sunt dou moduri tradiionale de
a defini un domeniu principal:
1) dup tipul activitii, de obicei pentru gazdele de pe teritoriul SUA:
edu = universitar
gov = guvernamental
net = activiti de reea
mil = militar
org = organizaii
com = comercial
98

2) dup codul rii pe teritoriul creia se afl gazda (dou litere):


ro = Romnia
de = Germania
fi = Finlanda
fr = Frana
Domeniile sunt organizate ierarhic. De exemplu, cele dou domenii secundare ale
universitii noastre, univermed-cdgm.ro i umfcd.ro, sunt subordonate domeniului
principal ro.
Numele unui calculator-gazd se ataeaz de numele domeniului pentru a forma identificatorul (adresa literal a) acelui calculator. Exemplu: www.umfcd.ro
Cnd o aplicaie-navigator ncearc s acceseze o resurs din Internet, el va dispune de
localizatorul acestei resurse. Se va face apel imediat la un DNS.
Serverele de nume de domeniu (DNS = Domain Name Server) sunt programe, gzduite
de unele calculatoare din Internet, care transform adresa literal n adresa IP numeric i
invers. Ele se bazeaz pe tabele de coresponden ntre cele dou tipuri de adrese.
Este posibil ca o gazd Internet s fie dedicat, adic s funcioneze i s fie conectat n
permanen; la fel de bine este posibil ca un sistem de calcul s devin gazd doar
intermitent. Este posibil ca o adres IP s fie alocat definitiv unei anumite gazde; la fel de
bine este posibil ca la fiecare conectare s i se atribuie o alt adres. (Calculatoarele din
laboratoarele catedrei i obin adresa IP la startare.)
Prin comanda ping a sistemului de operare Windows NT putem controla dac un anumit
calculator este gazd n acel moment.
Legturile ntre gazde sunt asigurate de diverse dispozitive fizice (hard), ncepnd cu
modemuri, pn la cabluri de fibr optic sau legturi radio.
Gazdele Internet folosesc, pentru comunicarea prin mesaje cu alte gazde Internet,
indiferent de tipurile de conexiuni fizice existente ntre ele, suita de protocoale TCP/IP
(Transport Control Protocol/Internet Protocol).
Unele gazde, aa-numitele rutere, nu fac altceva dect s retransmit pachetele spre
reeaua (calculatorul) de destinaie. Exist programe sofisticate, cum este cel denumit Visual
Route, sau mai simple cum este cel ce st n spatele comenzii tracert din Windows NT,
care permit urmrirea traseului urmat de un pachet de date pn la gazda indicat.
Schema folosirii Internetului
\

Modelul de reea n care transmisiile sunt controlate de protocoalele TCP/IP presupune


existena a patru straturi ierarhice (niveluri); n figura urmtoare sunt prezentate schematic
aceste niveluri, mpreun cu protocoalele care acioneaz la fiecare nivel. La emitere, fiecare
nivel preia datele de la nivelul imediat superior i-i adaug un antet cu informaii specifice.
De la nivelul aplicaiei se trimite un mesaj (combinnd datele utilizatorului cu cele
generate de aplicaie) ce are forma unei secvene (lungi!) de caractere. La nivelul
transportului aceast secven este divizat n subsecvene mai scurte, crora li se ataeaz
99

antete specifice TCP, formndu-se aa-numitele segmente. Apoi, la nivelul reelei, fiecrui
segment i se ataeaz cte un antet IP specific, formndu-se aa-numitele pachete.
n final, la nivelul fizic are loc transmisia fiecrui cadru, care are

un antet multiplu, ce precede

datele efective, urmate de

sum de control.
La recepie, fiecare entitate este analizat, i se elimin antetul de nivel i se trimite restul
spre nivelul superior, pn cnd se ajunge la nivelul aplicaiei (unde aplicaia utilizat ar
trebui s tie ce s fac cu datele).
Schema formrii cadrelor Ethernet

Aadar, protocolul TCP este rspunztor de transportul datelor. Pe scurt, atunci cnd un
expeditor dorete s transmit date unui destinatar, aceste date sunt secvenate n cadre de
aproximativ 1500 de caractere, iar pentru fiecare cadru se calculeaz o sum de control. Apoi
se adaug o anvelop coninnd adresa destinatarului urmat de adresa expeditorului, posibil
i de numrul pachetului, apoi trimite plicul n reea.
n mod normal, perechea de protocoale TCP/IP trebuie s fie configurat manual pe
fiecare calculator al unei reele. Trebuie s se precizeze:
adresa IP a calculatorului,
adresa IP a porii de legtur spre Internet (gateway),
numele de domeniu (secundar),
adresa IP a calculatorului ce gzduiete serverele de nume de domeniu (DNS) cel
preferat i cel alternativ.
n figura urmtoare este prezentat caseta de dialog prin care n Windows XP se
configureaz manual parametrii TCP/IP.

100

Atunci cnd se creau protocoalele TCP/IP, adic la nceputul anilor 70 ai secolului trecut,
numerele pe 32 bii (n total ceva peste 4 miliarde) preau c sunt suficiente pentru a asigura
adrese distincte pentru toate gazdele Internetului.
Internetul era destul de dificil de utilizat i a rmas aa pn n anul 1990, cnd Tim
Berners-Lee pus bazele serviciului de informare cunoscut astzi ca World Wide Web, prin
crearea protocolului HTTP i implementarea sa n aplicaii server-client.
De atunci, serviciile oferite de ctre Internet s-au diversificat. Au fost puse la punct
motoarele de cutare (search engines) ca auxiliar al informrii, dintre care Google este astzi
larg cunoscut. S-au dezvoltat activiti noi, ca de exemplu telefonia prin Internet, comerul
electronic, licitaiile electronice, operaiunile bancare online, care astzi au devenit bun
comun n aproape toate rile lumii.
Orice calculator obinuit conectat la Internet poate fi identificat printro adres IP. Aceasta
este fie stabil, alocat permanent, fie dinamic. O adres IP dinamic este acordat
(nchiriat) pe timp limitat de ctre serverul ISP (care joac rol de gateway) dintro list
de adrese IP disponibile n momentul solicitrii accesului la Internet. Se spune n acest caz
c adresa IP a fost obinut prin DHCP (Dynamic Host Configuration Protocol).
Dezvoltarea exploziv a Internetului din ultima decad face ca la orizont s se profileze
un deficit de adrese IP. Se implementeaz astzi o nou versiune, IPv6, ce va permite un
numr imens de adrese. Mai mult, protocoalelor clasice fundamentale TCP/IP li se adaug
permanent altele noi, ca de exemplu RTP (Real-Time Protocol), ce permite videoconferine.
Exerciii.
1) Folosii comanda ipconfig pentru a afla detalii despre gazda local. (Sintaxa util
este ipconfig /al, comanda nsoit de doi parametri)
2) Folosii ping i tracert avnd ca parametru diverse adrese IP pentru a afla
adresele literale ale unor gazde Internet. (Sintax: ping 193.126.47.12, respectiv tracert
193.126.47.12)
3) Aflai detalii despre calculul sumei de control a unui pachet de date.
4) Identificai componentele unui e-mail i utilitatea fiecreia.

File Transfer Protocol este un protocol clasic pentru Internet, avnd ca scop asigurarea
transferului de fiiere ntre diverse sisteme de calcul. Evident, legturile ntre aceste sisteme
de calcul sunt asigurate prin suita de protocoale TCP/IP.
Pentru a nelege exact rolul FTP, trebuie s tim urmtoarele:
a) transferul de date ntre sisteme de calcul se face, n Internet, prin cadre de lungime
controlat;
b) noiunea de fiier se refer la un obiect depus n general pe suport magnetic. Fiecare
fiier are dou componente, separate ntre ele din punct de vedere fizic:
un coninut, n care se afl datele stocate prin intermediul fiierului respectiv;
un cap, n care se afl date de identificare: numele fiierului, tipul su, momentul
crerii, lungimea coninutului (exprimat n Bytes), diverse atribute binare, nu n
ultimul rnd un indicator spre coninut;
c) componena concret a unui fiier depinde n mod esenial de sistemul de operare
ce controleaz spaiul magnetic (volumul de date) pe care este depus fiierul respectiv.
Iat exemple, n sistemul de operare Windows NT:

i n sistemul de operare UNIX (al treilea este dosar):

101

Este uor de neles acum c regulile prevzute n protocolul FTP trebuie s asigure ca, n
urma transferului, s fie recuperat integral coninutul fiierului i ct mai mult posibil din
capul su.
S ne situm n postura unui utilizator obinuit al unei gazde Internet. Situaia cea mai
uzual este aceea n care nu suntem proprietarii/administratorii acelei gazde. Drepturile de
utilizare de care dispunem sunt stabilite de ctre administratorul gazdei (numit generic root
n sistemele de operare UNIX-Linux). De obicei, acest administrator:
rezerv fiecrui utilizator un dosar separat n spaiul magnetic de memorare al gazdei,
dosar ce poart numele generic de cmin (home) al utilizatorului;
stabilete parametrii procedurii de autentificare a accesului n acel dosar. Mai precis,
acord utilizatorului un nume de acces (login name) i-i atribuie o parol iniial de
protecie (password), urmnd ca utilizatorul s-i modifice acea parol cu una personalizat;
grupeaz utilizatorul ntrun grup;
stabilete permisiunile de utilizare a diverselor aplicaii instalate n sistemul de calcul,
precum i drepturile de acces n diversele dosare, altele dect cminul utilizatorului.
n mod obinuit, drepturile pe care utilizatorul le poate avea (sau nu) referitor la acel
dosar, pot fi urmtoarele:
de vizualizare a coninutului (read),
de creare de subdosare, de redenumire sau chiar eliminare de subdosare,
de creare de fiiere n cadrul unui dosar, de modificare a coninuturilor fiierelor
(write), de redenumire de fiiere, de eliminare de fiiere, de executare de fiiere
(execute).
Aceste drepturi sunt ale utilizatorului, i este posibil ca ele s fie exercitate de la o alt
gazd Internet. n acest context apar noiunile de urcare (upload) i coborre
(download). Administratorul poate limita ns aceste drepturi n funcie de sistemul de calcul
de la care utilizatorul ncearc s-i acceseze cminul.
Din punct de vedere istoric, modelul client-server s-a creat mai demult, pe cnd
posibilitile de afiare grafic erau limitate. Ideea fundamental a fost ca un calculator s fie
specializat pentru prezentarea grafic a datelor prelucrate de i/sau stocate pe alte
calculatoare aflate la distan. Datele cerute de un program executat pe calculatorul
specializat (program-client) erau cutate i livrate de programe speciale executate pe
calculatorul la distan (programe-server).
Astzi chiar i cel mai simplu calculator personal are posibiliti mari de prezentare
grafic, datorit interfeei grafice oferite de sistemele de operare Windows, iar legarea la
Internet este nsoit de o serie de programe-client, dintre care cel mai cunoscut este Internet
Explorer.
O scurt trecere n revist a rolului a dou butoane ale navigatorului Internet Explorer:
(Home page) ncarc pagina de baz (care este prima pagin Web afiat atunci
cnd se lanseaz aplicaia Internet Explorer. Adresa acestei pagini poate fi declarat (i
modificat) utiliznd comanda ToolsInternet Options, tableta General. Ar fi preferabil s
indicm adresa uneia apropiate, de exemplu http://www.umfcd.ro.
(History) se afieaz lista paginilor Web vizitate astzi sau n trecutul imediat.
Durata de pstrare a acestora n list se poate modifica.
n tableta General pe care o avem la dispoziie comandnd ToolsInternet Options
putem controla:
1) o serie de parametri de afiare: culorile, fonturile etc.
2) fiierele temporare care sunt create automat n urma navigrii.
Controlul n tabletele Security i Privacy este extrem de important pentru protecia
propriului calculator fa de invazia coninutului nedorit pe care-l putem prelua atunci
cnd navigm. Totui, trebuie menionat c nu exist site-uri de ncredere absolut!
102

Internetul oferea, la nceputurile sale, doar posibilitatea de a transfera ntre calculatoare


informaii de tip text. De mult vreme tehnologia a depit aceast etap, astzi sunt curente
transferurile de filme (sau nregistrri audio-video) n timp real.
Dispozitivele hard de capturare a imaginilor, de tipul webcam, sunt foarte ieftine i uor
de ataat calculatoarelor. La intervale regulate de timp, cadrele video statice sunt transmise
calculatorului. Redate la o frecven de peste 20 cadre/secund, privitorul are senzaia optic
de micare. Rmne doar ca imaginile s fie transformate n secvene de bii i transmise
suficient de rapid.
Trebuie s facem observaia c un fiier video original ce conine datele digitale
preluate de la o camer este de dimensiuni mult prea mari comparativ cu vitezele de
transmisie uzuale. De aceea, nainte de a fi plasat ntro gazd Internet, fiierul video este
comprimat de ctre un soft special numit codec (coder/decoder). Atunci cnd serverul
gazdei primete apelul de livrare a fiierului, l va transmite clientului sub form de
succesiune de pachete, conform protocolului IP. Dar pachetele nu sunt create prin TCP, ci
conform protocolului UDP (User Datagram Protocol). Transmisia prin UDP este mai rapid
dect prin TCP ntruct nu se mai efectueaz o serie de verificri de ordine si de integritate a
pachetelor. Pachetele ajunse la client sunt decodificate de ctre un soft numit videoplayer iar
imaginile rezultate sunt afiate direct pe ecran. Nu este nevoie ca datele primite s mai fie
reconstituite sub form de fiier n memoria calculatorului-client, ele pot curge ocupnd
aceeai memorie volatil folosit ca tampon (buffer). Este tehnica obinuit astzi, cea de
video streaming.

Astzi avem posibilitatea s organizm i videoconferine prin Internet. n acest scop sunt
utilizate gazde dotate cu soft special numit reflector, soft ce primete i transmite semnale
oricui se conecteaz la el. Evident, persoanele ce particip la videoconferin vor folosi
calculatoare dotate cu camere i microfoane i cu soft client special. Acest soft pe de o parte
comprim imaginile i sunetele capturate i le trimite reflectorului sub form de pachete
UDP, iar pe de alt parte decodific i afieaz pachetele primite de la reflector.
Trebuie s menionm c, n scopul creterii vitezei de transmisie, comprimarea implic:
a) exploatarea cunotinelor de fiziologie a auzului uman (n standardele de tip MP3),
b) transmiterea diferenial a cadrelor (imaginilor succesive) ceea ce nseamn c se
transmite doar partea din noua imagine care prezint diferene fa de cea veche.
Un alt serviciu pe care ni-l ofer Internetul este cel de comunicare direct ntre utilizatori,
n regim text, aa-numitul IRC (Internet Relay Chat). Acesta se bazeaz pe o structur
arborerscent de calculatoare care gzduiesc servere IRC i pe o organizare a clienilor n
grupri numite canale IRC. Softul client instalat pe un calculator permite aderarea
utilizatorului la un canal IRC i apoi intervenia sa, de la tastatur, n discuiile ce au loc n
acel canal.
5.4. Intraneturi i servere proxy. Site-uri Web i educaia medical astzi

Toate beneficiile folosirii Internetului au devenit posibile datorit adoptrii celor dou
protocoale de comunicaie, TCP/IP, care guverneaz interconectarea vechilor reele de
calculatoare ce erau constituite n diferitele pri ale lumii.
Este evident c putem implementa protocoalele TCP/IP i de asemenea cele de deasupra
lor n controlul comunicaiilor dintre reelele locale i calculatoarele dintrun univers mai
mic, ca de exemplu dintrun spital mare. Vom obine atunci un aa-numit intranet. Tot ce
este necesar pentru aceasta este clar: o legtur fizic ntre reele, apoi alegerea unor adrese
(IP) pentru toate calculatoarele legate.
103

Aadar, intraneturile pot utiliza tehnologiile i metodele Internetului, cum sunt ftp-ul,
email-ul, chiar WWW-ul. Totui, resursele calculatoarelor ce formeaz un intranet sunt
disponibile doar n interiorul acestuia.
Normal, la un anumit moment vom dori ca intranetul nostru s fie legat de Internet, pentru
a da posibilitate utilizatorilor de a folosi resursele acestuia; vom fi pui n faa a dou
probleme evidente:
1) cum putem fi siguri c adresele IP din Intranetul nostru nu apar i altundeva n lume?
Evident c nu putem! Folosind o plac de reea suplimentar i un soft special, numit server
proxy, instalat pe unicul calculator ce este punctul de legtur al intranetului cu Internetul
(i deci are adres IP veritabil), problema se rezolv uor;
2) cum putem proteja resursele interne ale intranetului de accesul neautorizat din afar?
Aceast problem se rezolv prin instalarea unui soft special de protecie, numit firewall. De
preferat ca la grania dintre intranet i Internet s se foloseasc i dispozitive special de
filtrare a comunicaiilor. (De aceea, termenul firewall este uneori neles ca o combinaie de
hard i soft care interzice accesul neautorizat n intranet.)
Un site Web presupune existena:
a) unui calculator legat la Internet (cu adres IP stabil, de obicei i cu adres literal
nregistrat),
b) unui server Web, i
c) mai multor pagini Web interconectate.
Crearea unei pagini Web clasice este foarte uoar. n mod tradiional, o copie a paginii
Web este creat (pe un alt calculator) cu soft specializat ca (Microsoft) Frontpage sau
(Macromedia) Dreamweaver, apoi este transmis spre calculatorul gazd (impropriu numit
server).
Cnd un utilizator care acceseaz pagini Web aflate pe o gazd la distan folosind pentru
aceasta un client Web (browser), are posibilitatea de a-i schimba coninutul, spunem c
paginile Web sunt dinamice. Probabil c cele mai interesante site-uri Web, incluznd pe cele
de educaie medical, sunt compuse din pagini Web dinamice, ce fac parte din baze de date.
Dac am dori s organizm un site Web pentru educaie medical, un calculator modern
ieftin dotat cu procesor Pentium este suficient de puternic. Sistemul de operare poate fi fie o
versiune a lui Microsoft Windows (ieftin), sau o variant a lui Linux (gratuit, mai precis
Open Source). n plus, avem nevoie de:
a) un server Web,
b) un soft de baze de date, i
c) un mediu de programare.
Scopul principal al unui server Web este cel de livrare la cererea primit din partea unui
client a unui document (pregtit de regul n hipertext). Dar serverele Web pot avea i
diverse scopuri secundare: urmrirea cererilor de livrare, ntocmirea de statistici etc.
Pentru fiecare sistem de operare sunt disponibile mai multe servere Web, inclusiv cteva
care pot fi procurate gratuit din Internet. Un asemenea exemplu este Xitami, anume pentru
Windows NT. De asemenea, pentru Windows, Microsoft distribuie IIS (iniialele de la
Internet Information Server) i PWS (Personal Web Server). Pentru UNIX sau Linux cel
mai cunoscut pare a fi serverul Web Apache (existent i n variante pentru Windows).
Prin configurarea unui server Web se permite restricionarea drepturilor de acces,
precizarea tipurilor de fiiere care necesit tratament special, modul de interpretare
lingvistic a codurilor, modul de gestionare a erorilor; de asemenea, se precizeaz care
este fiierul iniial (pagina de ntmpinare) care este trimis clientului (de regul este
fiierul denumit index.html).
Trebuie menionat c, de regul, pentru fiecare cerere de acces primit de la un client se
nregistreaz ntrun fiier log adresa IP a clientului, data i tipul cererii, localizatorul
resursei cerute.
104

Este posibil organizarea resurselor i/sau a clienilor n baze de date. Softul de baze de
date are deja o istorie ndelungat, multe aplicaii dedicate sunt disponibile astzi pe pia.
Microsoft distribuie bine cunoscutul Access ca o component a lui Office, dar avem multe
alte posibiliti n caz c utilizm Windows. De asemenea, utilizatorii Linux au mai multe
posibiliti, fie comerciale (cum ar fi Oracle), fie Open Source (cum este MySQL).
Odat ajunse la serverul Web, apelurile trimise de ctre clieni pot fi prelucrate prin
intermediul unor programe scrise n limbaje specifice. Unul dintre primele limbaje folosite
pentru programare Web are numele de Practical Extraction and Report Language, i este
cunoscut ca Perl. Un program (script) n Perl este executat de obicei de serverul Web
pentru a crea pagina Web care este trimis navigatorului folosit de utilizator. Fiierele ce
conin programe Perl (adic script-uri) sunt identificate de obicei prin extensia .pl. Un alt
limbaj pentru script-uri a fost denumit Personal Home Page Tools i este cunoscut astzi ca
PHP. Putem identifica un fiier hipertext ce conine un script PHP dup extensiile .php sau
.phtml. PHP este uor de folosit i permite un bun control al imaginilor.
Limbajul PHP este uor de nvat. Este utilizat astzi, destul de des, pentru accesarea
datelor din bazele de date (MySQL, Oracle, ...). Permite o manipulare comod a datelor
calendaristice i are posibiliti de creare direct de imagini desenate.
Un alt limbaj pentru script-uri a fost dezvoltat pentru programatorii ce cunosc Visual
Basic. Acesta este nglobat ntrun cadru mai amplu denumit Active Server Pages. Despre
fiierele hipertext ce au extensia .asp se presupune c au n coninut asemenea script-uri
ASP.
O soluie analoag, dezvoltat de firma Macromedia, este cunoscut sub numele
ColdFusion i folosete un limbaj special bazat pe etichete altul dect HTML cunoscut
ca CFML (ColdFusion Markup Language). Aceast soluie este mai uor de folosit de ctre
ne-programatorii ce vor s vad rezultate ct mai rapid posibil.
S ncheiem acest paragraf cu o ultim meniune privind locul serverelor Web. S
precizm c apelul (de cerere a unei resurse) trimis de ctre un client, odat ajuns la gazda
resursei, nu este preluat direct de ctre serverul Web. Dimpotriv, acest apel va fi prelucrat
de un program intermediar, numit CGI (Common Gateway Interface), iar rezultatul execuiei
acestui program va fi trimis clientului de ctre serverul Web! Prin urmare, clientului i se pot
trimite i alte date, n afara celor solicitate! Aceste date ar putea conine instruciuni
executate de ctre gazda clientului! Figura de mai jos prezint dorina utilizatorului
comparativ cu situaia real.

Atunci cnd pentru transferul datelor livrate de serverul Web ctre client se utilizeaz
protocolul HTTP clasic, datele sunt transmise n clar, ceea ce ridic destule probleme de
securitate. Dac ns se folosete protocolul HTTPS, datele sunt transmise criptat (prin
metoda de criptare SSL).
Foarte multe firme utilizeaz astzi Internetul pentru a-i vinde online produsele.
Cumprturile online nu sunt posibile, din motive evidente, fr utilizarea tehnicilor de
criptare.
Utilizatorul care dorete s cumpere online va utiliza:
a) un formular de nscriere, n care va introduce datele personale, i
b) un aa-numit co de cumprturi, n care va plasa obiectele dorite, preluate dintro
baz de date aflat n site-ul Web al vnztorului.
105

Activitile sale sunt urmrite de mici programe cookies trimise de ctre serverul Web
n memoria calculatorului propriu. Odat exprimat dorina de a achiziiona obiectele ce au
fost plasate n coul de cumprturi de obicei aceasta se face prin apsarea unui buton
Submit programele cookies ajut la ncheierea tranzaciei. Ele preiau i trimit datele din
formular i din coul de cumprturi ctre serverul Web al vnztorului. Acolo datele sunt
verificate i se elaboreaz:
1) comanda de livrare ctre depozit, i
2) mesajul de confirmare ctre client.
Programele cookies sunt proiectate, de regul, astfel nct s expire dup trecerea unui
anumit timp.
Atenie, atunci cnd transferm (download) fiiere din Internet, din diverse site-uri, exist
posibilitatea infectrii calculatorului cu virui. De asemenea, viermii sunt programe care
infecteaz reelele de calculatoare (n particular Internetul). Aceste programe se reproduc
prin trecere de la un calculator la altul i pot bloca astfel comunicaiile ntre calculatoare.
A rmas de dat rspuns la o ntrebare evident: cum afl utilizatorii umani despre
existena resurselor n Internet? Rspunsul este evident: prin intermediul motoarelor de
cutare.
Motoarele de cutare sunt site-uri speciale care stabilesc un index bibliografic al
paginilor Web ce sunt disponibile pentru livrare de ctre serverele Web. La ntocmirea
acestui index ele folosesc roboi sau spidere, care nu sunt altceva dect programe de
interogare automat a site-urilor Web. Aceast activitate de documentare poate fi ajutat i
ndrumat de creatorii paginilor Web, care pot preciza cuvintele-cheie preferate pentru
indexare.
5.5. Publicarea unui articol tiinific

Acest curs este completat cu informaii despre modalitile de prezentare a cunotinelor


noi. Vom aborda mai nti aspectele clasice ale publicrii unui articol tiinific, prin
tiprire pe hrtie, ntro revist periodic cunoscut.
Fiecare revist i are propriul stil de editare, iar nerespectarea de ctre autori a acestui stil
poate conduce la apariia unor erori n urma redactilografierii textului, ceea ce nu este de
dorit. Strategia optim a autorilor este realizarea articolului pe propriul calculator, ca fiierdocument, respectnd stilul impus de redacia revistei.
Dou tipuri de fiier-document sunt larg rspndite astzi:
1) documentele de tip (Microsoft) Word, cu extensia DOC,
2) documentele portabile de tip (Adobe) Acrobat, cu extensia PDF.
n afara aplicaiilor (Microsoft) Word i (Adobe) Acrobat, exist multe alte aplicaii de
editare de texte. Evideniem doar faptul c pentru articolele n care apar formule matematice
i/sau chimice complicate instrumentele adecvate editrii sunt aplicaiile n care se
implementeaz limbajul TEX, cele mai cunoscute dintre ele fiind denumite LaTEX i PCTEX.
Articolele medicale au un specific aparte. Din punct de vedere tehnic, coninutul unui
articol tiinific medical este precedat de regul de un rezumat (Abstract) i de o list de
cuvinte-cheie (Keywords). Rezumatul trebuie s precizeze obiectul cercetrii, principalele
rezultate obinute, concluziile trase de ctre autori. Lista de cuvinte-cheie este folosit de
ctre instrumentele bibliografice de indexare n scopul crerii de bibliografii ataate
cuvintelor-cheie.
Ct despre coninutul efectiv al articolului, el este structurat de obicei n urmtoarele
pri:
1. Introducere
2. Material i metode
3. Rezultate
4. Concluzii i discuii.
106

n cadrul coninutului se obinuiete s se fac referire la rezultatele obinute anterior de


ali autori i publicate n alte articole prin citaii bibliografice de forma a se vedea [1, p.13]
sau doar [1]. Mai rar se folosesc referine de tipul [Smith 2000].
Publicarea articolului, mai precis diseminarea noutilor, este ntrziat din dou motive
principale:
a) politica de acceptare bazat pe opiniile unor refereni, apoi
b) durata inerent proceselor tipografice i de difuzare.
Spre deosebire de situaia clasic, publicarea unui articol n Internet de fapt n World
Wide Web este extrem de facil i imediat, dar n urmtoarele condiii:
1) existena unui calculator legat la Internet, avnd o adres IP fix, calculator care s
serveasc drept gazd dedicat;
2) existena pe acest calculator a unui server Web, adic a unui program-server care s
preia comenzile date de diverse programe-client Web (cum este Internet Explorer) i s le
rspund corespunztor;
3) realizarea articolului sub forma unui fiier-document hipertext (pagin Web), acesta
putnd fi apelat prin intermediul legturilor (links) din interiorul altor fiiere hipertext
(pagini Web). Realizarea unui articol ca document hipertext (pagin Web) poate fi obinut
foarte simplu cu aplicaia Word, printro simpl comand de salvare.
Autorul nu poate face altceva dect s spere c articolul su va fi gsit, ct mai curnd
posibil, de ctre robotul sau spider-ul unui motor de cutare.
Aa cum am precizat anterior, pentru a evita indexarea ntmpltoare a articolului su, pe
care l-a creat sub form de document hipertext, autorul are la dispoziie posibilitatea de a
indica acele cuvinte-cheie pe care le prefer. n acest scop a fost prevzut, n limbajul HTML
de crearea a paginilor Web, o etichet-baliz special, numit META. Iat exemple de
folosire a acestei balize, pentru indicarea cuvintelor-cheie, respectiv a numelui autorului:
<META NAME=KEYWORDS CONTENT=biostatistics,medicine>
<META NAME=AUTHOR CONTENT=Ion Popescu>
Din punctul de vedere al cititorului, problema principal o constituie aflarea URL-ului
articolului (documentului hipertext), cci apoi navigatorul l va putea prelua i afia. Aa
cum am precizat anterior, apelarea la serviciile unui motor de cutare bun va fi de regul
suficient, cu condiia indicrii cuvintelor-cheie pertinente. Dat fiind cantitatea imens de
pagini Web indexate astzi de ctre motoarele de cutare, aceast ultim condiie este critic
pentru un medic.
O ultim problem, privind credibilitatea informaiilor gsite prin intermediul motoarelor
de cutare. Evident, aceasta este o problem critic pentru medici, i apare datorit tocmai
relativei liberti de afiare a informaiilor n Internet. Se recomand accesarea doar a acelor
informaii care sunt indicate de ctre site-urile asociaiilor medicale de specialitate.
5.6. Limbajul HTML - noiuni introductive

Limbajul HTML (iniialele de la HyperText Markup Language) este format din balizeetichete speciale care se insereaz ntre blocurile de text ale unei pagini Web, pentru a indica
formatarea sau trimiterea spre alte informaii; interpretarea etichetelor este fcut de
programele de navigare.
Reamintim c o pagin Web este un fiier text (creat cu orice editor care produce text)
avnd extensia htm sau html, depus n memoria unui site Web, al crui coninut va fi
interpretat, n urma unui transfer, de un program de navigare (browser).
O pagin Web nu este neaprat static. Cel care o creeaz are posibilitatea s
programeze modificarea coninutului n mod dinamic, la anumite momente de timp sau n
funcie de interaciunea cu utilizatorii. Este important s tim c paginile Web pot fi folosite
ca formulare pentru recepionarea interactiv de informaii de la utilizatori.
107

Atunci cnd crem o pagin Web, este important s ne dm seama c informaia pe care o
plasm n ea va fi analizat de diverse programe de navigare care sunt executate pe
calculatoare de diverse arhitecturi i sisteme de operare. De reinut c paginile Web sunt
create independent de toate acestea, dar pot exista uoare variaii, de la calculator la
calculator, n ceea ce privete modul de interpretare a coninutului. Paginile Web sunt
folosite astzi pe scar larg pentru prezentarea documentaiei programelor, dar i a
informaiilor specializate, inclusiv n domeniul medical. Ele au posibilitatea de a ngloba
informaie de tip grafic, video, sunet, dar i programe (script). Pot constitui suportul aanumitelor applet-uri, programe spectaculoase a cror activitate se desfoar doar n
interiorul ferestrei navigatorului.
Toate balizele-etichete speciale ncep cu caracterul < (mai mic dect) i se ncheie cu
caracterul > (mai mare dect). Cu puine excepii, etichetele speciale se afl n perechi,
una care marcheaz nceputul iar cealalt ncheierea unui bloc. Etichetele de ncheiere
ncep cu grupa de caractere </.
Programele de navigare interpreteaz aadar caracterele <, >, / ntrun mod special.
Pentru a le putea folosi, n paginile Web, cu nelesurile clasice (de exemplu n comparaii
respectiv mpriri), ele vor trebui codificate n alt fel. n aceste codificri se folosesc cuvinte
care ncep cu caracterul & i se ncheie cu ;. Astfel, &lt; va nsemna mai mic dect, iar
&gt; va nsemna mai mare dect.
Coninutul unei pagini Web (considerat ca fiier) poate fi delimitat de dou etichete
pereche, i anume <HTML> i </HTML>. Prima dintre ele (format din 6 caractere ASCII
clasice) anun programul de navigare (browser) cum trebuie s interpreteze restul
coninutului fiierului, iar a doua etichet semnaleaz ncetarea folosirii regulilor hipertext.
(Existena acestor etichete nu mai este, pentru versiunile recente ale programelor de
navigare, obligatorie.)
Structura unei pagini Web este extrem de simpl: doar dou seciuni. Prima, anume
antetul (header), conine de regul informaii despre subiectul general al documentului,
folosite pentru indexare (nu de ctre navigatoare, ci de motoarele de cutare). Antetul este
semnalat i delimitat de balizele-etichete pereche <HEAD> i </HEAD>.
O informaie din antet, anume cea de titlu, va fi totui interpretat de ctre navigatoare.
Aceast informaie va fi afiat pe bara de titlu, n partea superioar a ferestrei
navigatorului. Balizele-etichete pereche care indic programului de navigare c un anumit
text este titlul sunt <TITLE> i </TITLE>. Insistm asupra faptului c nu este vorba
despre titlul logic al documentului, ci despre textul care va fi afiat pe bara de titlu, conform
regulilor sistemului de operare! Lungimea acestui text este limitat!

A doua seciune a unei pagini Web este corpul (body), semnalat i delimitat de etichetele
pereche <BODY> i </BODY>. Corpul conine textul ce va fi afiat n zona de lucru a
108

ferestrei navigatorului, ntreesut cu balize-etichete de formatare, de poziionare i/sau de


trimitere spre alte informaii.
Eventualele comentarii adic texte pe care dorim ca navigatorul s nu le afieze vor fi
incluse n coninutul unei pagini Web prin ncadrarea lor ntre balizele-etichete <! i ->.
Exerciii. 1) Prin inspectarea coninuturilor brute, comparai ntre ele tipurile de fiiere
DOC, RTF i HTM pe care le creai cu (Microsoft) Word. Ce informaii, n afara textului dorit,
apar n aceste coninuturi?
2) Informai-v cum pot fi cerute, ntro pagin Web, informaii din partea utilizatorilor (cu
sau fr acordul acestora).
Noiunea de pagin Web extinde pe cea de document clasic, de aceea a fost prevzut
organizarea ei n capitole, subcapitole, seciuni (organizare pe care o ntlnim n cri, tratate,
dar i documente de prezentare). Titulatura capitolelor se realizeaz cu prin ncadrare cu
balizele-etichete pereche: <H1> i </H1>, cea a subcapitolelor prin ncadrare cu <H2> i
</H2>, .a.m.d. Sunt prevzute ase niveluri ierarhice de evideniere, adic pn la <H6>.
ns, atenie! S ne amintim c efectul etichetelor se va vedea pe ecranul unui calculator
aflat la distan, i anume n fereastra navigatorului, i este determinat efectiv de ctre
programul-navigator! De aceea modul n care vor fi afiate titulaturile cu litere aldine,
centrat, etc. nu poate fi controlat total de ctre creatorul paginii Web.
Ne dm seama uor c rndurile unui paragraf sunt determinate de limea paginii de
hrtie, de aceea afiarea pe ecran este determinat de limea ferestrei navigatorului,
fereastr aflat sub controlul utilizatorului la distan. ns creatorul paginii Web are
posibilitatea s declare nceputul unui nou paragraf prin inserarea etichetei <P>, de
asemenea ruperea unui rnd ntrun paragraf prin inserarea etichetei <BR>. (Folosirea
etichetei </P> este inutil, este de la sine neles c ncheierea unui paragraf coincide cu
nceperea urmtorului!)
Cel mai uor de neles este modul n care se poate indica afiarea unui bloc de text
folosind literele nclinate (italice) prin ncadrare cu etichetele <I> i </I>, literele
ngroate (aldine, bold) prin ncadrare cu etichetele <B> i </B>, literele subliniate prin
ncadrare cu etichetele <U> i </U>. ns descrierile grafice similare ale literelor sunt
nglobate ntrun font, iar fonturile sunt controlate de ctre sistemul de operare (i nu de ctre
navigator). Creatorul unei pagini Web are posibilitatea s comande (navigatorului)
folosirea unui anumit font pentru un bloc de text cu condiia ca sistemul de operare s
dispun de acest font! prin intermediul etichetelor <FONT> i </FONT>. n eticheta
<FONT> se pot plasa valorilor ctorva parametri, cei mai importani fiind SIZE, prin care se
poate controla mrimea literelor, FACE, prin care se poate controla fontul.
Exemple de formatare
declaraia
<B>text bold</B>
<I>text italic</I>
<U>text subliniat</U>
<B><I>bold italic</I></B>

afiarea
text bold
text italic
text subliniat
bold italic

Exemplul urmtor prezint modul n care este cerut navigatorului folosirea fontului
Arial, de mrime 10 p.t. (2), pentru afiarea blocului de text opera
<FONT FACE=Arial SIZE=2> opera </FONT>
(Dac sistemul de operare al calculatorului pe care se execut navigatorul dispune de
fontul denumit Arial, efectul va fi cel din figura alturat; n caz c nu dispune de acest
font ceea ce este puin probabil , l va nlocui cu unul asemntor. Recomandm ca n
paginile Web s fie folosite cu prioritate fonturile larg utilizate Times New Roman,
Arial, Courier New, i mai puin fonturi exotice.)
109

Exemple de afiare a cuvntului opera prin folosirea a diverse


fonturi, fr evidenieri speciale:
fontul
Arial
Times New Roman
Courier New
Symbol

afiarea
opera
opera
opera

Mrimea fontului poate fi specificat n mod absolut, prin atribuirea SIZE=n (unde n este
un numr ntre 1 i 7),sau n mod relativ, prin atribuirea SIZE=+n sau SIZE=n, ceea ce va
determina modificarea mrimii literelor fa de cea folosit n blocul de text anterior.
Mrimea implicit adoptat de majoritatea navigatoarelor este SIZE=3, corespunztoare la
12 p.t.
Prin folosirea parametrului COLOR n eticheta <FONT> se poate specifica o culoare
pentru blocul de text. Culorile pot fi specificate fie prin nume, fie prin valori hexazecimale
(precedate de #) conform cu modelul RGB. Astfel, de exemplu, COLOR=red sau
COLOR=#FF0000 indic navigatorului folosirea culorii rou pur pentru afiarea
blocului de text respectiv.
Exerciiu. Aflai amnunte despre alte modele de culoare (HSB, CMYK) utilizate de ctre
softul de desenare.
Modelul RGB (red-green-blue):

n documente se ntlnesc deseori liste. Componentele unei liste fie sunt numerotate, fie
ncep printrun simbol special (o liniu, un cercule, ). Evident, i pentru paginile Web a
fost prevzut posibilitatea marcrii listelor.
De menionat c n paginile Web pot fi inserate exist dou tipuri de liste:
a) liste ordonate, ale cror componente sunt numerotate. Aceste liste sunt delimitate prin
etichetele <OL> i </OL>;
b) liste neordonate, ale cror componente sunt precedate de un cercule (bullet). Aceste
liste sunt delimitate prin etichetele <UL> i </UL>.
Eticheta <OL> permite declararea numrului de ordine pentru prima component
(evident, acesta este 1 n mod implicit) ca valoare a parametrului START.
Indiferent de tipul de list, componentele ei sunt precedate de eticheta <LI>.
Iat un exemplu de liste imbricate, cea exterioar fiind numerotat, cu numerotarea
ncepnd cu 3. Afiarea este prezentat alturat n dreapta:
110

Descrierea listei

Exemplu de afiare a listelor imbricate


Afiarea de ctre navigator

<OL START=3>
<LI> prima din exterioar
<UL>
<LI> prima din interioar
<LI> a doua din interioar
</UL>
<LI> a doua din exterioar
</OL>

(De menionat c pentru fiecare nivel de list neordonat se folosesc semne diferite pentru
indicarea componentelor.)
Limbajul HTML prevede i posibilitatea crerii de liste de definiii, anume prin folosirea
etichetelor de delimitare <DL> i </DL>. n interiorul acestora, termenii definii vor fi
precedai de eticheta <DT>, iar definiia efectiv a fiecrui termen va fi precedat de eticheta
<DD>.
Descrierea listei

Exemplu de afiare a unei liste de definiii


Afiarea de ctre navigator

<DL>
<DT>font<DD>ansamblu de
descrieri grafice pentru
caracterele alfabetului folosit
(ASCII, UNICODE, ...)
<DT>HSB<DD>model de culoare
folosit n aplicatiile grafice.
O culoare este precizata prin
nuanta (<I>hue</I>), saturatia
(<I>saturation</I>) si
stralucirea (<I>brightness</I>)
sa
</DL>

Pentru separarea pe orizontal a blocurilor de text poate fi folosit i eticheta <HR>, al


crui efect este apariia unei linii orizontale pe toat limea ferestrei.
Documentele clasice conin, pe lng texte, i imagini fotografice sau desenate. n
paginile Web pot fi plasate i imagini provenind din anumite fiiere grafice, prin folosirea
etichetei <IMG>. Doi parametri, anume HEIGHT i WIDTH, sunt folosii pentru a
dimensiona (n pixeli), n fereastra navigatorului, spaiul ocupat de imagine. Parametrul
surs SRC va preciza identificatorul fiierului grafic. De regul acest parametru este nsoit
de ALT, a crui valoare precizeaz textul care va fi afiat de ctre navigator, n locul
imaginii, pn cnd va fi posibil afiarea imaginii. n sfrit, un alt parametru este cel de
aliniere ALIGN, ale crui valori (TOP, BOTTOM, CENTER) precizeaz modul n care
imaginea este aliniat pe orizontal (fa de paragraful din care face parte).
Iat un exemplu:
<IMG HEIGHT=100 WIDTH=200 SRC=imagine.gif ALIGN=TOP>
De menionat c navigatoarele ncearc s scaleze n mod automat imaginea la
dimensiunile fixate prin parametrii HEIGHT i WIDTH.
Exist i ali parametri ce pot controla diverse aspecte ale imaginii afiate. De exemplu,
atribuirea BORDER=2 folosit n cadrul unei etichete <IMG> va solicita navigatorului
trasarea unui chenar de grosime 2 pixeli n jurul imaginii. Valoarea implicit este
BORDER=0.
Exerciiu. Aflai amnunte despre tipurile de fiiere grafice utilizate n paginile Web,
precum i despre standardul DICOM.
111

Este practic imposibil astzi plasarea ntregii informaii referitoare la un anumit subiect
n cadrul unui singur document.
Specificul documentelor hipertext l constituie posibilitatea de a apela direct, atunci cnd
utilizatorul o dorete, alte documente hipertext (pagini Web), aflate eventual n memoria
altor sisteme de calcul. Pentru aceasta, n limbajul HTML a fost prevzut perechea de
etichete <A> i </A>.
Reamintim c blocul de text cuprins ntre aceste etichete poart numele de hipertext i
este tratat special de ctre navigatoare:
prin evidenierea cu alt culoare,
prin schimbarea formei cursorului mausului la trecerea pe deasupra.
Un asemenea bloc de text face legtura spre o alt informaie, a crei referin se afl n
interiorul etichetei <A>, anume ca valoare a parametrului HREF. Iat un exemplu:
<A HREF=http://www.umfcd.ro/admitere/info.htm>
Admiterea la UMF Carol Davila</A>
De fapt, valorile parametrului HREF sunt aa-numitele URL-uri (prescurtare de la
Uniform Resource Locator), n traducere localizatoare uniforme de resurs. Acestea pot fi
de dou tipuri:
absolute,
relative.
Este util de reinut c un URL absolut este format din patru pri:
1) protocolul de acces spre resurs (de exemplu http://)
2) denumirea sistemului de calcul ce gzduiete resursa, nsoit eventual de portul de
acces (exemple www.umfcd.ro, www.unilb.hr:8080)
3) calea de acces spre resurs (de exemplu /documente/admitere)
4) denumirea fiierului resurs, completat eventual cu o ancor (exemple info.htm,
descrpt.html#probe)
S menionm aici c folosirea unei referine URL n care apare o ancor presupune c n
cadrul documentului hipertext respectiv a fost plasat o pereche de etichete ce identific
ancora, ca valoare a parametrului NAME. Exemplu
<A NAME=probe> Probele pentru admitere </A>
plasat in interiorul documentului descrpt.html.
Un URL relativ poate conine doar o simpl ancor, eventual precedat de denumirea
fiierului i/sau de calea de acces. Localizarea funcioneaz pe baza faptului c programul de
navigare completeaz localizatorul relativ cu datele referinei de baz.
Folosirea ancorelor este extrem de util, cci parcurgerea unui document lung pentru a
ajunge la informaia dorit se dovedete adesea suprtoare. Ancorele n care parametrul
HREF are ca valoare cel mai simplu tip de URL permit vizitatorului unei pagini Web s se
deplaseze direct ntrun anumit loc din acelai document. Exemplu:
<A HREF=#probe> Probele pentru admitere </A>
(Insistm asupra faptului c blocul de text Probele pentru admitere, coninut ntre cele
dou etichete, va fi tratat special de ctre navigatoare, n primul rnd afiat cu o evideniere
specific. Atenie ns, aceast evideniere poate fi fcut, prin formatare, i pentru blocuri
de text obinuite; ceea ce identific un hipertext este modul de tratare a cursorului mausului
de ctre navigator.)
Legturi (links) spre alte informaii pot fi fcute i prin intermediul imaginilor plasate n
paginile Web. Reamintim c imaginile, provenite din fiiere de tipuri speciale, pot fi inserate
n paginile Web cu ajutorul etichetei <IMG>. Pentru a o folosi ns ca legtur spre alte
informaii, va trebui s i declarm o valoare pentru parametrul USEMAP, ca de exemplu
<IMG SRC=poza.gif USEMAP=#mymap>

112

Aceast declaraie trebuie nsoit de completarea unui ansamblu de date ce precizeaz


modul de legare ntre diferite zone ale imaginii i informaiile respective, n cadrul perechii
de etichete <MAP> i </MAP>. Aceasta presupune inserarea unor etichete <AREA>, ale
cror parametri sunt:
SHAPE, ce precizeaz forma regiunii din imagine; valori: RECT, CIRCLE,...
COORDS, ce precizeaz coordonatele regiunii
HREF, ce precizeaz localizatorul noii informaii.
Exemplu:
<MAP NAME=mymap>
<AREA SHAPE=RECT COORDS=0,0,100,100 HREF=up.htm>
<AREA SHAPE=RECT COORDS=0,100,100,200
HREF=down.htm>
</MAP>
Imaginile sunt utilizate frecvent pentru ilustrarea butoanelor. Un exemplu de utilizare:
<A HREF=fisier1.html> <IMG SRC=left.gif></A>
<A HREF=fisier2.html> <IMG SRC=right.gif></A>
n care presupunem c fiierele imagine left.gif respectiv right.gif produc
urmtorul aspect:

Controlul tabelelor, n paginile Web, este relativ simplu, dac ne dm seama c ntrun
tabel putem avea unul sau mai multe rnduri cap de tabel, urmate de rnduri normale;
fiecare rnd este format din celule, iar fiecare celul poate conine o mare varietate de
elemente: text, numere, liste, imagini etc. De asemenea, un tabel poate avea ataat o
legend.
Navigatoarele consider (implicit) c alinierea coninutului este centrat n celulele din
rndurile cap de tabel, iar n cele normale este la stnga. Parametrul ALIGN poate fi
folosit pentru a modifica alinierile implicite.
Etichetele care delimiteaz un tabel sunt <TABLE> i </TABLE>. n eticheta <TABLE>
pot aprea o serie de parametri, ale cror valori controleaz global coninutul celulelor:
BORDER pentru grosimea bordurii din jurul tabelului. Dac BORDER=0, atunci
caroiajul din interiorul tabelului va fi neglijat
CELLSPACING, pentru spaierea dintre celule (exprimat n pixeli)
CELLPADDING, pentru spaierea dintre chenar i coninutul celulei
WIDTH, pentru limea dorit a coloanelor (exprimat i n procente).
ntre etichetele <TABLE> i </TABLE> putem defini rndurile tabelului. Fiecare rnd va
fi ncadrat de etichetele <TR> i </TR>. n eticheta <TR> putem modifica stilul de aliniere
pe rndul respectiv, prin declararea unei valori adecvate a parametrului ALIGN, de exemplu
ALIGN=CENTER.
n cadrul unui rnd de tip cap de tabel se va utiliza perechea de etichete <TH> i </TH>
pentru a se specifica antetul fiecrei coloane. n mod implicit textul dintre aceste etichete va
fi afiat cu litere aldine, eventual mai mari, i centrat n celul.
n cadrul unui rnd normal se va utiliza perechea de etichete <TD> i </TD> pentru a se
specifica valoarea fiecrei celule n parte.
Etichetele <TH> i <TD> permit controlul celululor, prin intermediul valorilor
parametrilor
ALIGN i VALIGN, pentru alinierea pe orizontal respectiv pe vertical,
COLSPAN i ROWSPAN, pentru comasarea de celule,
HEIGHT i WIDTH, pentru dimensionri.
113

Iat un exemplu de tabel cu dou rnduri cap de tabel, primul ntins pe toate cele trei
coloane, iar al doilea avnd prima celul vid:
<TABLE BORDER>
<TR>
<TH COLSPAN=3>Tensiunea</TH>
</TR>
<TR>
<TH> </TH><TH>Sistolic</TH><TH>Diastolic</TH>
</TR>
<TR>
<TD>Ionescu</TD><TD>112</TD><TD>140</TD>
</TR>
<TR>
<TD>Popescu</TD><TD>88</TD><TD>130</TD>
</TR>
<CAPTION ALIGN=BOTTOM> Exemplu de tabel </CAPTION>
</TABLE>
Exemplu de afiare a unui tabel

S observm c etichetele <CAPTION> i </CAPTION> permit definirea legendei unui


tabel, care n mod implicit este afiat centrat, n partea superioar, deasupra tabelului.
Folosirea parametrului ALIGN schimb plasarea implicit.
Controlul precis al chenarelor din jurul tabelelor poate fi realizat prin valori ale
parametrului FRAME; de asemenea, caroiajul dintre celule poate fi realizat prin valori ale
parametrului RULES.
Unele pagini Web presupun un dialog cu utilizatorul. Pentru a facilita acest dialog,
proiectantul unei pagini Web poate utiliza etichetele <INPUT> i <TEXTAREA>, precum i
perechea <SELECT>, </SELECT> pentru a obine date de intrare de la utilizator, prin
intermediul unor obiecte plasate ntrun formular de pe ecranul navigatorului. (ns, atenie,
aceste date vor trebui transmise de navigator spre serverul Web!)
Cei mai importani parametri ai etichetei <INPUT> sunt TYPE, NAME, VALUE i SIZE.
Valorile parametrului TYPE specific tipul unui cmp de intrare dintrun formular; acestea
sunt urmtoarele:
TEXT, pentru casete de editare text,
RADIO, pentru butoane radio,
SUBMIT i RESET, pentru butoane obinuite de tipul OK i Cancel.
ntre etichetele <SELECT> i </SELECT> se plaseaz componentele unei liste de
opiuni; fiecare component este precedat de eticheta <OPTION>, utilizatorul putnd
selecta una sau mai multe. Eticheta <SELECT> permite folosirea parametrilor NAME, SIZE
i MULTIPLE.
114

Trebuie s atragem atenia c dialogul cu utilizatorul se desfoar prin obiecte plasate


ntrun formular. Formularul este delimitat de etichetele <FORM> i </FORM>.
n cadrul etichetei <FORM> pot fi precizate valorile parametrilor:
ACTION, care precizeaz URL-ul programului care va prelucra datele trimise de ctre
navigator;
METHOD, care specific modul de transmisie (GET sau POST);
ENCTYPE, care specific modul de codificare.
Exemplu:
<FORM METHOD=POST ACTION=http://www.umfcd.ro/prog.pl>
Numele-prenumele: <INPUT TYPE=TEXT NAME=nume SIZE=40>
<BR>Sistemul de operare folosit:
<SELECT NAME=so SIZE=2>
<OPTION> Windows
<OPTION> Linux
</SELECT><BR>
<INPUT TYPE=SUBMIT VALUE=Trimite>
</FORM>
Recunoatem n acest exemplu c prelucrarea datelor identificate prin nume i so
se va face de ctre programul prog.pl (ntocmit probabil n limbajul Perl) dup trimiterea de
ctre navigator.
Exemplu de afiare a unui formular

Se obinuiete ca zona de lucru a ferestrei navigatorului s fie divizat n mai multe zone,
numite cadre (frames), a cror funcionalitate s fie independent. Etichetele folosite pentru
divizarea paginii Web n cadre sunt <FRAMESET> i </FRAMESET>. n interiorul etichetei
<FRAMESET>:
parametrii ROWS i COLS permit precizarea divizrii n panouri orizontale sau
verticale. Valorile acestor parametri pot fi precizate n trei moduri, i anume: fie
numeric (n pixeli), fie procentual, fie prin asterisc (pentru a specifica restul de
spaiu);
etichetele <FRAME> i </FRAME> definesc un cadru. n interiorul etichetei
<FRAME>, parametrul SRC precizeaz URL-ul unde este descris coninutul cadrului,
iar parametrul SCROLLABLE determin modul de derulare.
Exemplu:
<FRAMESET COLS=20%,*>
<FRAME SRC=LEFT.HTM SCROLLABLE=YES></FRAME>
<FRAMESET ROWS=50%,50%>
<FRAME SRC=RIGHTUP.HTM SCROLLABLE=NO></FRAME>
<FRAME SRC=RIGHTDOWN.HTM SCROLLABLE=YES></FRAME>
</FRAMESET>
</FRAMESET>
115

Exemplu de afiare a unor cadre

5.7. Metalimbajul XML - noiuni introductive

Fora limbajului de marcare hipertext const n amestecul ntre blocurile de text i


balizele-etichet care indic aciuni asupra acestor blocuri. Unul dintre defectele limbajului l
constituie tocmai amestecul ntre etichetele ce delimiteaz coninut (cum este de exemplu
<H1> care indic titlu de seciune) i etichetele care indic formatare (cum este de exemplu
<B>).
Limbajul extins XML (de la eXtensive Markup Language) permite separarea complet
a coninuturilor de forme. Documentele XML vor conine doar informaii despre
coninut, iar formele n care va fi afiat acesta vor fi definite n fiiere de alte tipuri.
Un tip de document este un model abstract pentru documente similare. Ca un exemplu,
similaritatea tuturor documentelor exprimate n limbajul HTML este caracterizat astfel:
diferitele blocuri de text sunt precedate i succedate de balize-etichete (de marcare) din
limbajul HTML; vom putea vorbi astfel despre tipul HTML.
Deoarece toate documentele ce aparin unui anumit tip sunt create respectndu-se aceleai
reguli, programatorii tiu ce componente ar putea aprea ntrun document particular, cum
sunt structurate aceste componente, cum sunt identificate diferitele structuri. Devine posibil
aadar s fie scrise programe de calculator care s proceseze automat asemenea documente,
s extrag automat i s clasifice automat informaia de care are nevoie utilizatorul.
Ideea principal a metalimbajului XML const n folosirea definiiilor de stil (XSL) i a
definiiilor de tip de documente (DTD). Aceste definiii precizeaz ce tipuri de structuri sunt
acceptate n documentele unui tip, de asemenea cum sunt descrise aceste structuri prin
folosirea unor componente elementare (standardizate). S exemplificm prin tipul HTML. n
acest caz pot aprea dou tipuri de etichete ce sunt interpretate direct de ctre navigatoare:
1) cele ce indic poziia unui element n cadrul documentului;
2) cele ce indic modalitatea de formatare (de exemplu <B>).
Etichetele artificiale, ce nu aparin listei standard, cum sunt <AUTHOR> i </AUTHOR>
n elementul
<AUTHOR>D.V.Lindley</AUTHOR>
sunt neglijate complet. De asemenea, structuri mai complexe de etichete artificiale, cum ar fi
<BOOK>
<TITLE>Introduction to Probability</TITLE>
<AUTHOR>D.V.Lindley</AUTHOR>
</BOOK>
sunt neglijate de navigatoarele HTML, cu toate c nelesul lor este destul de transparent
pentru oameni.
116

Complet alta este situaia unui tabel de date (dintro baz de date), de exemplu de tipul
DBF. Aici informaia este structurat complet n cmpuri i nregistrri, fiecare cmp are
caracteristici particulare, iar fiecare valoare din cadrul unei nregistrri, corespunztoare unui
anumit cmp, trebuie s fie total compatibil cu caracteristicile cmpului. Totui, structura
este relativ simpl: la nceput avem cmpurile, apoi urmeaz una dup alta nregistrrile
toate avnd aceeai lungime.
S considerm, ca un al treilea exemplu, fiierele audio de tipul RIFF. Datele nregistrate
aici sunt organizate n buci (chunks), fiecare bucat coninnd, naintea unei secvene
lungi de date audio, mai muli parametri ca numrul de canale audio, frecvena de
eantionare, precizia datelor i numrul de valori audio. Totui, doar programele care tiu
unde s caute fiecare valoare a vreunui parametru pot interpreta corect toate aceste date.
Este evident c exist o relaie ntre un tip de documente i un format de fiiere. Totui,
formatul fiierelor depinde esenial de platform (adic de arhitectura calculatorului i de
sistemul de operare), ceea ce contrazice principiul universalitii adoptat n Internet; din
contra, un tip de documente acceptat n Internet ar trebui s fie interpretabil de ctre toate
calculatoarele legate la Internet. Prin urmare, fiierele de tip DOC (create de ctre Microsoft
Word), fiierele XLS (create prin folosirea Microsoft Excel), fiierele WAV i multe alte
tipuri de fiiere nu sunt permise n site-urile Web.
Informaiile pe care le dorim prezentate n Web vor fi preluate de ctre navigatoare din:
1) documentul XML; evident, din acesta va fi preluat coninutul;
2) fiierul de stil XSL (n care va fi precizat modul de afiare);
3) fiierul DTD (n care sunt stabilite regulile de prezentare).
Numele Extensible Markup Language ne spune c acest limbaj poate fi extins. Aceasta
nseamn c, n principiu, creatorul unor documente XML are posibilitatea s defineasc
propriul su tip de documente. (ns aceasta este inutil, pn cnd toate calculatoarele vor
putea fi capabile s interpreteze documentele XML! Admind c fiecare calculator legat la
Web posed un navigator fie Microsoft Internet Explorer, fie Netscape Navigator, Opera
sau altul acest navigator va trebui s fie capabil s interpreteze asemenea documente!)
Astzi suntem martorii tendinei de unificare ntre calculator i telefon. Cu ajutorul
limbajului XML se elimin obligativitatea de a crea cte un site Web separat coninnd
aceleai informaii pentru diversele dispozitive de tehnologie a informaiei (calculator,
telefon mobil, ...). Site-ul Web este unic i conine doar informaia efectiv. Forma de
prezentare este determinat de tipul de dispozitiv de pe care se trimite cererea, acest tip fiind
identificat (recunoscut) de programul CGI al gazdei site-ului. n consecin, va fi folosit
stilul adecvat.
Componentele unei declaraii de tip de documente sunt urmtoarele:
elemente,
liste de atribute,
notaii,
entiti.
Aceste componente sunt descrise folosindu-se o sintax flexibil ce permite tot felul de
schimbri n denumiri. Ca un exemplu simplu, s considerm urmtorul coninut al fiierului
ONE.XML care descrie tipul de document person:
<?xml version=1.0?>
<!DOCTYPE person
[
<!ELEMENT person (name,address)>
<!ELEMENT name (#PCDATA)>
<!ENTITY % address SYSTEM http://193.26.0.8/addrfile.dtd>
%address;
]>

117

<person>
<name>D. V. Lindsay</name>
<address>London, UK</address>
<name>I. Ionescu</name>
<address>Bucharest, Romania</address>
</person>

Etichetele din limbajul XML sunt identificate cu uurin, ele ncep cu <!. Tipul de
document descrie pe person ca o structur; descrierea sa este ntre paranteze ptrate.
Primul element stabilete c o persoan are dou componente, un name i o address.
Urmtorul element stabilete c numele (name) sunt obinute din datele ce urmeaz.
Parametrul address al unei persoane este o entitate extern, a crei descriere este gsit
n fiierul ADDRFILE.DTD, cruia i se specific URL-ul. Coninutul acestui fiier ar trebui
s conin o etichet <!ELEMENT> care s descrie acest parametru, de exemplu n felul
urmtor:
<!ELEMENT address (#PCDATA)>
Internet Explorer este capabil s interpreteze coninutul fiierului nostru, s obin
descrierea necesar a lui address din Internet, i apoi s afieze coninutul, aa cum apare
n figura urmtoare.
Exemplu de redare a coninutului fiierului ONE.XML de ctre Internet Explorer

Metalimbajul XML este suficient de complex. Exemplul simplu de mai sus a fost
prezentat deoarece ar putea servi ca un instrument pentru asigurarea transferului datelor
medicale prin Internet, cu condiia ca s se convin i s se adopte o descriere standardizat a
datelor medicale.
(Limbajul) HTML a evoluat gradual n timp, ncepnd cu o versiune 2.0 cu care se putea
lucra (ale crei etichete principale au fost prezentate mai sus); dar chiar i HTML versiunea
4.01 este astzi de mult depit. Ea este nc interpretat pe ecrane, mai bine ca niciodat,
de toate navigatoarele importante, dar a fost deja nlocuit cu XHTML, iar navigatoarele ce
vor aprea n viitor s-ar putea s nu o mai suporte!
Toate documentele HTML bine create ar trebui s nceap cu o declaraie DOCTYPE, ca
de exemplu:
<!DOCTYPE html public '-//W3C//DTD HTML 4.01//EN'
'http://www.w3.org/TR/html4/strict.dtd'>

Trecerea la XHTML nseamn mult mai mult dect schimbarea acestei declaraii
DOCTYPE. XHTML este o revizie major a lui HTML, n care au fost schimbate mai multe
practici de codificare. Pentru a nelege ce s-a ntmplat, s observm c elementelor ca
<FONT COLOR=green SIZE=+1> le lipsete valoarea semantic. Ele nu spun
nimic navigatorului despre ce a fost inclus ntre ele (ntre etichetele <FONT> i
</FONT>), ci doar indic navigatorului cum s prezinte blocul de text ncadrat. Din acest
118

motiv asemenea elemente au fost depreciate i vor fi probabil eliminate din standard!
Pentru a se indica navigatoarelor grafice (Internet Explorer i Netscape Navigator) cum s
prezinte asemenea tip de informaie, n XHTML sunt utilizate stiluri n cascad, iar
etichetele de prezentare nu mai sunt permise!
Exist multe alte diferene. Nu intrm n detalii. S reinem doar ideea c un site Web este
compus dintrun ansamblu de pagini Web ntreesute, coninutul acestor pagini ar putea s se
modifice dinamic, iar meninerea unui site Web profesional este o profesie. Totui, existena
softului specializat ca Dreamweaver face ca aceast profesie s fie uoar.

119

Cursul 6. Sisteme de gestiune a bazelor de date


Gestionarea activitii unui spital, destul de complex astzi, nu poate fi efectuat fr a
apela la un sistem informatic ce exploateaz o baz de date. Aceasta conine informaiile
despre pacieni, medici, medicamente i dotare; ea asigur legturile obligatorii cu alte
sisteme: legale, de asigurri, financiar-bancare etc.
Acest curs are un scop dublu: pe de o parte familiarizarea cu noiunile fundamentale ale
sistemelor de gestiune a bazelor de date, precum i cu unele aplicaii specifice, iar pe de alt
parte prezentarea conceptelor folosite n crearea programelor de calculator i a principalelor
structuri de date utilizate n programele administrative.
Coninutul acestui curs este urmtorul:
6.1. Algoritmi i baze de date ...................................................................................
6.2. Sisteme de gestiune a bazelor de date ...............................................................
6.3. Limbajul SQL (scurt prezentare) .....................................................................
6.4. Serverul MySQL ................................................................................................
6.5. Aplicaia Microsoft Access ................................................................................
6.6. Aplicaia Microsoft Visual FoxPro ...................................................................

Adrese web utile:


www.sql.org
www.w3schools.com/sql/
www.microsoft.com/romania/office/access/
msdn.microsoft.com/en-us/vfoxpro/

120

121
121
123
124
126
129

6.1. Algoritmi i baze de date


ntocmirea unui program informatic destinat efecturii unor sarcini particulare va putea fi
efectuat doar dup precizarea datelor ce vor fi prelucrate i dup formularea exact a
sarcinilor de efectuat, ceea ce nseamn de obicei prezentarea acestora sub forma unui
algoritm.
Prin algoritm se nelege o secven finit de instruciuni, fiecare putnd fi efectuat
ntrun timp determinat i rezonabil.
Iat, de exemplu, cum se trateaz algoritmic problema precizrii caracteristicii ponderale
a unui copil. Datele primare de care dispunem sunt urmtoarele:
concret, 14,
vrsta V, exprimat n ani
sexul
concret, M,
nlimea I, exprimat n m
concret, 1.74,
greutatea (masa) G, exprimat n kg
concret, 82.5
Calculul indicelui de mas corporal (body mass index) este imediat:

BMI =

G
I2

concret, 26.9

Studiile efectuate anterior, pe un numr foarte mare de copii de vrste diferite, au condus
la ntocmirea unei distribuii a valorii indicelui de mas corporal, pe vrste i sexe.
Conform regulilor adoptate n S.U.A., percentilele de 15 i 85 ale acestei distribuii
considerat pentru o anumit vrst servesc pentru delimitarea celor normo-ponderali de
ceilali, iar percentilele de 5 i 95 servesc pentru delimitarea celor subnutrii i a celor
obezi.
Concret, n cazul nostru aceste percentile au valorile: 15.9 (cea de 5%), 22.6 (cea de 85%)
respectiv .26.0 (cea de 95%).
Subiectul nostru, pentru care s-a calculat valoarea 26.9 a indicelui de mas corporal, va
fi ncadrat n categoria celor obezi.
Aadar, valoarea obez pentru individul nostru al populaiei a fost obinut aplicnd un
algoritm simplu: s-a calculat BMI, apoi acesta s-a comparat cu limitele corespunztoare
sexului i vrstei.
Populaiile biologice nu-i pstreaz caracteristicile de variabilitate n timp. Pentru a se
reine datele indivizilor, n scopul efecturii de comparaii ulterioare, se recomand crearea
de baze de date. Evident, n bazele de date se vor reine datele primare (cum sunt
nlimea, greutatea, sexul i vrsta n exemplul de mai sus), urmnd ca datele utilizabile n
comparaii (BMI n exemplul de mai sus) s fie calculate folosind algoritmi specifici.
6.2. Sisteme de gestiune a bazelor de date

Noiunea de dat are dou nelesuri principale: 1) reprezentare formalizat a unor fapte,
concepte sau instruciuni, adecvat comunicrii, interpretrii umane sau prelucrrii automate;
2) reprezentare prin caractere crora li s-a atribuit un neles.
n al doilea neles, datele constau din simboluri nregistrate (scrise) pe un mediu fizic,
numit suport; aceste simboluri reprezint obiecte, idei, evaluri, instruciuni etc.
Trebuie s precizm de la nceput faptul c aceeai dat ar putea fi nregistrat, pe
suportul fizic, n multiple feluri. De exemplu, numrul 123 ar putea fi plasat ntro memorie
fie prin reprezentarea sa binar:
0 1 1 1 1 0 1 1
fie ca succesiune de cifre 1, 2, 3 reprezentate ASCII, adic astfel:
0 0 1 1 0 0 0 1
0 0 1 1 0 0 1 0
0 0 1 1 0 0 1 1
121

Datele obinute de ctre oameni se organizeaz tradiional n biblioteci sau, mai recent, n
bnci de date. O baz de date presupune existena unei bnci de date dotat cu o
component informatic, ce i asigur un plus de organizare i protecie.
Din punct de vedere logic, o baz de date nu este altceva dect o colecie de date cu
legturi ntre ele.
Din punct de vedere informatic, o baz de date este un ansamblu destul de complex de
diverse obiecte informatice, dintre care cele mai importante par a fi tabelele de date.
(Evident, dac suportul datelor este magnetic, tabelele de date vor fi coninutul unor fiiere
speciale, s le numim fiiere-tabel de date.) ns la fel de importante sunt obiectele
informatice care reglementeaz i controleaz accesul utilizatorilor la date, n funcie de
drepturile fiecruia.
Tabelele de date, elementele fundamentale ale oricrei baze de date, sunt formate din
nregistrri (records), organizate n cmpuri (fields) de diverse tipuri. De obicei, fiecare
nregistrare este asociat unui anumit obiect concret, iar fiecare cmp este asociat unui
atribut al (unei caracteristici a) obiectelor. n fiecare nregistrare, pentru fiecare cmp al
tabelului vom gsi o valoare, care trebuie s fie compatibil cu tipul cmpului. S precizm
c toate nregistrrile din acelai tabel trebuie s fie asociate cu obiecte similare.
De exemplu, o nregistrare dintro agend telefonic, ce este asociat unei persoane, poate
conine date privind numele persoanei, adresa sa, numrul/numerele de telefon. O
nregistrare ce este asociat unui medic poate conine, pe lng datele de mai sus, date
privind calificarea i competenele sale. O nregistrare asociat unui medicament poate
conine denumirea sa, fabricantul, posologia, date privind indicaiile i contraindicaiile
cunoscute.
Nu este neaprat nevoie ca toate datele provenite de la o entitate (un individ) s fie
stocate ntrun singur tabel. De exemplu, datele privind medicaia unui pacient ar putea fi
regsite ntro nregistrare cu datele personale ale pacientului, n alta cu datele medicului ce a
prescris medicaia (n alt tabel), i n nregistrarea asociat medicamentului prescris (evident,
n al treilea tabel).
ntre dou tabele de date pot exista legturi, de trei tipuri:
una-la-una, n cazul n care unei nregistrri dintrun tabel i corespunde o singur
1)
nregistrare din cellalt tabel;
una-la-multe, n cazul n care unei nregistrri dintrun tabel i corespund mai multe
2)
nregistrari din cellalt tabel;
multe-la-multe.
3)
Ne dm seama c nregistrrile unui tabel pot fi reordonate n funcie de diverse criterii, c
putem interoga anumite nregistrri, c putem selecta valori ale anumitor cmpuri din
anumite nregistrri, c este nevoie de formulare pentru introducerea (corect) de noi valori
sau pentru imprimarea unor rapoarte pe hrtie. Toate acestea: reordonri, legturi, interogri,
selectri, formulare etc. vor fi stocate n coninutul unor fiiere specifice.
O baz de date construit pentru o firm relativ mic poate conine sute de tabele legate
ntre ele, iar fiecare tabel poate avea i sute de cmpuri. Evident, orict de interesant ar fi
modul de utilizare, nu trebuie s uitm scopul principal pentru care sunt create bazele de
date, i anume regsirea rapid a datelor stocate. Pentru atingerea acestui scop sunt create
aa-numitele sistem de gestiune a bazei de date, prescurtat SGBD (database management
system DBMS).
Problema identificrii precise a unei anumite nregistrri, dintre toate nregistrrile unui
tabel, este rezolvat prin folosirea aa-numitelor chei primare (primary key). O cheie
primar nu este altceva dect o formul de identificare (unic) a unei nregistrri pe baza
valorilor din anumite cmpuri. Aadar, fiecare dat particular stocat n baza de date va fi
122

accesibil prin indicarea adresei sale, care se calculeaz odat cunoscute numele
tabelului de date, numele cmpului i valoarea cheii primare.
Exemplul cel mai simplu ar fi cel n care se folosete un singur cmp special ID, ale
crui valori numerice 1, 2, 3, se completeaz automat la fiecare inserare a unei nregistrri
noi n tabel.
Este de la sine neles c un SGBD presupune o activitate complet computerizat. Ne dm
seama c aceste sisteme moderne au provenit din sistemele cu fie utilizate pentru regsirea
crilor, dup autor, n bibliotecile clasice. Diferena esenial dintre un SGBD computerizat
modern i unul clasic, cu fie de hrtie, const n posibilitatea de regsire ultrarapid a
datelor.
Este destul de uor s ne imaginm modul de funcionare a unui sistem de gestiune a
bazei de date, innd seam de faptul c, n general, pot exista trei tipuri de utilizatori:
cei ce alimenteaz baza de date cu date noi, sau le corecteaz pe cele existente;
cei ce interogheaz baza de date, selectnd i cernd rapoarte;
cei ce ntrein baza de date, asigurnd prin programe speciale protecia datelor i
supravieuirea bazei de date.
Sunt folosite astzi destul de multe sisteme de gestiune a bazelor de date. Menionm:
(Microsoft) Access, component a suitei Office,
(Microsoft) SQL Server,
(Microsoft) Visual FoxPro,
(IBM) DB2,
Oracle,
MySQL.
Access, Visual FoxPro i MySQL sunt aplicaii pregtite pentru activiti la nivel de
firm mic, foarte uor de nvat i utilizat. Posibilitile lor sunt limitate n ceea ce privete
capacitatea, ct i numrul de utilizatori (simultani). Dimpotriv, Oracle i DB2 pot controla
activitatea a mii de utilizatori simultani, asupra unei cantiti de date exprimate n terabytes.
Trebuie s facem meniunea c exist probleme de compatibilitate ntre aceste sisteme de
gestiune a bazelor de date. De asemenea, trebuie s menionm faptul c o baz de date poate
fi gzduit n memoria mai multor calculatoare.
6.3. Limbajul SQL (scurt prezentare)

Pentru crearea, actualizarea sau tergerea componentelor unei baze de date a fost
standardizat un limbaj special, denumit SQL (iniialele de la Structured Query Language).
Acesta este alctuit din comenzi, de trei tipuri posibile.
1) Tipul DD (de definire a datelor). Principala comand din acest tip este cea de creare.
De exemplu,
Create Table spitale
ar trebui s aib ca efect crearea unui tabel de date, cu denumirea indicat (spitale).
2) Tipul DM (de manipulare a datelor). Exist, din acest tip, patru comenzi: cea de
selectare (Select), cea de inserare de date noi (Insert), cea de modificare (Update) i cea de
tergere (Delete). De exemplu,
Select * From spitale Where oras=Bucuresti
ar trebui s aib ca efect selectarea n ntregime (!) a nregistrrilor din tabelul de date
spitale, care corespund spitalelor localizate n oraul Bucureti.
Ca un alt exemplu,
Insert Into spitale Values(SUUB,Bucuresti,814)
123

ar trebui s aib ca efect inserarea n tabelul de date spitale a unei noi nregistrri, pentru
care valorile corespunztoare cmpurilor (fie acestea nume, oras, nrpaturi) sunt cele
specificate.
3) Tipul DC (de control al datelor). Comanda Grant din acest tip permite acordarea de
drepturi speciale unor utilizatori. De exemplu,
Grant Select,Insert On spitale To ionescu
ar trebui s permit utilizatorului ionescu s selecteze date i s insereze noi nregistrri n
tabelul de date spitale (nu ns s modifice sau s tearg date!).
Pentru a acoperi necesitile de calcul statistic, n limbajul SQL au fost prevzute cinci
funcii speciale de calcul: Count(), Sum(), Avg(), Min() i Max().
Denumirile lor exprim destul de clar efectul acestora. Astfel, Count() totalizeaz
numrul de nregistrri, iar Avg() calculeaz media aritmetic a valorilor.
Implementarea comenzilor SQL depinde ns de aplicaia concret.
6.4. Serverul MySQL
MySQL este o implementare open source a limbajului SQL, gratuit, i poate fi folosit
sub licen public. Avantajul su major const n sprijinul pe care-l ofer pentru realizarea
de pagini web dinamice (n combinaie cu implementri ale limbajului PHP sau ale altor
limbaje).
Evident, ca majoritatea implementrilor soft pentru Internet, i aceast implementare a
sistemului de gestiune a bazelor de date se compune din aplicaie server i aplicaie client.
Aplicaia server MySQL se instaleaz de obicei pe gazdele Internet n memoria crora este
creat baza de date, i ateapt la portul 3306 solicitri ale eventualilor clieni. Ct despre
aplicaia client, nu este necesar s insistm asupra acesteia: Internet Explorer, prin
posibilitile de interpretare a scripturilor PHP, face ca utilizatorii sisteului de operare
Windows s nu aib probleme deosebite cu accesarea datelor.
Vom face o scurt prezentare a serverului MySQL. S ncepem prin a meniona c
sistemul de securitate folosit de MySQL este bazat pe:
numele de utilizator (username),
parola de protecie (password),
privilegiile/drepturile utilizatorului.
MySQL este administrat implicit de ctre utilizatorul root ce are privilegii absolute.
n MySQL o baz de date este de fapt un subfolder al folderului denumit data. Fiecare
tabel al bazei de date este format din trei fiiere avnd acelai nume (coninute n subfolderul
specific bazei de date):
1) formularul, cu extensia frm, ce conine structura tabelului,
2) fiierul de date, cu extensia myd, i
3) fiierul index, cu extensia myi. Acesta conine ordonrile asociate datelor din fiierul
de date.
Toate cele trei fiiere sunt create automat, n urma execuiei unei comenzi
Create Table nume_tabel ;
n mod implicit exist o baz de date mysql care conine datele privind utilizatorii,
precum i drepturile i privilegiile acestora. Aceast baz de date conine cinci tabele:

124

1) user, n care sunt nregistrate datele utilizatorilor: numele de acces, parolele de acces i
privilegiile globale;
2) db, n care sunt nregistrate bazele de date i utilizatorii care au acces la acestea;
3) host, n care sunt nregistrate date suplimentare pentru controlul accesului de la
anumite gazde la bazele de date;
4) tables_priv, n care sunt nregistrate date privind privilegiile la nivel de tabel;
5) column_priv, n care sunt nregistrate privilegiile la nivel de cmp (coloan).
Acelai nume de tabel poate fi folosit n mai multe baze de date. Pentru a evita confuziile,
identificarea precis a unui tabel de date se face cu ajutorul operatorului . (punct)
nume_baz_de_date.nume_tabel
Administratorul root are dreptul de a crea conturi de utilizator i de a le configura aa
cum o dorete. Configurarea unui cont de utilizator nseamn:
a) precizarea numelui de utilizator (username), a calculatoarelor de la care va avea acces
la server i a parolelor de acces;
b) stabilirea privilegiilor pe care le are utilizatorul (pn la nivel de cmp al unui tabel
dintro baz de date).
Crearea unui cont de utilizator se ace cu comanda Grant, a crei sintax este urmtoarea:
Grant privilegii (list cmpuri)
On identificatoare_tabele To username (Identified By password) ;
iar modificri ale contului pot fi fcute, ulterior, i printro comand Revoke analoag
comenzii Grant.
Odat ce i-au fost acordate privilegiile/drepturile necesare, utilizatorul poate vizualiza,
crea, modifica sau terge conturi de utilizator, baze de date, tabele, nregistrri.
Vizualizarea bazelor de date la care are acces utilizatorul se obine ca efect al comenzii
Show Databases ;
Analog poate fi folosit comanda
Show Tables ;
pentru vizualizarea tabelelor accesibile din baza de date curent (aflat n folosin).
Alegerea acesteia se face cu comanda
Use nume_baz_de_date ;
Crearea unei baze de date se obine printro comand simpl
Create Database nume_baz_de_date ;
iar crearea unui tabel nou pentru baza de date curent este efectul unei comenzi (mult mai
complexe)
Create Table nume_tabel ( structur i indeci ) ;
Ca exemplu, pentru crearea unui tabel cu dou coloane utile (numele+prenumele i anul
naterii), se va aduga o coloan suplimentar de identificare studID n care valorile vor fi
completate automat i care va fi folosit drept cheie primar; de asemenea va fi creat un
index alfabetic:
Create Table studenti ( studID Integer Auto-Increment Not Null Primary Key,
numepren Char(30), annastere Year,
Index alfa(numepren) ) ;
Odat creat un tabel de date, pentru inserarea unei nregistrri noi va putea fi folosit
comanda Insert. Una dintre variantele acceptate are sintaxa
Insert Into nume_tabel Values( lista_valori ) ;
125

n care n lista de valori trebuie s apar valori pentru toate cmpurile tabelului, exact n
ordinea dat de structura tabelului. Evident, fiecare valoare specificat n list trebuie s fie
de acelai tip cu tipul cmpului n care va fi introdus.
n caz c nregistrrile trebuie preluate din coninutul unui fiier text, se poate folosi o alt
comand:
Load Data Infile identificator_fiier_surs Into Table nume_tabel ;
Bazele de date se construiesc i se ntrein pentru ca s poat fi gsite rapid acele date care
satisfac o anumit condiie. Regsirea datelor se obine ca efect al unei comenzi Select. Una
dintre variante are sintaxa
Select list_cmpuri From list_tabele Where condiie_de_selecie ;
Ca un caz particular, prin
Select * From nume_tabel ;
se determin afiarea tuturor nregistrrilor din tabel, una dup alta.
Datele selectate pot fi ordonate i/sau grupate prin opiuni speciale.
Comanda generic Select este extrem de complex i flexibil, putndu-se obine cu
ajutorul ei inclusiv rezultate ale unor calcule.
n caz c se constat c unele nregistrri conin date incorecte, corectarea lor se poate
efectua cu o comand
Update nume_tabel Set list_modificri Where condiie_de_identificare ;
tergerea unor nregistrri dintrun tabel se poate obine, evident, cu o comand
Delete From nume_tabel Where condiie_de_ndeplinit ;
Pentru tergerea unui tabel care nu mai este necesar se poate folosi comanda
Drop Table If Exists nume_tabel ;
Din exemplele date anterior se poate observa c limbajul SQL implementat n MySQL
este format din comenzi destul de clare n limbajul natural (engleza). Se impune doar o
respectare a topicii.
Serverul MySQL este dotat cu o serie de funcii (built-in functions) din urmtoarele patru
categorii:
1) Pentru prelucrarea secvenelor de caractere. Exemple: CONCAT() pentru
concatenarea mai multor secvene de caractere, TRIM() pentru eliminarea caracterelorspaiu alb de la nceputul i sfritul secvenei, UPPER() pentru transformarea literelor din
secven n majuscule.
2) Pentru prelucrarea numerelor. Exemple: SQRT() pentru calculul rdcinii ptrate,
RAND() pentru obinerea de valori (pseudo)aleatoare.
3) Pentru manevrarea datelor calendaristice. Exemplu: NOW() pentru obinerea
momentului curent.
4) Diverse. Exemplu: ENCODE() pentru criptarea unei secvene de caractere.
6.5. Aplicaia Microsoft Access

Face parte din suita Office creat de firma Microsoft, putnd fi folosit independent
pentru lucrul cu baze de date sub sisteme de operare Windows. Evident, posed diverse
faciliti de preluare a datelor din celelalte aplicaii ale suitei.
126

nvarea operrii cu aplicaia Access este uurat de existena unui exemplu destul de
complex de baz de date comercial, Northwind Traders, stocat n fiierul
Northwind.mdb. De menionat c extensia implicit a fiierelor Access este MDB. De
asemenea, aplicaia este dotat, pentru nceptori, cu module auxiliare de ghidare (wizard).
) conduce imediat la fereastra bazei de date. n
Startarea aplicaiei Access (pictograma
stnga ei apare lista tipurilor de obiecte ce pot fi create: tabele, interogri, formulare de
introducere, machete de raportare. Fiecare obiect creat va fi identificat printrun nume.
Pentru crearea unui obiect nou se recomand a se folosi opiunea Create in Design
view, ceea ce permite un control vizual al parametrilor obiectului. n figura urmtoare este
pregtit crearea unui tabel de date nou (al bazei de date spital):

Este recomandabil s proiectm dinainte structura (organizarea) stabilind cmpurile, tipul


lor, condiiile de validare. ns, evident, eventuale modificri vor fi posibile i ulterior.
n figura urmtoare este prezentat fereastra prin care se stabilete/modific structura
tabelului.

Pentru fiecare cmp vom putea stabili:


1) numele, prin tastare n coloana Field Name,
2) tipul, prin alegere, n coloana Data Type, din lista tipurilor acceptate,
3) eventual o descriere format din cteva cuvinte.
Orice tabel nou creat trebuie s posede (cel puin) o cheie primar care s identifice
unic nregistrrile. n cea mai simpl situaie se va introduce un cmp id de tipul
AutoNumber. Declararea sa drept cheie primar se va face prin comanda EditPrimary
Key. Pentru celelalte cmpuri din tabel se pot declara reguli de validare (care s nu permit
introducerea de valori incorecte). Acestea vor fi stabilite prin intermediul unei casete de
dialog Expression Builder:
127

apelabil din proprietatea Validation Rule a cmpului respectiv. Iar n proprietatea


Validation Text se poate declara textul ce va fi afiat atunci cnd se va ncerca introducerea
unei valori incorecte.
De exemplu, pentru cmpul cnp am putea introduce regula de validare
>1000000000000. (Totui, nu recomandm aa ceva. Valorile codului numeric personal
conin, pe 13 caractere numerice, informaii despre sex, data naterii, judeul naterii. Astfel,
anul naterii este identificat din caracterele 2 i 3. De asemenea, exist i o validare bazat pe
sum de control.)
n fereastra bazei de date.
Tabelul, odat creat, va fi reprezentat de pictograma
Introducerea de nregistrri n tabel, chiar i parial, este deosebit de facil: comanda
FileOpen va conduce la o fereastr specific avnd, n partea inferioar, butoane speciale
de navigare prin nregistrri. Aceste butoane sunt identificate ca First, Previous, Next, Last
i Append.

Salvarea modificrilor se efectueaz imediat, la nchiderea tabelului (ferestrei). Salvri


intermediare se vor efectua cu comanda FileSave.
Se recomand ca introducerea efectiv a valorilor din nregistrri s se efectueze prin
intermediul unor formulare (Forms). Proiectarea machetei unui formular este imediat, cu
opiunea Create form by using wizard. Iar n caz c dorim s efectum modificarea
.
machetei, va fi necesar s schimbm modul de lucru, apsnd butonul
S presupunem c am creat dou tabele de date. Pentru a crea o legtur ntre ele se va
folosi comanda ToolsRelationships. Ca urmare va aprea un meniu nou, Relationships,
n care vom gsi comanda Edit Relationship. Cu ajutorul acesteia se creeaz i se
definitiveaz legtura (care de obicei este One-To-Many).

128

Operaiunile de cutare de date par simple n Access, odat ce suntem obinuii cu Word
sau cu Excel. Pentru a gsi date ntrun tabel avem la dispoziie comanda EditFind.
Atunci ns cnd dorim s regsim datele care satisfac o anumit condiie trebuie s
facem apel la un filtru (filter) sau la o interogare (query). Access ofer mai multe tipuri de
filtrare, accesibile ca urmare a comenzii RecordsFilter. Interogrile este recomandabil s
fie Create query in Design view, aadar prin folosirea ferestrei Select Query
(constructorului de interogri).
O interogare se poate crea asupra unuia sau mai multor tabele, ce au fost selectate n
prealabil. n fereastra Select Query apar toate cmpurile tabelelor selectate, putndu-se
controla ordonarea datelor (prin proprietatea Sort), vizibilitatea pe ecran (prin proprietatea
Show) precum i criteriul de selecie (proprietatea Criteria).

Rezultatul unei interogri va fi afiat ca urmare a comenzii QueryRun.


Crearea unei machete de raportare este n esen asemntoare cu cea a unui formular.
Deosebirea apare doar din faptul c rapoartele sunt de regul imprimate pe hrtie, n timp ce
formularele se adreseaz ecranului. Se recomand i n acest caz utilizarea auxiliarului
specializat, adic alegerea opiunii Create report by using wizard. Pregtirea pentru
imprimare este similar celei din Word.
ncheiem aceast seciune menionnd c pentru proiectarea unei baze de date complexe
se poate folosi aplicaia specializat Microsoft Visio, care este perfect compatibil cu Access.
6.6. Aplicaia Microsoft Visual FoxPro

Face parte din suita Visual Studio creat de firma Microsoft, putnd fi folosit
independent pentru lucrul cu baze de date relaionale (dar nu mari) sub sisteme de operare
Windows. Avnd diverse faciliti de export/import a datelor, este compatibil cu alte
sisteme de gestiune a bazelor de date (dBase, Paradox), dar i cu aplicaii de alt natur (de
exemplu Excel). Compatibilitatea cu aplicaia Access este ns discutabil.
Meniurile aplicaiei Visual FoxPro sunt iniial urmtoarele:
File Edit View Format Tools Program Window Help
(a se vedea figura urmtoare). De menionat c meniurile se vor schimba, n funcie de
contextul n care ne aflm; astfel, atunci cnd se lucreaz cu un proiect de ansamblu va
aprea un meniu Project, cnd se lucreaz cu o baz de date va aprea un meniu Database,
coninnd comenzi specifice; iar dac vom lucra cu un tabel de date, n locul acestui meniu
va aprea meniul Table. (Exist i alte situaii!)
129

Ferestrele Visual FoxPro i Command

Lucrul cu aplicaia Visual FoxPro se poate realiza:


fie utiliznd comenzile grupate n meniuri,
fie tastnd comenzile (n modul clasic, aa cum se proceda nainte de apariia sistemelor de
operare Windows) n fereastra de comenzi,
fie prin crearea unor programe n limbajul SQL i executarea lor.
De fapt, prin alegerea comenzilor din meniuri, de cele mai multe ori se genereaz automat
comenzi SQL n fereastra de comenzi, intitulat Command. (Vizualizarea ferestrei de
comenzi este un efect al alegerii comenzii Command din meniul View.)
De exemplu, prin alegerea comenzii Open din meniul File se va genera o comand USE
.
Fereastra Command, vizibil sau nu, conine lista comenzilor tastate n decursul unei
sesiuni de lucru. Aceste comenzi pot fi refolosite oricnd, eventual dup ce au loc modificri
prin tastare (evident, fereastra fiind vizibil); execuia unei comenzi este declanat de
apsarea tastei [Enter], avnd cursorul de editare poziionat pe comand.
n Visual FoxPro o baz de date este neleas ca o colecie de tabele de date legate ntre
ele; baza de date este descris ntrun fiier cu extensia DBC. Crearea unei baze de date noi
cu Visual FoxPro este simpl: se poate folosi comanda New din meniul File; caseta de
dialog New are un buton radio n care selectm opiunea Database i un buton obinuit
New file care trebuie apsat. Dac vrem s crem un tabel de date nou, vom urma acelai
procedeu, ns va trebui s selectm opiunea Table n butonul radio. Extensia fiierului ce
conine tabelul de date va fi DBF.
Caseta de dialog New

130

ns obiectul cel mai cuprinztor este proiectul.


Dup cum se poate observa n figura de mai jos, un proiect poate conine date (grupate n
baze de date, tabele independente i interogri), documente (adic formulare de introducere
de date, machete de raportare sau pentru etichete), programe. Pentru activiti simple legate
de o singur baz de date asamblarea lor n cadrul unui proiect nu este ns necesar.

Aplicaia Visual FoxPro folosete fiiere de mai multe tipuri; iat principalele:
1) DBF (coninutul unui tabel de date);
2) IDX (reordonarea nregistrrilor unui tabel);
3) PRG (comenzi alctuind un program);
4) FRX (definirea unei machete de raportare).
Crearea unui tabel de date, n cadrul unei baze de date, va putea fi fcut i cu ajutorul
comenzii New Table din meniul Database. Prima etap const n aa-numita structurare a
tabelului, concret n stabilirea denumirii i parametrilor cmpurilor. n aceast etap pot fi
stabilite i unele ordonri ale nregistrrilor tabelului (chiar dac ele nu au fost nc introduse
vezi figura urmtoare).
Descrierea structurii unui table de date

Pentru crearea cmpurilor tabelelor de date, aplicaia Visual FoxPro permite utilizarea
mai multe tipuri predefinite de date: Character, Currency, Integer/Numeric,
Float/Double, Date/Time, Logical, Memo.
131

Datele de tip Character sunt secvene de cel mult 254 de caractere (ASCII).
Datele de tip Numeric sunt numere (pozitive sau negative), exprimate zecimal, eventual
cu cteva cifre dup virgul; se spune c sunt exprimate n virgul fix.
Datele de tip Float sau Double sunt numere reale exprimate standard, cu mantis i
exponent; se spune c sunt exprimate n virgul mobil.
Datele de tip Date sunt date calendaristice, ce pot fi exprimate n diverse stiluri: ll/zz/aa,
zz-ll-aa etc.; ocup ntotdeauna 8 caractere.
Datele de tip Logical pot fi doar T sau F, ceea ce nseamn adevrat (true) respectiv fals
(false).
Datele de tip Memo sunt secvene de caractere, ce pot depi limitarea impus tipului
Character; stocarea lor se face ns ntrun mod special.
Odat ce datele au fost introduse n tabel, ele vor putea fi vizualizate n mai multe moduri.
Poate cea mai comod vizualizare se obine prin comenzile Browse i Edit din meniul View.
O comparaie ntre efectele acestor comenzi este fcut n figura urmtoare.
De menionat c ordinea de afiare a valorilor, care iniial respect ordinea cmpurilor aa
cum a fost stabilit la structurarea tabelului de date, va putea fi schimbat apelnd la
comanda Move Field din meniul Table.
Dac tim c n limbajul SQL adugarea unei nregistrri noi (dup cele existente ntrun
tabel) se efectueaz cu comanda APPEND, atunci nu este deloc dificil s ne dm seama de
rolul comenzii Append New Record din meniul Table. Iar comanda Append Records are
ca rol preluarea (eventual parial a) unor nregistrri din alte tabele de date.
Efectul comenzilor Browse i Edit

Vizualiznd un tabel de date cu comanda Browse, constatm c n stnga apare o coloan


care nu corespunde nici unui cmp; aceasta este coloana de tergere (delete) sau revenire
(recall). Pentru a terge o nregistrare se poate folosi evident comanda Delete Records din
meniul Table. Acelai efect va fi obinut cu un clic deasupra coloanei de tergere, n dreptul
nregistrrii; colorarea celulei din stnga indic faptul c nregistrarea a fost marcat ca
tears. De menionat c nregistrrile marcate astfel nu sunt terse realmente din baza de
date dect dac alegem comanda Remove Deleted Records din meniul Table sau tastm
comanda PACK n fereastra de comenzi. Pn atunci, nregistrrile marcate ca terse vor
putea fi reactivate cu comanda Recall Records.
Ordonarea nregistrrilor (cresctor sau descresctor) poate fi fcut nu doar dup valorile
unui singur cmp; dimpotriv, folosind caseta de dialog intitulat Expression Builder,
valorile de ordonare pot fi create ntrun mod destul de complex. Aceast caset de dialog
este ntlnit atunci cnd stabilim relaii ntre tabele/baze de date, cnd crem interogri etc.

132

Caseta de dialog Expression Buider

n figura de mai sus prezentm aceast caset de dialog. n partea inferioar, lista Fields
permite alegerea cmpurilor ce vor fi folosite n crearea expresiei. Grupul Functions este
format din patru liste derulante intitulate String, Math, Logical, Date; ele corespund celor
patru tipuri de operaiuni ce pot fi utilizate n crearea expresiei. De exemplu, n figur a fost
folosit funcia YEAR() din lista Date, precum i concatenarea (reprezentat prin +) din lista
String, pentru a se crea o ordonare dup anul naterii i nume. Caseta de dialog Expression
Builder este completat de lista variabilelor de sistem (dintre care cea care reine numrul
paginii, _pageno, ar putea fi folosit n crearea rapoartelor) precum i butonul Verify ce
poate fi folosit pentru verificarea corectitudinii expresiei create n caseta-text Expression.
n crearea bazelor de date pot exista restricii impuse de legislaia n vigoare. De exemplu,
nu se permite ca datele personale ale pacienilor (numele, data naterii, codul numeric
personal) s fie nregistrate alturi de datele legate de diagnoz. n aceste situaii datele
personale se pot reine ntrun tabel Private, iar datele nregistrate n spital n tabelul
Hospital. Trebuie s existe ns o legtur ntre cele dou tabele.
Prin relaie nelegem o legtur ntre dou sau mai multe tabele de date, prin care
nregistrrile sunt temporar conectate, n aa fel nct datele lor devin accesibile simultan.
Relaiile ntre tabele se constituie pe baza unor date comune, ce identific sau nu unic
nregistrrile.
Din punct de vedere formal, o relaie poate fi de dou feluri: biunivoc (one-to-one),
respectiv multivoc (one-to-many).
Relaiile pot fi create de exemplu ncepnd cu comanda NewViewNew file din
meniul File. Fereastra View Designer este completat iniial cu caseta de dialog Add
Table or View prin care selectm tabelele ce conin datele pe care le dorim relaionate. Se
continu apoi cu caseta de dialog Join Condition (a se vedea figura de mai jos), n care
trebuie s declarm cmpurile pe baza crora se va realiza relaionarea, de asemenea care
nregistrri le dorim selectate. Fereastra View Designer permite stabilirea cmpurilor care
vor fi vizualizate (tableta Fields), a relaiilor existente (tableta Join), a filtrelor de
selectare (tableta Filter), a ordonrilor (tableta Order By), a condiiilor de grupare
(tableta Group By) etc. Aceleai efecte se pot obine i prin folosirea comenzilor din
meniul Query ce nlocuiete meniul Project (Database sau Table) n aceast situaie. Odat
realizat o relaionare, comanda Browse asigur vizualizarea datelor selectate.
133

Relaionarea prin cmpuri

Filtrele de selectare sunt condiii logice i se refer la expresii formate cu valorile


cmpurilor din cadrul unei nregistrri. O condiie logic se obine prin conjuncia, disjuncia
i/sau negaia unor condiii elementare, formarea sa poate fi ghidat prin caseta de dialog
Expression Builder.
n fiecare condiie elementar se compar valoarea unei expresii (n figura urmtoare doar
numele cmpului datadiag din tabelul de date Hospital) cu o valoare corespunztoare
introdus prin tastare; comparaia se face folosind operatorii obinuii =, <, >, n cazul
unor valori numerice, operatorul Like n cazul secvenelor de caractere.
Exemplu de formare a unui criteriu logic

Comanda NewReportNew file din meniul File servete la compunerea machetelor


de raportare. De precizat c raportul efectiv va fi obinut pe hrtie prin comanda Print din
meniul File i va putea fi vizualizat pe ecran prin comanda Print Preview.
Exemplu de formare a unei machete de raportare i controalele ce pot fi utilizate

Iniial fiecare machet de raportare prevede posibilitatea controlului a trei benzi, dintre
care de regul pe banda Detail vor fi precizate datele extrase din baza de date ce trebuie
raportate. Benzile de colontitlu Page Header i de coloncifru Page Footer sunt folosite
pentru plasarea informaiilor de paginare. Dat fiind c un raport obinuit are o parte
introductiv i o parte final (concluzii sumarizate), n meniul Report este prevzut
comanda Title/Summary prin care se pot introduce dou benzi noi cu rol evident. De
asemenea, pot fi create benzi de tipul Group Header i Group Footer, ce ajut la
134

sistematizarea informaiilor n grupuri. (De exemplu, n benzile de ultimul tip pot fi plasate
subtotaluri ale datelor din fiecare grup.)
Crearea machetelor de raportare este uurat foarte mult datorit existenei instrumentului
auxiliar Report Wizard ce poate fi folosit odat ce am ales comanda NewReportNew
file din meniul File. n etape succesive se ofer posibilitatea de a alege cmpurile ale cror
valori vor fi trecute n raport, apoi alegerea gruprii i ordonrii valorilor. Evident, se vor
oferi cteva stiluri standard de raportare a datelor, folosite de regul n domeniul economic
(vezi figura de mai sus pentru un exemplu). Eventuale modificri aduse machetei sunt
uurate prin utilizarea barei de instrumente Report Controls care conine cteva butoane
reprezentnd clasele de obiecte utilizabile n machet: Label (texte - secvene de caractere),
Field (cmpuri din tabelele de date), Line, Rectangle, Rounded Rectangle (obiecte grafice
geometrice), Picture (imagini).
Parametrii unui obiect caset text

Crearea machetelor pentru etichetele de dimensiuni mici este asemntoare crerii


machetelor pentru raportare. Datorit faptului c etichetele pot fi imprimate n paralel pe mai
multe coloane, pe hrtie special autocolant, softul prevede controlul diverselor tipuri de
astfel de hrtie.
Crearea formularelor de introducere de date este i ea uurat foarte mult datorit
existenei instrumentului auxiliar Form Wizard ce poate fi folosit odat ce am ales comanda
NewFormNew file din meniul File. De menionat c pot fi programate cu uurin
activiti legate de diversele evenimente ce pot avea loc n legtur cu fiecare obiect plasat n
formularul de introducere de date (cu condiia cunoaterii limbajului de programare). n
figura de mai sus sunt prezentate dou tablete din caseta proprietilor aferente unei casetetext dedicat introducerii de date calendaristice.
Prezentarea posibilitilor de programare n Visual FoxPro depete cadrul acestui curs.
Exerciii.
1) Informai-v n Web asupra ultimei versiuni de Visual FoxPro i asupra structurii
unui fiier DBF.
2) Comparai cele dou opiuni principale de vizualizare a datelor dintrun tabel (Edit
i Browse). Care sunt avantajele fiecreia?
3) Analizai opiunea Connections i fereastra Connections Designer. Care sunt
principalii parametri ce pot fi stabilii n aceast fereastr?
4) Care sunt posibilitile de reprezentare grafic a datelor, oferite de Visual
FoxPro? Dar cele de calcul statistic?
135

Cursul 7. Alte distribuii continue. Teste de bonitate


Cursul are ca scop abordarea
a)

noiunii de test de bonitate, cu prezentarea unor aplicaii tipice n genetic;

b)

unor distribuii speciale, des ntlnite n problematica testelor statistice. Rolul i


utilitatea acestor distribuii, pentru cercetarea medical (i nu numai) va deveni
clar dup cursul urmtor.

Coninutul acestui curs este urmtorul:


7.1. Distribuii 2 .......................................................................................................
7.2. Distribuii Student .............................................................................................
7.3. Distribuii Fisher-Snedecor ...............................................................................
7.4. Testarea bonitii (goodness-of-fit) ....................................................................

Adrese web utile:


en.wikipedia.org/wiki/Chi-square_distribution
( /Goodness_of_fit)
www.statsoft.com/textbook/sttable.html

136

137
139
140
141

7.1. Distribuii 2

n cursul precedent de biostatistic am afirmat c, prin folosirea formulei de


standardizare

o variabil aleatoare normal X N (, 2 ) este nlocuit printro normal standard Z


(adic Z N(0, 1) ). Valorile lui Z sunt exact aceleai cu cele ale lui X (adic numerele
reale); totui, valorile lui Z sunt strns grupate simetric n jurul originii. (S ne aducem
aminte c 99.7% dintre valori adic aproape toate sunt situate ntre 3 i +3.)
Z=

Ce se poate spune despre ptratul Z 2 ? Evident, valorile acestei variabile aleatoare nu pot
fi negative; categoric ele nu mai sunt distribuite simetric n jurul originii. Cu toate acestea,
99.7% dintre valori sunt situate ntre 0 i 9 = 32 !)
Densitatea de probabilitate a ptratului Z 2 poate fi reprezentat grafic prin utilizarea
funciei CHIDIST implementat n Excel. n figura urmtoare este clar c nu exist vreo
ax de simetrie, dar nu este clar care ar fi media (nici care este mediana) distribuiei.
Graficul densitii de probabilitate a lui Z 2

La ce este util ptratul Z 2 ? Evident, n cazul n care Z exprim o eroare aleatoare


(pozitiv sau negativ), atunci Z 2 va exprima ptratul erorii. n unele situaii, dup o serie
de msurtori eroarea cumulat este exprimat ca sum de ptrate, care nu se reduce
neaprat la un singur termen.
Aceasta impune urmtoarea generalizare. S considerm mai multe variabile aleatoare
Z1 , Z 2 , ..., Z (toate distribuite normal standard) mutual independente. Distribuia sumei
de ptrate Z12 + Z 22 + ... + Z 2 considerat ca variabil aleatoare, este cunoscut ca
distribuia hi-ptrat cu grade de libertate (notaie 2 () ). n acest fel apare o nou

familie { 2 ( )} de distribuii ale unor variabile aleatoare, familie care depinde de un


singur parametru, , numrul gradelor de libertate, care este un numr natural (1, 2, 3 etc.).
Funcia CHIDIST n Excel ne permite s reprezentm grafic funciile densitate de
probabilitate ale acestor variabile aleatoare a se vedea figura urmtoare pentru un exemplu.
Aceste funcii sunt unimodale, unicul vrf aflndu-se deasupra abscisei 2 . Este uor
s nelegem topica
CHIDIST(abscisa x, numrul gradelor de libertate).
137

Totui, implementarea lui CHIDIST n Excel ofer rezultate ntrun mod diferit dect
NORMSDIST. Din motive istorice, de fapt CHIDIST(x, ) este exact probabilitatea ca
variabila aleatoare 2 () s ia valori mai mari dect x (i nu mai mici dect x ca n cazul lui
NORMSDIST).
Densitatea de probabilitate a lui 2 (10)

Formulele matematice adecvate ne permit s calculm media i variana acestor variabile


aleatoare.
Rezultatele sunt uor de reinut, ambele fiind legate direct de numrul de grade de
libertate, anume:
E ( 2 ( )) = , Var ( 2 ()) = 2 .
Folosirea intensiv a familiei variabilelor aleatoare (distribuiilor) hi-ptrat { 2 ()} este
datorat unor rezultate importante din teoria eantionrii. Unul dintre aceste rezultate este
exprimat n felul urmtor. S presupunem c indivizii studiai sunt grupai, lundu-se n
considerare dou criterii, n mai multe modaliti; numerele respective de indivizi sunt
inserate ntrun tabel de contingen
Coloana c
Linia r
Totaluri pe coloane

nrc

nr

nc

(n care notaiile cu indici punct sunt tradiionale).


Statistica

X =
2

r ,c

138

n
nr nc

Totaluri pe linii

n n
nrc r c
n

exprim o anumit distan dintre datele (nrc ) ale tabelului de contingen i nite valori
calculate pe baza totalurilor pe linii i pe coloane.
Aceast statistic este distribuit aproximativ 2 () , unde numrul de grade de libertate
este exact ( R 1) (C 1) , R fiind numrul de linii, iar C numrul de coloane ale tabelului de
contingen.
Ca atare, marea majoritate a valorilor statisticii (n condiiile n care datele tabelului
sunt completate la ntmplare uniform dar cu totalurile fixate) se vor plasa n jurul
mediei 2 . Foarte puine vor fi aproape de zero sau departe de zero.
n teoria eantionrii ntlnim un alt rezultat interesant. S presupunem c avem un
eantion de volum n dintro populaie distribuit normal N(, 2 ) cu parametrii i 2
necunoscui iar abaterea standard a datelor obinute din eantion este s. Atunci ctul
(n 1) s 2
este o variabil aleatoare de tipul 2 (n 1) , aadar cu n 1 grade de libertate.
2

(Evident, acest rezultat nu poate fi folosit direct, deoarece n general deviaia standard
teoretic nu este cunoscut! Vom reveni.)
7.2. Distribuii Student

Distribuiile t au aprut acum un secol ntrun articol al lui William Gosset, publicat n
1908 sub pseudonimul Student; din acest motiv ele sunt cunoscute i sub numele de
distribuii Student. Familia {t ()} a acestor distribuii este parametrizat de acelai
numr ca i familia { 2 ( )} . Motivul este evident dac-i lum n considerare definiia:
Z
t ( ) =
.
2 ( )
S ne amintim c Z reprezint distribuia normal standard, deci este de tipul N(0,1) , iar
2 ( )

este media aritmetic a ptratelor a cpii ale distribuiei normale standard.

Pentru a efectua calcule cu aceast familie {t ()} de distribuii, n Excel avem la


dispoziie funcia TDIST a crei utilizare este simpl:
TDIST(abscisa x, numrul gradelor de libertate, parametrul de lateralitate).
Parametrul de lateralitate are valoarea 1 (ceea ce nseamn unilateral), ori 2 (adic
bilateral).
Densitatea de probabilitate a lui t(10)

139

n figura anterioar este prezentat densitatea de probabilitate a distribuiei t(10). Curba


este simetric n raport cu originea, iar graficul ei pare similar cu o Gaussian (totui, nu
este!).
(De fapt, pentru 30 graficele lui t () i N(0, 1) practic coincid.)
Folosirea familiei de distribuii {t ( )} este justificat de rezultate importante din teoria
eantionrii. Iat dou dintre acestea:
1) S presupunem c populaia este distribuit normal, cu media i variana 2 , i s
x + x + ... + xn
considerm un eantion mic x1, x2 ,..., xn de volum n. Notm cu m = 1 2
n
m
media de eantion i cu s abaterea standard de eantion. Atunci raportul
are o
s
n
distribuie de tipul t (n 1) cu n 1 grade de libertate.
(n 1) s 2

are o distribuie hi-ptrat cu n 1 grade de libertate.)


2
2) S presupunem c avem la dispoziie dou eantioane din aceeai populaie
(distribuit normal). Din primul eantion, de volum n1 , am calculat media de eantion m1 i
abaterea standard s1 . Analog, din al doilea eantion, de volum n2 , am calculat media de
eantion m2 i abaterea standard s2 . Dac cel puin unul dintre numerele n1 , n2 este mic,
m1 m2
atunci raportul
este distribuit Student cu n1 n2 2 grade de libertate. n acest
1 1
s
+
n1 n2
(S reamintim aici c

raport ptratul s 2 al lui s este o medie ponderat a ptratelor s12 i s22 ale abaterilor standard
respective, mai precis
(n 1) s12 + (n2 1) s22
s2 = 1
.
n1 + n2 2
7.3. Distribuii Fisher-Snedecor

Folosirea familiei de distribuii asociate variabilelor aleatoare {F(1, 2 )} , care sunt


cunoscute sub numele distribuiile Fisher-Snedecor, este datorat i ea unor rezultate din
teoria eantionrii. Motivaia apare atunci cnd considerm probleme practice de
urmtorul fel: dac dispunem de datele din dou eantioane, care sunt extrase din populaii
distincte (presupuse a fi distribuite normal), oare mprtierea indivizilor din cele dou
populaii este aceeai? (Cu alte cuvinte, deviaiile standard teoretice sau varianele ale
celor dou populaii sunt aceleai?)
Evident, dac aceasta ar fi adevrat, atunci raportul varianelor (sau a deviaiilor standard
teoretice) ar fi egal cu 1. tim c deviaiile standard teoretice sunt estimate prin abaterile
standard de eantion. Atunci cnd raportul abaterilor standard de eantion este departe de 1
(adic este fie mare, fie apropiat de 0), nu vom avea motive s acceptm ideea c
varianele coincid.
Definiia distribuiilor Fisher-Snedecor (teoretice) este justificat dac inem seam de
faptul c deviaiile standard teoretice sunt estimate prin abaterile standard de eantion. Prin
2 (1 )
1
definiie, F(1, 2 ) este raportul 2
a dou medii aritmetice.
( 2 )
2
140

n figura urmtoare sunt prezentate dou exemple de densitate de probabilitate pentru


distribuii Fisher-Snedecor. Similaritatea cu formele densitilor de probabilitate ale
distribuiilor hi-ptrat este doar aparent. (Deosebirile sunt clare, dac observm poziia
vrfurilor.)
Densitile de probabilitate pentru F(10, 16) i F(8, 6)

n Excel funcia care ne permite s efectum calcule cu distribuiile Fisher-Snedecor este


FDIST.
n cazul a dou eantioane de volume n1 respectiv n2 , extrase din populaii distribuite
normal avnd aceeai varian n particular extrase din aceeai populaie raportul
s2
ptratelor abaterilor standard de eantion 12 are o distribuie de tipul F(n1 1, n2 1) ,
s2
numerele de grade de libertate fiind n1 1 i n 2 1 .
Utilizarea practic a tuturor distribuiilor N, 2 , t, F amintite anterior (i a multor
altora) n testarea de semnificaie statistic presupune alegerea unei valori care s delimiteze
aa-numita regiune de respingere. Aceast regiune va conine valorile care sunt
considerate semnificativ diferite de 0 (n cazurile N, 2 , t) respectiv de 1 (n cazul F). Ce
nseamn semnificativ este o opiune personal, legat de riscul pe care suntem pregtii
s-l acceptm. Vom reveni asupra acestor chestiuni n cursul viitor.
7.4. Testarea bonitii (goodness-of-fit)

Datele de recensmnt din multe ri arat c proporia de nou-nscui biei este uor mai
mic dect 0.5, de obicei 0.49. Este unanim acceptat c sexul unui nou nscut poate fi
considerat distribuit Bernoulli cu parametrul 0.49 i, ca variabil aleatoare, independent de
oricare alta care reprezint sexul altui nou nscut. Oare aceast opinie general este susinut
de datele statistice? Dac ipoteza de independen are fi adevrat, atunci numrul de biei
n familiile cu 4 copii ar avea o distribuie binomial b(4; 0.49), descris (aproximativ) dup
cum urmeaz:
Numrul de biei
Probabilitatea

0
0.068

1
0.260

2
0.374

3
0.240

4
0.058

Dac am colecta date de la, s zicem, 1000 de familii cu patru copii, atunci ne-am atepta
la urmtoarele frecvene:
Numrul de biei
Frecvena familiilor

0
68

1
260

2
374

3
240

4
58
141

Ce concluzie am trage dac am constata c au fost nregistrate alte frecvene? Evident c


abateri mari de la acestea ne-ar fora s ne revizuim opiniile. Situaia anterioar este un
exemplu tipic de experiment multinomial (n care numrul de observaii este 1000 i avem
5 categorii). n general, un asemenea experiment este caracterizat de:
a) Un numr de N observaii independente, fiecare putnd fi clasat ntruna dintre cele K
categorii notate C1 , C 2 ,..., C K . Frecvenele asociate acestor categorii sunt notate cu
O1 , O2 ,..., OK . Evident, O1 + O2 + ... + O K = N (adic volumul seleciei);
b) K probabiliti. Probabilitatea p k ca o observaie (arbitrar) s fie clasat n categoria
k este cunoscut i nu se modific de la o observaie la alta ( k = 1,2,..., K ). Evident,
p1 + p 2 + ... + p K = 1 . Frecvenele ateptate E1 , E 2 ,..., E K se calculeaz folosind formula
E k = N p k ( k = 1,2,..., K ). Evident, E1 + E 2 + ... + E K = N .
Oare datele observate confirm ateptrile? Evident, discrepane mari ntre datele
observate {Ok } i datele ateptate {E k } vor contrazice ipoteza de independen. Dar
problema major este urmtoarea: cum ar putea fi evaluate discrepanele?
Soluia propus de Karl Pearson (1857-1936, fondatorul revistei Biometrika) folosete
numrul
X2 =
k

1
(Ok E k )2
Ek

ca o distan. Din punct de vedere statistic, X 2 este o statistic adic o formul n care
apar datele obinute dintrun eantion a crei distribuie este aproximativ cea a lui
2 (K 1) i, prin urmare, se poate aplica un test de bonitate. Pragul dintre discrepanele
mici i discrepanele mari poate fi interpretat n termenii distribuiei 2 (K 1) .

n figura de mai sus acest prag a fost fixat inndu-se seam de un coeficient de ncredere
de 95% (ceea ce corespunde aici la un nivel de semnificaie de 0.95).
n practic, dac folosim Microsoft Excel, putem utiliza funcia CHITEST i s-i
interpretm valoarea returnat (adic valoarea p) ntrun mod special. Anume, valori
apropiate de 1 vor fi interpretate astfel: datele observate confirm ipoteza.
Nu este neaprat obligatoriu ca pragul s fie fixat att de aproape de 0. innd seam de
specificul distribuiei 2 (K 1) , pragul poate fi ales n jurul modului K 3, ceea ce
142

corespunde unei valori p de circa 0.5 0.6. De exemplu, s presupunem c datele colectate
de la cele 1000 de familii cu patru copii sunt urmtoarele:
Numrul de biei k
Numrul de familii cu 4 copii ce au
k biei (frecvena observat Ok )

Total

66

268

377

233

56

1000

Frecvena observat Ek

68

260

374

240

58

Diferena (Ok E k )

Valoarea p obinut (vezi figura urmtoare) este 0.963, ceea ce nseamn c datele
obinute din eantionul ales suport opinia c sexul celui de-al doilea nou nscut ntro
familie este statistic independent de sexul primului nscut n acea familie.

Prima aplicaie a testului de bonitate hi-ptrat dateaz din 1901, atunci cnd a fost
confirmat o teorie foarte important n genetic (aceasta deoarece doar n anul 1900 a
devenit cunoscut articolul publicat de Gregor Mendel n 1865!). Mendel a observat c
anumite caracteristici ale plantelor de mazre pot disprea la urmaii direci, dar reaprea la
urmaii din a doua generaie.
O explicaie plauzibil este bazat pe ideea c o caracteristic genetic a populaiei este
determinat n fiecare individ printro pereche de gamei, care sunt motenii cte unul de la
cei doi prini. Acum, dac fiecare dintre cele doi gamei ar putea lua doar dou valori
(numite alele) A i a, atunci un individ dat este fie homozigot (ceea ce nseamn c pentru el
cei doi gamei ai genei sunt identici, AA sau aa), fie heterozigot (cei doi gamei sunt
diferii). Atunci cnd doi indivizi homozigoi de alele diferite se ncrucieaz, toi urmaii
direci sunt heterozigoi identici (aceasta este legea uniformitii).
S admitem c acea caracteristic genetic este statura, cu doar dou valori posibile: nalt
i scund. Ipoteza este c indivizii cu gamei AA sau Aa (= aA) sunt nali, iar cei cu gamei
aa sunt scunzi (ceea ce nseamn c alela A este dominant).
ntro populaie n care alelele sunt distribuite echitabil, proporia de indivizi homozigoi
este

2
3
= 0.5 , iar proporia de indivizi nali este = 0.75 .
4
4

Dac proporia alelei dominante este , atunci proporia de indivizi homozigoi este
2 + (1 ) 2 , iar proporia de indivizi nali este 2 + 2(1 ) . Mai mult, proporiile celor
trei genotipuri AA, Aa (= aA) i aa sunt, respectiv:
2 , 2(1 ) , (1 ) 2 .
Principiul Hardy Weinberg afirm c proporiile diverselor genotipuri rmn aceleai
prin trecerea de la o generaie la urmtoarea (adic populaia este n echilibru).
Pentru a testa dac o populaie studiat este n echilibru, s presupunem c pentru 1000
indivizi, alei ntmpltor, au fost observate urmtoarele:
Genotipul
Frecvena observat

AA
799

Aa (= aA)
188

aa
13

Total
1000
143

Incidena alelei A (care este o estimaie a lui ) este evident


+1185
p = 2800
= 0.8925 .
21000

Prin urmare, se calculeaz urmtoarele frecvene ateptate:


Genotipul
Frecvena ateptat

Aa (= aA)
191.89
= 1000 2 p(1 p)

AA
796.56
= 1000 p 2

aa
11.56
= 1000 (1 p ) 2

Testul hi-ptrat produce o valoare p de 0.5251. Aceast valoare nu suport ipotez


populaia este n echilibru. (Ceea ce ar trebui s declaneze o investigaie suplimentar, cci
se presupune c populaiile sunt n echilibru din punctul de vedere al majoritii
caracteristicilor genetice.)
Mendel a obinut 556 plante pe care le-a clasificat n patru grupuri, dup dou
caracteristici:
Forma (cu valorile rotund/coluros),
Culoarea (cu valorile galben/verde).
Grupul
Frecvena observat

rotund i
galben
315

rotund i
verde
108

coluros
i galben
101

coluros
i verde
32

Total
556

De aici a dedus c rotund i galben sunt valorile determinate de alelele dominante A


respectiv B. Mendel a emis ipoteza c aceste alele (i cele recesive corespunztoare a
respectiv b) sunt distribuite echitabil n cadrul populaiei plantelor. Aadar ar trebui s ne
ateptm la urmtoarele:
Grupul

rotund i
galben

rotund i
verde

coluros i
galben

coluros
i verde

Proporia ateptat

9
16

3
16

3
16

1
16

Frecvena ateptat

312.75

104.25

104.25

34.75

Testul hi-ptrat d o valoare p de 0.9254, care este suficient de mare pentru a confirma
ipoteza lui Mendel.
Un test de bonitate hi-ptrat ar putea fi folosit pentru a confirma o distribuie presupus a
unei populaii, bazndu-ne pe datele obinute dintrun eantion ales aleator. De exemplu, de la
Adolphe Qutelet (1796-1874, statistician belgian; indicele de mas corporal BMI este
cunoscut i ca indicele Qutelet) se accept c cele mai multe dintre caracteristicile numerice
(cum ar fi nlimea sau greutatea) ale populaiilor biologice mari sunt aproximativ
distribuite normal. Un test hi-ptrat ar putea fi folosit pentru a confirma normalitatea.
De obicei datele numerice x1 , x 2 ,..., x N ( R ) obinute dintrun eantion de volum N sunt
grupate n K grupuri (sau cutii) determinate de K 1 valori de separare s1 < s 2 < ... < s K 1
iar frecvenele observate Ok se calculeaz cu uurin.
(Mai precis, valoarea xi este plasat n cutia k dac
s k 1 < xi s k , unde s 0 = i s K = + .)
S presupunem c populaia este distribuit normal, cu media i variana 2 . Este bine
x + x 2 + ... + x N
iar este
cunoscut faptul c este estimat prin media de eantion m = 1
N
estimat prin abaterea (deviaia) standard s =
144

( x1 m) 2 + ( x 2 m) 2 + ... + ( x N m) 2
.
N 1

Odat ce m i s au fost calculate, este uor s obinem o estimare a probabilitii ca o valoare


x s aparin intervalului ( s k 1 , s k ] :
pk =

1
s 2

sk

sk 1

( x m) 2
exp

2s 2

dx

iar de aici obinem frecvena estimat E k = p k N a cutiei k.


n Microsoft Excel avem la dispoziie funcia FREQUENCY pentru a obine frecvenele
observate Ok , apoi funciile AVERAGE i STDEV pentru a obine estimrile m respectiv s.
Ct despre probabilitile estimate p k , avem la dispoziie NORMDIST. n sfrit, CHITEST
va returna valoarea p.
n figura urmtoare este prezentat o foaie de calcul Excel. Au fost generate aleatoriu,
folosind generatorul RAND, 100 valori numerice. Care au fost grupate n 8 cutii. Valoarea
p este 0.07271, care nu ne confirm normalitatea datelor! Aceasta nu este surprinztor, dac
inem seama c funcia RAND a fost programat s genereze valori distribuite uniform (i nu
normal)!

Alte softuri produc diagrame care permit comparaii vizuale ntre histograma datelor din
eantion i un grafic al (densitii) distribuiei normale estimate. Decizia adic acceptarea
sau respingerea ipotezei c populaia este distribuit normal este lsat utilizatorului.
De exemplu, Statistica produce, din datele generate anterior, diagrama din figura
urmtoare.

145

(S ne dm seama de eroarea serioas pe care am fcut-o, intenionat, n exemplul de mai


sus. Pentru a o nelege i a nu o mai repeta, s ne amintim c fiecare test hi-ptrat este bazat
pe o statistic X 2 , care are doar aproximativ o distribuie hi-ptrat. Iar aproximarea este
bun doar dac frecvena ateptat pentru fiecare cutie este de cel puin 5!)
S sumarizm testul de bonitate hi-ptrat. El poate fi aplicat pentru orice distribuie univariat fie ea discret sau continu pentru care funcia de distribuie poate fi calculat.
Se presupune c ipoteza nul este:
(H0): datele urmeaz distribuia specificat
iar alternativa este
(Ha): datele nu urmeaz distribuia specificat.
Numerele reale sunt separate n K cutii, fiecare cutie fiind un interval ( sk 1 , sk ] care
conine cel puin o observaie. Statistica utilizat este
1
(Ok Ek )2
X2 =
Ek
k
n care Ok este frecvena observat pentru cutia k iar Ek este frecvena ateptat pentru acea
cutie, calculat prin folosirea formulei
Ek = N (( sk ) ( sk 1 )) .
Statistica X 2 este distribuit aproximativ 2 ( K C ) , unde C este 1 + numrul de
parametri care au fost estimai pentru distribuia respectiv.
Pentru a se obine o aproximaie bun se impune ca frecvena ateptat s fie de cel puin
5 pentru fiecare cutie. (Orice cutie cu frecvena ateptat mai mic dect 5 ar trebui comasat
cu o vecin a sa.)
n multe situaii practice, dac dorim s folosim o anumit metod, trebuie s fie
satisfcute unele condiii (a priori). De exemplu, o condiie des ntlnit este ca eantionul s
fie extras dintro populaie distribuit normal.
Testele de bonitate sunt instrumente adecvate confirmrii faptului c datele disponibile au
o distribuie specificat. Ceea ce vrem s confirmm este ipoteza nul:
(Ho): datele urmeaz o distribuie specificat complet de funcia de distribuie
F : R [0, 1]
i s respingem ipoteza
(Ha): datele nu urmeaz distribuia specificat, ci alta.
S presupunem c datele obinute din eantion
x1 , x2 ,..., x N
au fost ordonate cresctor:
x(1) x( 2) ... x( N ) .
n cazul unei funcii de distribuie F continue, pentru a aplica testul Kolmogorov-Smirnov
se calculeaz statistica urmtoare
n 1 n

D = max F ( x( n ) )
, F ( x( n ) ) .
1< n N
N N

n cazul unei funcii de distribuie F normale i al unui volum al eantionului ntre 10 i


40, pentru a aplica testul Anderson-Darling se calculeaz statistica urmtoare:
N

2n 1
ln F ( x( n) ) (1 F ( x( N +1n) )) .
n =1 N

A= N

Acceptarea unei teorii, n urma unui test de bonitate, bazndu-ne pe datele ce au fost
colectate dintrun eantion, este ntotdeauna o decizie personal. (Evident, creia i se ataeaz
un anumit risc!)
146

Pentru a susine o decizie subiectiv atunci cnd fie detaliile, fie timpul nu sunt
suficiente, se poate folosi aa-numitul quantile-quantile plot (sau q-q-plot). Acesta este o
diagram n care datele colectate, ordonate cresctor
x(1) x( 2) ... x( N )
sunt comparate cu datele
y1 y2 ... y N
care corespund distribuiei teoretice specificate n (H0). Mai precis,
n
F ( yn ) =
for n {1, 2, ..., N } .
N +1

Un punct n q-q-plot vezi figura anterioar pentru un exemplu (obinut cu SPSS)


reprezint o pereche ( x( n) , yn ) . Dac datele {xn } ar fi fost extrase din distribuia
specificat, atunci toate punctele s-ar fi situat exact pe diagonal. Prin urmare, ipoteza nul
va fi acceptat doar dac toate punctele sunt apropiate de diagonal.

147

Cursul 8. Eantionarea
Eantionarea este principala metod a statisticii, folosit evident pentru obinerea, de la
populaii mari, a unor valori dorite, necesare n procesele de luare a deciziilor, cum sunt de
exemplu evaluri ale proporiei mbolnvirii, ale mediei unei populaii, ale dispersiei.
Cursul are ca scop prezentarea
a) principalelor tehnici de eantionare, generale i specifice, folosite pentru a se
obine o certitudine ct mai mare a concluziilor,
b) modului n care se stabilete volumul unui eantion, n funcie de gradul de
certitudine pe care l-am dori,
c) metodelor de comparare a dou populaii, la nivelul proporiilor, mediilor sau
varianelor.
Coninutul acestui curs este urmtorul:
8.1. Tehnici de eantionare .......................................................................................
8.2. Distribuiile eantioanelor .................................................................................
8.3. Stabilirea volumului eantionului ......................................................................
8.4. Compararea a dou populaii .............................................................................
8.5. Compararea varianelor .....................................................................................

Adrese web utile:


www.oxfordradcliffe.nhs.uk/research/projects/documents/ medicalstatistics-online-help.pdf
www.tardis.ed.ac.uk/~kate/qmcweb/scont.htm

148

149
150
156
157
159

8.1. Tehnici de eantionare

Vom aborda n continuare problematica rezultatelor ce se obin n urma eantionrii, mai


precis a calculrii probabilitilor asociate statisticilor (ca formule!). Importana acestora va
fi evident n cursul urmtor (despre inferena statistic). Motivul principal pentru care
folosim eantionarea atunci cnd examinm indivizii unei populaii este costul (n timp sau
n bani), iar motive secundare ar putea constitui faptul c examinarea poate fi destructiv,
precum i dificultatea nsi a examinrii. n acest caz, ncercm s extindem ctre ntreaga
populaie rezultatele obinute din eantion. Exemplul cel mai familiar de eantionare ne este
oferit de sondajele de opinie (cu scop de informare politic sau social) n care doar o
proporie foarte mic a populaiei (ntre 1000-1500 de indivizi din totalul de 10-15 milioane)
este intervievat. n unele ri se practic sondaje i n domeniul medical, intervievndu-se
fie pacienii, fie medicii.
Problema alegerii volumului eantionului, apoi problema alegerii fiecrui individ din
eantion, necesit ambele o discuie ampl. Cci tehnicile sociologice nu sunt adecvate
ntotdeauna n medicin!
Eantionarea aleatoare simpl este poate cea mai elementar tehnic de obinere a unui
eantion. Ea presupune c fiecare individ al populaiei are aceleai anse, ca i oricare altul,
de a fi ales n eantion. Aplicabilitatea ei este posibil atunci cnd tuturor indivizilor
populaiei le sunt asociate, n mod univoc, numere. Din punct de vedere computaional
singura dificultate const n construirea unui generator de numere (pseudo)aleatoare. Odat
ce dispunem de un asemenea instrument, prin folosirea sa repetat se va decide care
indivizi ai populaiei vor fi inclui n eantion.
Dispunem astzi de multe metode de generare de numere (pseudo)aleatoare. Una dintre
acestea este implementat n Excel n funcia RAND; ea se bazeaz pe faptul c o anumit
secven de operaiuni aritmetice, efectuate modulo un numr prim foarte mare, repetat,
produce o secven de numere care pentru un neavizat pare ntmpltoare. Punctul de
pornire poate fi decis de momentul apelrii acestei funcii: datorit modului n care
funcioneaz ceasul intern al calculatorului, punctul de pornire este incontrolabil (n absena
controlului asupra ceasului).
Deseori populaia pe care o studiem este stratificat natural, straturile avnd dimensiuni
diferite. Eantionul pe care-l alegem este numit reprezentativ n caz c distribuia
indivizilor eantionului pe straturi reflect fidel distribuia pe straturi n cadrul populaiei.
Astfel, un eantion n care au fost selectai 120 de brbai i doar 60 de femei nu poate fi
considerat reprezentativ pentru populaia adult a rii. El poate fi considerat ns
reprezentativ n cazul n care indivizii selectai sunt suferinzi de o maladie despre care se tie
c are incidena dubl la brbai fa de femei.
Evident, n cadrul fiecrui strat se poate aplica o tehnic de selecie aleatoare simpl.
n cercetarea medical se obinuiete s se stratifice populaia pe de o parte dup sex, n
dou straturi, iar pe de alt parte dup categoria de vrst, n ase straturi:
sub 21 ani, 21-30 ani, 31-40 ani, 41-50 ani, 51-60 ani, peste 60 ani.
Evident, este posibil i stratificarea n 12 straturi, simultan dup sex i categoria de
vrst.
(n alte domenii de cercetare populaia se stratific i geografic, sau conform unor criterii
profesionale sau socio-economice.)
Exist diverse alte tehnici de eantionare, utilizarea crora depinde de scopul urmrit.
Astfel, n caz c suntem interesai n evaluarea unor modificri ce apar n timp, se poate
utiliza tehnica eantionrii n panel, ce const n investigarea repetat n timp a aceluiai
eantion.
149

De regul, n medicin se efectueaz dou tipuri eseniale de studii, n care se poate


practica eantionarea:
a) studii transversale (cross-sectional studies), prin care se ncearc obinerea unei
imagini de moment a populaiei studiate. Pot fi folosite pentru studierea asocierii ntre
diversele maladii;
b) studii prospective (prospective studies). Acestea mai poart numele de studii de
cohort, sau studii longitudinale. Sunt folosite pentru determinarea factorilor care sunt legai
de morbiditate.
8.2. Distribuiile eantioanelor

n cursul 4 am abordat principala problem a statisticii, cea a estimrii valorii unui


parametru care caracterizeaz o populaie mare pe baza datelor obinute dintrun
eantion. Am analizat situaia particular important a unei populaii distribuite normal
N(, 2 ) , care este caracterizat de parametrul bi-dimensional (, ) . n aceast situaie,
dac ne bazm pe datele obinute dintrun eantion de volum n, atunci estimarea parametrului
se face prin perechea (m, s) unde m este media aritmetic iar s este abaterea standard.
Evident, acceptnd c parametrul are (exact) valoarea m, facem o eroare. Aproape cu
siguran valoarea m nu coincide cu adevrata valoare a parametrului . Ceea ce tim ns
despre valkoarea m, considerat ca variabil aleatoare M, anume c este distribuit normal,
2
c E (M ) = i c Var ( M ) = , ne permite s desenm distribuia valorilor i s
n
observm c, odat cu creterea volumului eantionului, valorile posibile ale lui M se vor
strnge n jurul lui .
Ar fi mai bine dac am estima pe nu prin valoarea partiucular m obinut din eantion,
ci printrun interval mic; aproape cu siguran nu am grei!
S considerm un alt exemplu, n care pornim de la o situaie cunoscut. Anume, s
ncercm s estimm proporia a brbailor n populaia cetenilor rii. (Dorim
exemplificarea metodei, pentru c datele de recensmnt ne spun c aceast proporie este de
aproximativ 0.49!) Estimarea o vom face bazndu-ne pe identificarea sexului a 10 persoane
alese aleator n eantion.
Este posibil ca n eantion s gsim doar un brbat, n care caz proporia de eantion
p=

1
10

= 0.1 va fi foarte departe de proporia adevrat. Este evident, ansele ca s

selectm un asemenea eantion sunt reduse (mai mici de 1%). Cele mai mari anse (de
aproape 25%) sunt ataate situaiei n care n eantion vom avea 5 brbai i 5 femei; n
aceast situaie proporia de eantion p =

1
50

= 0.5 va constitui o estimare destul de bun

(precis) a proporiei adevrate .


Dac acceptm ca bune doar estimrile p = 0.4 , p = 0.5 i p = 0.6 , cu alte cuvinte
vom accepta o marj de eroare de 0.1, constatm c ansele ca din eantioane alese aleator
s obinem asemenea proporii sunt de 65.6% (pentru evaluare am folosit funcia
BINOMDIST din Excel, mai precis formula
=BINOMDIST(6;10;0,5;TRUE)BINOMDIST(3;10;0,5;TRUE)).
Restul de 34.4% eantioane posibile vor produce estimri p < 0.4 sau p > 0.6 . Concluzia
este clar: folosirea unui eantion de volum 10 pentru estimarea proporiei este foarte
riscant!
150

S relum evalurile pentru eantioane de volum n = 100, alese evident aleator. De data
aceasta putem estima mai fin proporia .
S acceptm ca estimri bune pe cele ntre 0.4 i 0.6 (marja de eroare = 0.1). ansa ca
din eantionul ales aleator s obinem o proporie ntre 0.4 i 0.6 o putem evalua (cu ajutorul
funciei BINOMDIST) la 96.5%. Aadar, doar din 3.5% dintre eantioane vom obine
proporii deprtate de cea adevrat.
Dac vom accepta c estimrile bune sunt doar cele ntre 0.47 i 0.53 (adic vom
aceepta o marj de eroare de 0.03), atunci vom avea 51.6% anse ca din eantion s obinem
o asemenea estimare. Riscul de a se obine o proporie necorespunztoare este de 48.4%.
Concluzia este clar: folosirea unui eantion de volum 100 pentru estimarea proporiei este
destul de lipsit de riscuri dac precizia estimrii este mic, dar devine foarte riscant dac
dorim o precizie ridicat a estimrii.
S considerm acum eantioane de volum n = 1000, acceptnd c estimri bune sunt
cele ntre 0.47 i 0.53 (marja de eroare = 0.03). De data aceasta ansele ca s obinem o
proporie bun din eantionul ales aleator sunt de 94.6%. Concluzia este c putem obine
fr riscuri prea mari o precizie ridicat a estimrii.
Rezumm evalurile anterioare n urmtorul tabel:
Volumul eantionului
10
100
1000
Marja de eroare
0.1
0.1
0.03
0.03
Riscul
34.4%
3.5%
48.4%
5.4%
S revenim la principala problem a statisticii, n cazul general. S ne imaginm c am
putea genera multe dintre eantioanele posibile (eventual pe toate) i c le-am putea analiza.
Evident, o distribuie de eantionare este rezultatul (pur teoretic al) diferitelor
eantionri posibile. Punctul de plecare este o populaie a crei distribuie de probabilitate
este cunoscut. Presupunem c extragem un mare numr de eantioane, fiecare de volum n
(acelai pentru toate). Pentru fiecare eantion extras presupunem c vom calcula valoarea
unei statistici. (Reamintim c prin statistic nelegem o formul de calcul cu datele ce
provin de la un eantion.) Ne va interesa distribuia valorilor calculate.
Primul caz pe care-l abordm este cel al unei populaii de numere distribuite normal, cu
media i variana 2 (ambele presupuse cunoscute). Valorile posibile x pot fi considerate
ca fiind valorile unei variabile aleatoare normale N(, 2 ) . Pentru fiecare eantion de volum
n, din care obinem valorile x1, x2 ,..., xn , s calculm media de eantion
x + x + ... + xn
m= 1 2
.
n
Eantioanele extrase vor produce astfel o populaie a acestor medii de eantion, avnd o
anumit distribuie.
S notm cu M variabila aleatoare asociat distribuiei mediilor de eantion. Pot fi
demonstrate o serie de rezultate interesante, dintre care menionm:
1) media variabilei M (cu alte cuvinte, media distribuiei eantioanelor de volum n)
coincide cu media a populaiei din care extragem eantioanele:
E (M ) = ;
2) variana variabilei M este legat de variana 2 a populaiei din care extragem
eantioanele prin relaia:

Var ( M ) =

151

Deviaia standard a variabilei M, cunoscut i sub numele de eroarea standard a mediei,

este definit prin: M =


.
n
Rezultatul fundamental teoretic, aplicabil n aceast situaie, este cunoscut sub numele de
teorema limit central:
Dac se extrag eantioane de volum n dintro populaie, atunci pentru valori mari ale lui
n mediile de eantion sunt distribuite (aproximativ) normal.
n caz c X are o distribuie normal N(, 2 ) , atunci M are o distribuie normal
N(,

) . Iar dac variabila aleatoare X este distribuit aproximativ normal, atunci M va fi


n
distribuit normal chiar i pentru valori mici ale lui n. Aadar, ca o consecin a teoremei
limit central, putem accepta c M este (aproximativ) normal.
Ceea ce tim despre distribuiile normale ne ndreptete s afirmm c 99.7% dintre

mediile de eantion m se vor afla ntre limitele 3


i + 3
.
n
n
S atragem atenia asupra faptului c teorema limit central este obinut n ipoteza c
sunt cunoscui parametrii i 2 ai populaiei originare.

Aceast ipotez nu corespunde realitii. Totui, nimic nu ne mpiedic, cu riscul de


rigoare, s estimm parametrul i/sau parametrul pe baza datelor pe care le obinem
dintrun eantion particular, anume prin media de eantion m i respectiv prin abaterea
standard de eantion s.
Inversnd raionamentul anterior, putem concluziona c avem anse 99.7% ca adevrata
s
s
medie a populaiei originare s se afle ntre limitele m 3
i m + 3
.
n
n
Am folosit de cteva ori cuvntul parametru. De fapt, prin parametru al unei populaii
nelegem un numr ce descrie, ntrun anumit sens, populaia. Acest termen este contrapus
celui de statistic, prin intermediul cruia descriem populaia printrun numr calculat pe baza
datelor provenite dintrun eantion. Raportul parametru-statistic este de aceeai natur cu
raportul probabilitate-frecven relativ n legtur cu un eveniment.
152

Putem afirma aadar c parametrul unei populaii este estimat printro statistic, la fel
cum afirmm c probabilitatea unui eveniment este estimat printro frecven relativ.
n cele de mai sus am estimat parametrul mai nti prin m, apoi prin intervalul

s
s
, m+3
m 3
. Estimarea unui parametru poate fi fcut fie printrun numr (ceea ce
n
n

nseamn estimare punctual), fie printrun interval.


Este destul de larg rspndit astzi practica estimrii prin intervale de ncredere.
Cazul cel mai simplu este cel al unei populaii (cu alte cuvinte, variabile aleatoare) X care
are media necunoscut, iar variana 2 cunoscut. Parametrul n acest caz este . Lund
un eantion de volum n, tim c media de eantion m este distribuit aproximativ normal, cu
2
media i variana
. (S ne amintim c dac populaia nu este distribuit normal,
n
atunci o aproximare bun impune un volum n mare.)

ansele ca media s fie ncadrat de limitele m 1.96


i m + 1.96
sunt de 95%.
n
n
Figura de mai jos ne ajut s facem legtura ntre coeficientul de ncredere (aici 95%) i aria
cuprins sub graficul densitii de probabilitate, ntre limite.
Suntem 95% siguri c parametrul se afl undeva ntre limite. De aceea, se spune despre


intervalul m 1.96
, m + 1.96
c este intervalul de ncredere 95% pentru
n
n

parametrul .
De obicei coeficientul de ncredere se alege 95%, de aceea am i insistat asupra acestei
valori.

Dac am fi ales un coeficient de ncredere de doar 90%, atunci intervalul de ncredere

, m + 1.65
. Dimpotriv, un coeficient de ncredere
90% s-ar fi micorat la m 1.65
n
n

de 99.7% ne-ar fi condus la un interval de ncredere (99.7%) mult mai larg. Mrirea
coeficientului de ncredere are ca rezultat o diluare a preciziei identificrii parametrului!
Trebuie s atragem atenia asupra unei greeli logice pe care o facem din instinct, atunci
cnd afirmm c suntem 95% siguri c parametrul se afl undeva n intervalul de
ncredere 95%. Da fapt, ceea ce tim este c pe baza a 95% dintre eantioanele posibile vom
reui s crem intervale ce vor conine parametrul , iar intervalele pe care le vom crea pe
baza celorlalte eantioane nu vor conine pe . Cu alte cuvinte, 95% dintre eantioane vor
produce estimri corecte, iar 5% vor produce estimri greite (adic 5% este riscul de a grei
bazndu-ne estimarea lui pe un eantion).
153

Exemplu. S considerm o populaie distribuit uniform U[0, 1] . tim c media ei este


1
2

= , iar variana este 2 =

1
12

Dac extragem un eantion de volum n = 12 , atunci media de eantion m va fi aproape


de

1
,
2

iar abaterea standard de eantion va fi

1
12

. Exploatnd faptul c distribuia mediei de

eantion m este aproximativ normal, cu media

1
2

i abaterea standard

1
12

, putem afirma

urmtoarele:
Dac dispunem de un generator de numere (pseudo)aleatoare uniforme n [0, 1] aa cum
este RAND n Excel prin folosirea sa de 12 ori succesiv obinem numerele u1 , u2 ,..., u12 .
Calculnd
g = u1 + u 2 + ... + u12 6
putem afirma c g este un numr (pseudo)aleator normal standard.
Ipoteza simplificatoare pe care am acceptat-o anterior anume c variana 2 a
populaiei este cunoscut este implauzibil. Mult mai plauzibil pare ipoteza c atunci cnd
media nu este cunoscut, nici variana 2 nu este cunoscut.
Evident, ne putem gndi s nlocuim pe cu abaterea standard s obinut exploatnd
datele ce provin dintrun eantion. ns, dac facem aceast nlocuire, apare o dificultate
suplimentar: distribuia valorilor m provenite din eantioane nu mai este normal, prin
urmare exploatarea proprietilor distribuiei normale nu mai este posibil!
Se poate demonstra ns un alt rezultat, valabil pentru o populaie distribuit normal
N(, 2 ) . De data aceasta avem de-a face cu doi parametri, i 2 , care descriu (teoretic)
populaia. Rezultatul este urmtorul:
m
este
dac extragem eantioane de volum n din populaie, atunci statistica t =
s/ n
distribuit Student cu n 1 grade de libertate.
Evident, n formula de mai sus,
n

m = xk n i s =
k =1

1 n
( xk m ) 2 ,

n 1 k =1

iar x1, x2 ,..., xn sunt valorile obinute din eantionul de volum n.


Exploatnd acum ceea ce tim despre distribuiile Student, s alegem gradul de ncredere
90%. Exist un unic numr pozitiv t0.05 astfel nct aria de sub graficul densitii de
probabilitate, ntre limitele t 0.05 i t 0.05 , s fie egal cu 0.90. Acest numr t 0.05 l putem
gsi de exemplu cu Excel apelnd
TINV(0.05, numrul de grade de libertate).
S ne aducem aminte c pentru un numr de grade de libertate 30 , distribuia Student
t () coincide practic cu distribuia normal standard, valoarea t0.05 este practic 1.65, iar
toate complicaiile anterioare devin superflue. Pentru n 30 putem adopta fr probleme
intervalul de ncredere 90% obinut pe baza distribuiei normale (i a nlocuirii lui cu s).
Totui, n medicin ntlnim cel mai adesea eantioane mici, cu numr de indivizi sub 30,
ceea ce face util cunoaterea modului de obinere a intervalelor de ncredere pentru media
pe baza distribuiei Student.
154

n consideraiile anterioare, una dintre ipotezele fundamentale a fost normalitatea


distribuiei populaiei. Deseori ntlnim populaii despre care nu are sens aceast
presupunere. Cazul tipic este cel al unei populaii biologice ai crei indivizi fie sunt imuni,
fie nu sunt imuni fa de atacul unui virus. Problema de interes este determinarea proporiei
imunitii . De data aceasta, n locul variabilei aleatoare N(, 2 ) avem de-a face cu o
variabil aleatoare Bernoulli Be() .
Acest numr poate fi considerat acum parametrul care descrie teoretic populaia.
Evident, folosind datele ce sunt obinute dintrun eantion de volum n, parametrul poate
x
fi estimat prin statistica frecvena relativ de eantion p = n care x este numrul de
n
succese constatat la indivizii eantionului.
tim c numrul de succese x este distribuit binomial b(n, ) aceasta n ipoteza c
alegerea unui individ n eantion este independent de alegerea celorlali iar distribuia
x
este
binomial b(n, ) are media n i variana n(1 ) . De aici rezult c i p =
n
(1 )
distribuit binomial, cu media i variana
. Pentru obinerea unui interval de
n
ncredere, vom folosi faptul c distribuiile binomiale sunt bine aproximate prin distribuii
normale (de aceeai medie i varian) bineneles, n anumite condiii restrictive.
S reamintim aceste condiii: 0.1 < < 0.9 , n 5 , n(1 ) 5 i s le presupunem
ndeplinite. Concluzionm c p (frecvena relativ de eantion) este distribuit aproximativ
(1 )
normal N ,
.
n

Alegnd un grad de ncredere de 95%, rezult c intervalul de ncredere 95% pentru

p(1 p)
p(1 p)
parametrul este urmtorul: p 1.96
, p + 1.96
unde p este
n
n

frecvena relativ a succeselor calculat pe baza datelor din eantion.


Exemplu. Dorim s estimm procentul pacienilor operai de apendicit n spitalul
judeean, care au necesitat o spitalizare mai lung de 4 zile. Folosim datele unui eantion de
150 de pacieni, dintre care 15 au necesitat spitalizare peste 4 zile.
15
Evident, procentajul dorit este estimat la p =
100% = 10% , iar n = 150 .
150
Ce ne ofer n plus teoria estimrii prin intervale de ncredere? S ne alegem un interval
de ncredere 95%. Variana estimatorului este
0.1 0.9 0.9
Var ( p) =
=
150
150
iar pentru intervalul de ncredere 95% vom folosi coeficientul 1.96. Prin urmare,
0.1 1.96

0.9
150

< < 0.1 + 1.96

0.9
150

adic 5.2% < < 14.8% , ceea ce nseamn c putem fi aproape siguri c sub 15% dintre
pacieni vor necesita spitalizare de durat peste 4 zile.
Observaie: condiiile de aproximare sunt satisfcute!
Exerciiu. A fost decelat prezena unei bacterii infecioase la 8 pacieni dintrun eantion
de 40 de pacieni (alei aleator) dintrun spital. n spital sunt n jur de 500 de pacieni.
Estimai, cu ncredere 95% procentajul pacienilor spitalului afectai de bacterie.

155

Formula de evaluare a varianei frecvenelor relative presupune c populaia este infinit


(sau foarte mare). n cazul unei populaii mici avnd un numr de N indivizi, formula
trebuie modificat n urmtoarea
p (1 p ) N n
Var ( p ) =

n
N 1
N n
putnd modifica sensibil evalurile.
factorul de corecie
N 1
n literatura de specialitate se ntlnete notaia x pentru media de eantion (n loc de m)
atunci cnd X este notaia variabilei aleatoare continue (nu neaprat distribuite normal), cu

media i variana 2 . De asemenea, eroarea standard a mediei de eantion x , adic


,
n
este notat cu SE (x ) , iniialele provenind de la standard error.
Aceast denumire este preferat atunci cnd nu dorim s facem confuzie ntre numrul

ca abatere standard de eantion i numrul care este abaterea standard a variabilei


n
aleatoare X.

8.3. Stabilirea volumului eantionului


S observm c att n cazul mediei , ct i n cazul proporiei , prin folosirea datelor
unui eantion am obinut dou estimri:
a) o estimare punctual m, respectiv p;
b) o estimare printrun interval de ncredere (bineneles, alegnd anterior coefi-cientul de
ncredere).
Intervalul de ncredere este centrat pe estimarea punctual. Lungimea sa depinde de
coeficientul de ncredere, de volumul eantionului i de varian. Dac notm lungimea sa cu
2L, unde L este marja de eroare, atunci l vom putea exprima astfel:
m < L , respectiv p < L

(vezi figura urmtoare).

Estimarea valorii parametrului , ca proporie a succesului, printrun interval de


ncredere 95% determinat prin folosirea datelor unui eantion prea mic ar putea conduce la
un interval mult prea mare pentru a putea fi folosit n luarea deciziilor.
Ar fi interesant s punem problema n alt mod: s determinm volumul unui eantion care
s permit obinerea unui interval de ncredere suficient de ngust.
n aceast abordare se presupune astfel c a fost ales att coeficientul de ncredere c%
pentru estimarea unui interval de ncredere (centrat pe estimarea punctual p), ct i limita
L a erorii de estimare, aceasta din urm fiind valoarea absolut a diferenei p (ntre
estimarea punctual i valoarea parametrului).
n consecin, intervalul de ncredere c% va fi [ p L, p + L] .
De exemplu, pentru coeficientul de ncredere 90% va trebui s rezolvm ecuaia:
156

p (1 p )
=L
n
n care p este proporia succeselor n eantionul ce va fi ales. De aici se obine cu uurin
volumul eantionului:
1.652 p (1 p )
.
n=
L2
Produsul p (1 p) are ca valoare maxim 0.25. Prin urmare, volumul eantionului poate
fi determinat (n situaia cea mai nefavorabil) din formula
1.652 0.25
.
n=
L2
1.652 0.25
= 1639 , cu alte cuvinte, va
S lum ca un caz particular L = 2% . Rezult n =
0.02 2
trebui s investigm un eantion de 1639 indivizi pentru a ne asigura c vom obine o
estimare precis a proporiei.
Este destul de evident c aceast tehnic este aplicabil doar rareori n medicin!
S rezumm felul n care se stabilete intervalul de ncredere. Odat ales coeficientul de
ncredere c%, din tipul distribuiei eantioanelor (normal, Student, ) va fi determinat un
factor c (n exemplele anterioare acesta era 1.65, 1.96 etc.). Apoi, folosind datele
provenite din eantion se va face o estimare punctual e a parametrului (n exemplele
anterioare m pentru media , p pentru proporia ) i de asemenea o evaluare d a
mprtierii. Intervalul de ncredere c% va avea forma
[e c d , e + c d ] .
Coeficientul de ncredere c% este apropiat de 100%. Deseori el este nlocuit prin
100 c% , procent apropiat de 0, care poart numele de nivel de semnificaie. Vom reveni.

1.65

8.4. Compararea a dou populaii


n aceast seciune vom extinde metodele de estimare pentru situaii n care scopul
principal este cel de a compara dou populaii (ceea ce poate nsemna dou straturi ale
aceleiai populaii, sau aceeai populaie examinat la dou momente de timp). Comparaia
poate fi fcut la nivelul mediilor (atunci cnd datele sunt cantitative) sau la nivelul
proporiilor (atunci cnd datele sunt calitative). Ca exemple tipice, pentru prima situaie
putem considera rezultate (numerice) de laborator care stabilesc nivelul scderii
colesterolului n snge ca efect al folosirii a dou medicamente diferite, iar pentru a doua
situaie, efectul folosirii unui medicament ntritor exprimat prin procentajul indivizilor la
care acest medicament are efect. Evident, eantioanele pe care le investigm pot avea acelai
volum sau nu.
S presupunem c din prima populaie, distribuit (aproximativ) normal cu parametrii 1
i 12 , extragem un eantion de volum n1 i, pe baza datelor obinute din acestea, calculm
media de eantion m1 i variana de eantion s12 . n mod analog, din a doua populaie,
distribuit i ea (aproximativ) normal cu parametrii 2 i 22 , extragem un eantion de
volum n2 i calculm media de eantion m2 i variana de eantion s22 .
Compararea populaiilor fcndu-se prin medii, va trebui s estimm, printrun interval de
ncredere, diferena 1 2 , care este estimat punctual prin diferena m1 m2 .
157

Aadar, va trebui s analizm distribuia diferenelor m1 m2 provenite din dou


eantioane cumulate, mai precis s evalum variana acestei distribuii.
Se poate stabili c pentru eantioane mari (avnd cel puin 30 de indivizi), aceast
s12 s22
12 22
varian este egal cu
+
, aadar este estimat prin
+ . Intervalul de ncredere
n1 n2
n1 n2
95% pentru diferena 1 2 va fi urmtorul:
[m1 m2 L, m1 m2 + L]
s12 s22
.
unde L = 1.96
+
n1 n2

Pentru cazul n care cel puin unul dintre eantioane este mic (are cel mult 30 de
indivizi), formula de estimare a varianei este ceva mai complicat.
Exemplu. Pentru a putea compara ntre ele dou medicamente ce reduc nivelul
colesterolului n snge (cauza principal a atacurilor de cord), a fost efectuat un studiu
preliminar.
n cazul acestuia au fost selectai 64 de brbai, aleatoriu dintrun total de 220 pacieni
avnd nivel ridicat de colesterol. Dintre acetia, 33 au folosit medicamentul A, iar ceilali 31
au folosit medicamentul B timp de trei sptmni.
Msurndu-se scderea procentual a nivelului colesterolului, s-au obinut urmtoarele
rezultate:
Medicamentul A
Medicamentul B
n1 = 33
n2 = 31
m1 = 5.4%
m2 = 4.9%
s1 = 1.2%
s 2 = 1.6%
Pe baza acestor date, s estimm printrun interval de ncredere 95% diferena ntre
scderile procentuale determinate de cele dou medicamente. Diferena m1 m2 este de
0.5%, iar semi-lungimea intervalului de ncredere este L = 1.96

1.22 1.6 2
+
0.7% , prin
33
31

urmare acest interval este [0.2, 1.2] .


S abordm acum cazul n care compararea populaiilor se face prin proporii i s
ncercm s estimm diferena 1 2 prin intervale de ncredere. Evident, ea este estimat
punctual prin p1 p2 .
Independena eantioanelor ne conduce la urmtoarea formul a varianei
(1 1 ) 2 (1 2 )
+
Var ( p1 p2 ) = 1
n1
n2
p (1 p1 ) p2 (1 p2 )
aadar la estimarea Var ( p1 p2 ) = 1
+
.
n1
n2
Intervalul de ncredere 95% pentru diferena 1 2 va fi aadar
[ p1 p2 L, p1 p2 + L]

unde L = 1.96

158

p1 (1 p1 ) p2 (1 p2 )
.
+
n1
n2

8.5. Compararea varianelor


Atunci cnd comparm ntre ele dou populaii distribuite normal, comparaia se poate
face la nivelul mediilor 1 i 2 i/sau la nivelul varianelor 12 i 22 (vezi figura
urmtoare).

n cazul comparrii mediilor este utilizat de obicei diferena 1 2 , care poate fi


pozitiv sau negativ.
Cazul comparrii varianelor trebuie tratat ns altfel, ntruct varianele sunt ntotdeauna
pozitive!
2
Se obinuiete s se ia n considerare raportul 1 2 . Evident, n situaia n care cele
2
dou variane sunt de valori apropiate, raportul lor este apropiat de 1.
n studiile care sunt fcute asupra unei populaii avem uneori de-a face cu dou
eantioane diferite alese n moduri independente unul de cellalt. Din primul, de volum n1 ,
obinem o medie de eantion m1 i o varian de eantion s12 , ca estimri pentru parametrii
i 2 . Din al doilea eantion, de volum n2 , obinem o medie de eantion m2 i o varian
de eantion s22 , acestea fiind i ele estimri pentru parametrii i 2 , la fel de bune ca i
estimrile obinute din primul eantion. Ar trebui s ne ateptm la valori aproximativ egale
pentru m1 i m2 , ca i pentru s12 i s22 .
S ne imaginm c putem cumula cele dou eantioane, obinnd astfel un eantion
global de volum n1 + n2 . Instinctiv apreciem c media de eantion, care se calculeaz cu
formula
nm +n m
m= 1 1 2 2
n1 + n2
(aadar ca medie a lui m1 i m2 , ponderat cu volumele eantioanelor respective) va
constitui o estimare mai bun pentru parametrul .
Putem oare avea ncredere n aceast apreciere instinctiv? Problema nencrederii apare
atunci cnd varianele de eantion s12 i s22 difer mult ntre ele, cu alte cuvinte atunci cnd
2
raportul s1

difer mult de 1. n situaii de acest fel nclinm s credem c alegerea celor


s22
dou eantioane s-a fcut necorespunztor, este ca i cum eantioanele ar fi fost alese din
populaii diferite.
159

Ce nseamn difer mult de 1 poate fi precizat prin intermediul obinuitului coeficient


2
de ncredere. Iar intervalul de ncredere 95% se obine tiind c raportul s1 2 are o
s2
distribuie Fisher-Snedecor cu n1 1 i n2 1 grade de libertate.
De menionat faptul c intervalul de ncredere 95% este stabilit pentru raportul varianelor
12

22

i are forma:
s12 1 s12
f ' 2 , 2
s2 f s2

unde numerele f i f ' (care depind evident de coeficientul de ncredere, dar i de numrul
gradelor de libertate) pot fi obinute n Excel apelnd
FINV(0.025, n1 1 , n2 1 ) respectiv FINV(0.025, n2 1 , n1 1 ).
Figura urmtoare ne exemplific aceste numere ( f = 2.65 , f ' = 2.86 ) pentru situaia unor
eantioane de volume 15 i respectiv 20 indivizi.

160

Cursul 9. Testarea de semnificaie statistic


Atunci cnd apare un fenomen nou, oamenii raionali ncearc s-i detecteze cauzele,
bazndu-se pe experiena proprie i formeaz opinii i avanseaz diverse ipoteze care li se
par plauzibile. Ulterior, n urma observrii altor apariii ale fenomenului, unora dintre aceste
ipoteze le crete veridicitatea, altora le scade veridicitatea, fiind posibil chiar s se renune la
ele; ntrun cuvnt, plauzibilitatea fiecrei ipoteze explicative este reevaluat.
Testarea de semnificaie statistic este o metod de stabilire a gradului de plauzibilitate a
unor afirmaii fcute asupra parametrilor unei/unor populaii. Se refer la un anumit tip
special de ipoteze cunoscute sub numele de ipoteze statistice i folosete intensiv datele
obinute dintrun eantion.
Cursul prezint, prin exemple tipice, cteva tipuri importante de testare de semnificaie
statistic: testele Student, testele Z, testele hi-ptrat.
Coninutul acestui curs este urmtorul:
9.1. Inferena adevrurilor tiinifice: teste de semnificaie ...................................
9.2. Relaia ntre ipoteza alternativ i ipoteza nul n testarea ipotezelor ............
9.3. Testarea ipotezelor, abordarea clasic .............................................................
9.4. Exemplu: compararea mediilor .......................................................................
9.5. Compararea mediilor, abordarea practic .......................................................
9.6. Exemplu: compararea proporiilor ..................................................................

162
163
165
166
175
176

Adrese web utile:


www.socr.ucla.edu/Applets.dir/ChoiceOfTest.html
en.wikipedia.org/wiki/Statistical_hypothesis_testing
(/Statistical_significance)
www.quantitativeskills.com/sisa/statistics/t-thlp.htm
www.stat.tamu.edu/stat30x/notes/node170.html

161

9.1. Inferena adevrurilor tiinifice: teste de semnificaie


Cunoaterea uman se mbuntete continuu; cercettorii tiinifici dobndesc cu fiecare
zi ce trece noi cunotine. Care le sunt metodele?
Atunci cnd apare un fenomen nou, oamenii raionali ncearc s-i detecteze cauzele, i
avanseaz diverse ipoteze care li se par plauzibile. Ulterior, n urma observrii altor apariii
ale fenomenului, unor ipoteze le crete, altora le scade veridicitatea, fiind posibil chiar s se
renune la ele; ntrun cuvnt, plauzibilitatea fiecrei ipoteze explicative este reevaluat.
Testarea de semnificaie statistic este o metod de stabilire a gradului de plauzibilitate
(veridicitii?). Particularitatea sa este limpede: se refer la un anumit tip special de ipoteze,
cunoscute sub numele de ipoteze statistice.
ntro abordare de bun sim, a testa o anumit presupunere (adic o ipotez) creia
experiena noastr personal ne spune s-i acordm crezare, este uor de explicat: admitem
c ipoteza ar fi adevrat, apoi comparm observaiile (adic datele obinute din lumea real)
cu consecine logice ale ipotezei noastre. Dac observaiile de care dispunem sunt
compatibile cu consecinele la care ne ateptm, atunci vom continua s credem i n cele
mai multe cazuri ne vom ntri credina n presupunerea noastr. Evident, dac ceea ce
observm nu se potrivete suficient de bine cu ateptrile noastre, atunci credina noastr
n validitatea presupunerii va scdea, uneori att de mult nct vom respinge cu totul
presupunerea fcut.
(Trebuie s subliniem aici ct de vagi sunt afirmaiile din paragraful precedent: nelesul
precis al sintagmei suficient de bine este lsat la latitudinea cititorului. La fel i
responsabilitatea oricrei consecine neplcute pe care ar putea-o avea o decizie greit!)
Evident, ipotezele avansate de ctre cercettorii tiinifici sunt cunoscute ca ipoteze
tiinifice. Efectuarea unui test de semnificaie (cunoscut i sub numele de testarea
ipotezelor) este o metod folosit pentru a testa o presupunere, n care credem, despre o
ntreag populaie, prin folosirea datelor obinute dintrun eantion. n general, rezultatul unui
test de semnificaie este exprimat printrun numr. Acest numr reflect ct de plauzibil este
ideea c valoarea unei anumite statistici descriptive care este calculat din datele obinute
din acel eantion ar putea proveni dintrun eantion aleator.
Abordarea iniial a lui Robert A. Fisher (publicat n cartea Statistical Methods for
Research Workers n anul 1925!) a fost dedicat cercettorilor tiinifici: validitatea unei
ipoteze tiinifice este stabilit pe baza unui singur test, cu opiunea de a nu emite o judecat
definitiv atunci cnd rezultatul nu este suficient de limpede. n aceast abordare sunt
posibile doar dou opiuni: fie vom respinge ipoteza nul, fie vom amna decizia (nu sunt
suficiente date pentru a trage vreo concluzie).
Despre medici se poate spune c destul de rar sunt cercettori; din contra, cea mai mare
parte a activitii lor const n luarea de decizii. De regul, oamenii care iau decizii (agenii
decizionali) le iau bazndu-se pe informaii pariale, limitate. Un om raional ncearc s
minimizeze costul deciziilor greite. Abordarea sa, atunci cnd este confruntat cu alegerea
ntre dou ipoteze aflate n competiie, este clar: va alege una, iar decizia de alegere va fi
luat pe baza informaiilor obinute anterior din eantioane.
Fie n postura de cercettor tiinific, fie n cea de agent decizional, vom fi n msur de a
lua decizii raionale n urma efecturii unui test de semnificaie doar atunci cnd vom
nelege pe deplin esena acestor teste. Aceasta implic dou aspecte:
1) Pe de o parte, va trebui s nelegem la ce tip de probleme testele de semnificaie ofer
(cel puin parial) rspunsuri, iar
162

2) Pe de alt parte, va trebui s nelegem natura informaiilor pe care ni le ofer aceste


teste.
Din punctul de vedere al nelegerii lumii nconjurtoare, dar i din punctul de vedere al
logicii, abordarea lui Fisher este uor de explicat: ipotezele tiinifice se refer la populaii
teoretice, care au de obicei un numr infinit de indivizi i sunt reprezentate de distribuii
continue. O ipotez tiinific este nlocuit printro ipotez statistic, exprimat prin
intermediul parametrului acelei populaii (cum ar fi proporia, media etc.). Valoarea
parametrului este estimat prin exploatarea datelor obinute dintrun eantion extras din
populaie, apoi este comparat cu o valoare ateptat. Discrepana dintre cele dou va
influena credina noastr n validitatea ipotezei tiinifice.
Ipoteza statistic asociat ipotezei tiinifice este bazat, astfel, pe un eantion mic
extras dintro populaie finit (posibil mare). O prim eroare ce poate fi fcut i are
originea n identificarea ipotezei tiinifice cu cea statistic asociat. Totui, atunci cnd
folosim metodele statisticii, identificm de fapt aceste dou ipoteze i ncercm s evalum
riscul erorilor pe care le-am putea face.
Cercettorii tiinifici folosesc pe scar larg un raionament incorect n logica clasic
numit n latin abductio:
H O , O
H
i un altul corect n logica clasic numit modus tollens:
H O , O
H
Aici litera H reprezint o ipotez tiinific, iar litera O reprezint observaia. n ambele
raionamente de mai sus implicaia H O este considerat a fi o cunotin dobndit,
adic este acceptat ca absolut sigur.
Evident, faptul c observm O ne sporete credina n ipoteza H (totui, nu ne
garanteaz c H ar fi valid, nici adevrat), iar observarea lui O exclude pe H din
rndul ipotezelor valide. Aadar, n logica clasic nu putem demonstra o ipotez (ca fiind
adevrat) dar o putem exclude. Din acest punct de vedere clasic, un adevr tiinific este
o afirmaie care are o foarte mic probabilitate de a fi dovedit ca incorect n viitor (Karl
Popper, The Logic of Scientific Discovery ,1959).
Pe scurt, ideea testrii ipotezelor (adic a testelor de semnificaie) este simpl: ipoteza
statistic va servi ca alternativ la o alt ipotez aa-numita ipotez nul care este luat
n considerare doar pentru a fi respins. Prin acceptarea adevrului ipotezei nule vor rezulta
anumite consecine statistice, iar acestea vor fi confruntate cu datele observate. Orice dovad
aflat n contradicie cu ipoteza nul va servi ca justificare a alternativei.

9.2. Relaia ntre ipoteza alternativ i ipoteza nul n testarea ipotezelor


Am afirmat anterior c o ipotez statistic este o afirmaie despre un parametru al
populaiei (sau despre mai muli parametri ai populaiei/populaiilor). O asemenea afirmaie
este legat de ipoteza tiinific luat n considerare (sau este o consecin logic a ipotezei
tiinifice).
S prezentm, n continuare, prin cteva exemple felul n care se relaioneaz cele dou
tipuri de ipoteze. Anume, s considerm urmtoarele afirmaii:
(1) La vrsta de 10 ani, fetele sunt mai inteligente dect bieii,
(2) Vrsta foarte naintat este un predictor semnificativ al maladiei Alzheimer,
163

(3) Copiii sunt mai creativi dect adulii,


(4) Medicamentul A ajut pacienii s se nsntoeasc mai bine dect medicam. B,
(5) Medicii brbai i femei au salarizri diferite,
(6) Pacienii i revin n urma unui tratament standard,
(7) Cei ce urmeaz dieta sptmnal prescris de faimosul dietetician Dr. C vor pierde n
greutate exact 2 kg,
(8) Medicamentul D nu are nici un efect asupra tuberculozei,
(9) Efectele medicamentului E asupra bolnavilor brbai i femei sunt similare.
Recunoatem n cele nou afirmaii de mai sus enunuri ale credinelor specialitilor i
profesionitilor, rezultate din lunga lor experien personal.
Se poate observa o distincie clar ntre primele ase i ultimele trei: acestea din urm
exprim o egalitate, o similaritate sau o coinciden (s observm c nu are efect nseamn
nu schimb cu nimic situaia, sau c situaia de dinaintea tratamentului cu medicament
este aceeai cu situaia de dinainte). Din contra, primele ase afirmaii exprim o inegalitate,
o disimilaritate sau o diferen.
Aceast distincie este esenial pentru posibilitatea aplicrii testrii ipotezelor. Este
esenial s subliniem c testarea de semnificaie statistic poate fi aplicat doar ipotezelor
tiinifice care sunt exprimate ca inegaliti, disimilariti sau diferene; n niciun caz
egaliti cum este cea din (7) nu pot fi confirmate ca adevrate prin testare de semnificaie
statistic. Probabil c ceea ce specialistul nostru (s fie oare aceste Dr. C?) vroia s exprime
era urmtoarea afirmaie:
(7) Cei ce urmeaz dieta sptmnal prescris de faimosul dietetician Dr. C vor pierde
n greutate cel puin 2 kg
iar n aceast form ea ar putea servi ca punct de plecare pentru o testare de semnificaie
statistic.
S nlocuim cele apte ipoteze tiinifice (1)-(6) i (7) de mai sus prin ipotezele statistice
corespunztoare. Va trebui s implicm unii parametri ai populaiilor respective:
(1a) IQ-ul mediu al fetelor n vrst de 10 ani este mai mare dect IQ-ul mediu al
bieilor n vrst de 10 ani,
(2a) Incidena maladiei Alzheimer este mai mare la persoanele de vrst foarte naintat
(prin comparaie cu persoanele de vrst naintat),
(3a) Indicele mediu de creativitate al copiilor este mai mare dect cel al adulilor,
(4a) Proporia pacienilor nsntoii dintre cei tratai cu medicamentul A este mai mare
dect proporia corespunztoare pentru medicamentul B,
(5a) Salariul mediu al medicilor brbai difer (este mai mare?) dect salariul mediu al
medicilor femei,
(6a) Starea medie de sntate a pacienilor, n urma unui tratament standard, este mai
bun dect naintea nceperii tratamentului,
(7a) Scderea medie n greutate a persoanelor ce urmeaz dieta sptmnal prescris de
faimosul dietetician Dr. C este de cel puin 2 kg.
Toate aceste afirmaii vor putea servi ca ipoteze alternative n testri de semnificaie. n
general, ntro testare de semnificaie statistic, ipoteza alternativ este o afirmaie despre
parametrii unei/unor populaii, care nlocuiete ipoteza tiinific (presupus plauzibil). (S
facem observaia c n toate exemplele de mai sus, ca parametri ai populaiilor au fost
considerai medii sau proporii.)
Se obinuiete s fie numit ipotez alternativ i s fie notat cu Ha (sau H1) tocmai
ipoteza tiinific luat n considerare, ca afirmaie exprimnd o inegalitate, o disimilaritate
sau o diferen.
164

Din punct de vedere logic, n aceiai termeni am putea enuna i o alt afirmaie, de data
aceasta exprimnd egalitatea sau inegalitatea invers, similaritatea sau coincidena. Aceast
afirmaie este notat cu H0 i este numit ipoteza nul. Conform lui R. A. Fisher, ipoteza
nul este ridicat ca un complement al ipotezei alternative doar pentru a fi respins, iar
prin respingerea ei vom accepta ca adevrat ipoteza tiinific iniial.
S prezentm aceste afirmaii pentru cele apte exemple de mai sus:
(10) IQ-ul mediu al fetelor n vrst de 10 ani este egal cu IQ-ul mediu al bieilor n
vrst de 10 ani,
(20) Incidena maladiei Alzheimer la persoanele de vrst foarte naintat este aceeai cu
cea la persoanele de vrst naintat,
(30) Indicele mediu de creativitate al copiilor este egal cu cel al adulilor,
(40) Proporia pacienilor nsntoii dintre cei tratai cu medicamentul A este egal cu
cea corespunztoare pentru medicamentul B,
(50) Salariul mediu al medicilor brbai este egal cu salariul mediu al medicilor femei,
(60) Starea medie de sntate a pacienilor, n urma unui tratament standard, nu sufer
nicio schimbare,
(70) Scderea medie n greutate a persoanelor ce urmeaz dieta sptmnal prescris de
faimosul dietetician Dr. C este de exact 2 kg.
R. A. Fisher a dat numele de ipoteza nul deoarece aceast ipotez ar trebui s fie
anulat. Acest nume a fost reinut i a supravieuit probabil datorit faptului c n multe
cazuri ipoteza nul poate fi scris sub forma unei egaliti cu zero:
(H0)
f ( ) = 0
n care f este o funcie de parametrii ai populaiilor implicate n testare. Poate c cel mai
bun exemplu este urmtorul:
(10)
f b = 0
n care parametrii f i b reprezint IQ-ul mediu al fetelor, respectiv bieilor n vrst de
10 ani.
Exist ntotdeauna posibilitatea ca ipoteza nul s fie ea cea adevrat, deci prin
respingerea ei s facem o eroare. Probabilitatea unei erori de acest fel este cunoscut n
medicin ca valoarea p (a ipotezei alternative!) i este interpretat de obicei ca riscul
acceptrii ipotezei tiinifice ca adevrat.
Admind c dispunem de informaii complete despre distribuia populaiei, singura surs
de eroare ar rmne maniera n care sunt alei indivizii din eantion. Atunci cnd eantionul
este ales aleator, diferenele dintre ceea ce ne ateptm i ceea ce constatm vor putea fi
explicate doar prin factorul ans. Vom putea impune un prag asupra acestor diferene,
separnd diferenele mici, acceptabile, de cele mari, inacceptabile. Acest prag este
identificat odat cu specificarea nivelului de semnificaie.

9.3. Testarea ipotezelor, abordarea clasic


Aa cum am artat anterior, n orice testare de ipotez se consider i se prelucreaz
datele obinute dintrun eantion. Evident, procedura de eantionare este presupus aleatoare,
iar de obicei se accept c populaiile studiate sunt distribuite normal.
n abordarea clasic, ce preia idei din teoria deciziilor, o testare de semnificaie statistic
se efectueaz n cinci pai consecutivi, dup cum urmeaz:
Pasul 1: Specificm ipoteza alternativ, apoi ipoteza nul.
165

Pasul 2: Alegem statistica adaptat situaiei concrete.


(Reamintim c statistic nseamn aici formul n care apar datele extrase dintrun
eantion.)
Pasul 3: Alegem nivelul de semnificaie, i pe baza sa pragul de separare (ntre diferenele
acceptabile i cele inacceptabile).
Pasul 4: Calculm valoarea statisticii, folosind efectiv datele din eantion (ales aleator).
Pasul 5: Decidem, prin compararea valorii calculate cu pragul dat de nivelul de
semnificaie, dac s respingem sau nu ipoteza nul.
Discuia n jurul testrii de semnificaie statistic ncepe cu ultimul pas. Aici un agent
decizional va trebui fie s resping ipoteza nul H0 (i prin urmare s accepte ipoteza
alternativ Ha), fie s nu resping pe H0. n realitate H0 este fie adevrat, fie fals dar
agentul decizional nu cunoate situaia real. Cele patru posibiliti ce pot fi identificate sunt
urmtoarele:
Realitatea (necunoscut)

Respingem H0

H0 este fals
Corect!

Decizia
Nu respingem H0

Eronat (eroare de
tipul al II-lea)

H0 este adevrat
Eronat (eroare de
tipul I)
Corect!

n dou dintre ele decizia este corect. Atunci cnd respinge o ipotez H0 care este
adevrat, agentul nostru face o eroare de tipul I. Iar cnd nu respinge o ipotez H0 fals
agentul face o eroare de tipul al II-lea.
n testarea de semnificaie statistic o importan maxim o are eroarea de tipul I.
Probabilitatea ei, cu alte cuvinte numrul
= P(decizie eronat | H 0 este adevrat)
este nivelul de semnificaie a crui valoare a fost aleas anterior (la Pasul 3).
Evident, fiecare agent de decizie dorete s pstreze nivelul de semnificaie ct mai mic
posibil ntruct este de fapt probabilitatea de a face o eroare! Astfel c valori cum este
= 0.05 sunt destul de des ntlnite, iar n tiinele medicale se recomand alegerea unor
valori mai mici, de exemplu = 0.001 .

9.4. Exemplu: compararea mediilor


S prezentm n cele ce urmeaz exemple tipice de aplicare a testrii de semnificaie
statistic.
Exemplul 1: S presupunem c ipoteza alternativ este (7a) de mai sus, iar ipoteza nul
este (70). (S facem observaia c ipoteza alternativ este exprimat sub forma de cel puin,
adic este unilateral.)
ncepem prin a presupune c (70) este adevrat, adic este adevrat c persoanele care
urmeaz dieta prescris de faimosul dietetician Dr. C vor pierde n greutate, n medie, 2 kg
pe sptmn. Implicit, vom presupune c pierderea sptmnal n greutate este o variabil
aleatoare, distribuit normal cu media = 2 i variana 2 (necunoscut). Eantionul de
volum N, extras din populaia indivizilor care urmeaz dieta, nseamn de fapt secvena
166

X 1 , X 2 ,..., X N a pierderilor sptmnale n greutate corespunztoare indivizilor selectai,


care de fapt sunt variabile aleatoare independente de tipul N(, 2 ) .
Se tie c, n aceste condiii, media de eantion,
1
M = ( X 1 + X 2 + ... + X N ) ,
N
considerat ca variabil aleatoare, are i ea o distribuie normal cu aceeai medie , dar
2
M 2
varian
obinute din diversele eantioane
. De aici rezult c populaia valorilor

N
N
de volum N poate fi considerat variabil aleatoare de tipul N(0, 1) , adic avnd o
distribuiie normal standard.
Totui, aa cum am artat mai sus, variana 2 nu este cunoscut. Aa cum am precizat n
lecia precedent, de obicei este estimat prin aa-numita varian de eantion:
1
S2 =
(( X 1 M ) 2 + ( X 2 M ) 2 + ... + ( X N M ) 2 )
N 1
i suntem interesai n formula
M 2
.
T=
S
N
Aceast formul va fi aleas (la pasul 2) drept statistica ce va fi utilizat la pasul 4.
Se tie c T este o variabil aleatoare distribuit Student; mai precis, este de tipul
t ( N 1) . n cea mai mare parte, valorile lui T sunt concentrate n jurul lui 0. Totui,
deoarece valori M < 2 vor fi n contradicie cu ipoteza unilateral (7a), suntem interesai
doar n valorile pozitive ale lui T. Valorile pozitive ce sunt n afara intervalului [0, t ]
determinat de o valoare critic t vor fi considerate c difer semnificativ de 0. Aceste
valori formeaz aa-numita regiune de respingere, deoarece n cazul apariiei unei asemenea
valori agentul decizional va respinge ipoteza nul (a se vedea figura urmtoare).

Odat ce a fost ales nivelul de semnificaie (la pasul 3), pragul (adic valoarea critic)
t > 0 care delimiteaz regiunea de respingere (t , + ) este determinat unic (i bine
aproximat computaional) din condiia P(T > t ) = , care este de fapt urmtoarea:
P(T t ) = 1 .
Aadar, testarea de semnificaie statistic se efectueaz astfel: dup ce am ales un nivel de
semnificaie convenabil, calculm imediat pragul t > 0 din condiia (t ) = 1 unde

167

este funcia de distribuie a variabilei aleatoare t ( N 1) . Alegem apoi un eantion aleator


de volum n, obinem de la indivizii acestuia datele x1 , x 2 ,..., x n , apoi calculm valoarea
m2
t=
s
n
1
unde m = ( x1 + x 2 + ... + x n ) iar
n
1
(( x1 m) 2 + ( x 2 m) 2 + ... + ( x n m) 2 )
n 1
Decizia final la pasul 5 va fi luat lund n considerare doar relaia ntre aceast valoare
calculat t i t . Anume, dac t > t , vom respinge ipoteza nul.
s=

Ca un caz particular, fie n = 10 i s alegem nivelul de semnificaie = 0.05 .


De aici cautnd ntro tabel a distribuiei t (9) , sau folosind o funcie special cum este
TINV n Microsoft Excel vom gsi pragul t 0.05 2.2622 . Acum, s presupunem c de la
cei 10 indivizi ai eantionului am obinut urmtoarele date:
Scderea sptmnal
Scderea sptmnal n
Individul
Individul
n greutate
greutate
1
2.3 kg
6
2.2 kg
2
2.8 kg
7
2.2 kg
3
2.1 kg
8
2.6 kg
4
3.0 kg
9
2.4 kg
5
2.3 kg
10
2.1 kg
S facem observaia c pentru toi indivizii din eantion scderea sptmnal n greutate
este mai mare de 2 kg.
Acest fapt, n sine, face ca s avem ncredere n adevrul alternativei! Media de eantion
1
este
(2.3 + 2.8 + 2.1 + 3.0 + 2.3 + 2.2 + 2.2 + 2.6 + 2.4 + 2.1) = 2.4 (kg) , iar variana de
10
eantion este s 2 0.0933 ( s 0.3055 ). Prin urmare,
2.4 2
t
4.1404 .
0.3055 / 10
Deoarece t > t 0.05 , suntem ndreptii s respingem ipoteza nul, i prin urmare s
acceptm ca adevrat ipoteza alternativ (7a).
S presupunem c nivelul de semnificaie este cobort la o valoare mai mic, = 0.005 .
De data aceasta pragul este t 0.005 3.6896 , i nc avem t > t 0.005 . Chiar i cu nivelul de
semnificaie = 0.005 (de zece ori mai mic dect nainte), vom respinge ipoteza nul i
vom considera ca adevrat ipoteza alternativ (7a).
Totui, dac vom cobor mai mult nivelul de semnificaie, de data aceasta la = 0.001 ,
noul prag va fi t 0.001 4.7809 iar valoarea calculat t 4.1404 nu mai este n regiunea de
respingere. De data aceasta nu putem respinge ipoteza nul!
S ne imaginm o variaie continu a nivelului de semnificaie de la valoarea ' = 0.005
(pentru care t > t ' , adic t este n regiunea de respingere pentru ' ) pn la valoarea
"= 0.001 (pentru care t < t " , adic t nu este n regiunea de respingere pentru " ). Exist
168

un nivel de semnificaie * , ntre ' i " , aa nct t va fi exact valoarea critic t * . Acest
nivel de semnificaie particular este cunoscut ca valoarea p a ipotezei alternative.

Interpretarea sa este limpede: este cel mai mic nivel de semnificaie care ne permite s
acceptm ca adevrat ipoteza alternativ prin respingerea ipotezei nule, bazndu-ne doar
pe datele din eantionul ales. Muli interpreteaz aceast valoare p ca riscul de a accepta ca
adevrat ipoteza alternativ (bazndu-ne pe eantionul ales).
S considerm, ca un alt caz particular, un al doilea eantion:
Scderea sptmnal n
Scderea sptmnal n
Individul
Individul
greutate
greutate
1
1.6 kg
6
1.6 kg
2
2.8 kg
7
1.7 kg
3
1.6 kg
8
2.6 kg
4
3.0 kg
9
2.4 kg
5
1.9 kg
10
1.8 kg
De data aceasta pentru ase indivizi dintre cei 10 ai eantionului scderea sptmnal n
greutate este mai mic de 2 kg. Aceasta face ca ipoteza alternativ (7a) s fie mai puin
credibil. Totui, s aplicm metoda testrii de semnificaie statistic, exact ca mai sus. i de
data aceasta, media de eantion
1
(1.6 + 2.8 + 1.6 + 3.0 + 1.9 + 1.6 + 1.7 + 2.6 + 2.4 + 1.8) = 2.1 (kg)
10
este consistent cu afirmaia faimosului Dr. C. Variana de eantion s 2 0.2978
( s 0.5457 ) ne conduce la valoarea calculat
2.1 2
t
0.5795
0.5457 / 10
care este mai mic dect t 0.05 . Nu putem respinge ipoteza nul, chiar i pentru nivelul de
semnificaie mare = 0.05 !
Mai mult, valoarea p (calculat prin intermediul funciei speciale TTEST din Microsoft
Excel) este 0.2622. Aadar riscul acceptrii ipotezei alternative ca adevrat, bazndu-ne pe
acest eantion particular, este suficient de ridicat!
S tragem cteva concluzii generale despre perechile de ipoteze similare cu (7a)-(70).
O asemenea ipotez alternativ (Ha) conine n enun ca unic parametru media a
unei populaii distribuite normal. Este o ipotez unilateral
(Ha): > valoare
169

iar ipoteza nul corespunztoare ia forma


(H0): = valoare .
n abordarea clasic, odat ce a fost ales nivelul de semnificaie , valoarea critic
t > 0 care delimiteaz regiunea de respingere (t , + ) este aflat din condiia
(t ) = 1
unde
(t ) =

N
2

( )
( N 1) (

N 1
)
2

1 + x

N 1

N / 2

dx

este funcia de distribuie a distribuiei Student t ( N 1) .


Evident, N este mrimea (volumul) eantionului. Pentru a respinge ipoteza nul, se va
calcula urmtorul numr
m valoare
t=
s
N
n care m este media de eantion iar s 2 este variana de eantion. n caz c t este mai mare
dect t , ipoteza nul va fi respins.
Atunci cnd folosim Microsoft Excel, valoarea critic t , care depinde de volumul
eantionului N, poate fi aflat cu ajutorul funciei TINV. Argumentele acesteia sunt
urmtoarele:
Nivelul de semnificaie (identificat ca Probability n figura de mai jos), i
Numrul de grade de libertate, care este n cazul nostru N 1 .

Exemplul 2: S presupunem c ipoteza alternativ este (6a) de mai sus:


(6a) Starea medie de sntate a pacienilor, n urma aplicrii tratamentului standard, se
mbuntete.
Este destul de dificil s reprezentm, printro singur valoare numeric, starea de sntate
a unui pacient. S fim mai precii, lund n considerare doar pacieni hipotensivi care sunt
supui aciunii unui medicament anti-hipotensiv, i s evalum starea de sntate a unui
pacient prin ritmul su cardiac, exprimat n bti/minut (b/m).
Acum perechea (6a)-(60) a fost nlocuit cu
170

(6a) Ritmul cardiac mediu al pacienilor hipotensivi crete n urma administrrii


medicamentului,
respectiv
(60) Ritmul cardiac mediu al pacienilor hipotensivi, n urma administrrii
medicamentului, nu sufer nici o schimbare.
Exprimm formal ipotezele de mai sus astfel:
(6a) a < b
(60)

a = b

unde a , respectiv b reprezint ritmul cardiac mediu nainte, respectiv dup administrarea
medicamentului.
Datele pe care le obinem apar n mod natural mperechiate; mai precis, pentru fiecare
pacient vom msura ritmul cardiac nainte ( xa ) i dup ( xb ) administrarea medicamentului.
Evident, am putea calcula diferena d = xa x b i am putea considera c medicamentul
este eficace pentru pacientul nostru dac d < 0 , ineficace dac d = 0 (adic nu se constat
nicio schimbare) i duntor dac d > 0 . De fapt testm eficacitatea medicamentului antihipotensiv. S notm cu diferena medie; atunci testarea statistic de senmnificaie de mai
sus este nlocuit prin
(6a) > 0
(60) = 0
care este exact situaia tratat n Exemplul 1, cu condiia ca diferenele d s fie distribuite
normal.
Dac presupunem c ritmul cardiac al pacienilor hipotensivi, i nainte, i dup
administrarea medicamentului, este distribuit normal, adic este de tipul N( a , a2 )
respectiv N( b , 2b ) , atunci rezult c diferenele d sunt i ele distribuite normal, cu media
a b . Variana diferenelor este necunoscut, i este estimat prin variana de eantion
s 2 . ntruct acceptm ab initio c (60) este adevrat, distribuia diferenelor d este
aproximativ de tipul N(0, s 2 ) .
Cele mai multe dintre diferene sunt concentrate n jurul lui 0. Odat ce a fost ales nivelul
de semnificaie , valoarea critic t > 0 care delimiteaz regiunea de respingere (t , + )
este obinut exact ca n Exemplul 1, prin intermediul distribuiei Student t ( N 1) .
S considerm urmtoarele date obinute dintrun eantion de volum 8:
Individul

nainte
(b/m)

Dup
(b/m)

Diferena

Individul

1
58
66
+8
5
2
65
69
+4
6
3
68
75
+7
7
4
70
68
-2
8
Valoarea calculat se va obine prin folosirea formulei
m
t=
s
N

nainte
(b/m)

Dup
(b/m)

Diferena

66
75
62
72

73
75
68
69

+7
0
+6
-3

n care m este media eantionului diferenelor. Aici m = 3.375 , N = 8 , iar s 4.4058 .


Prin urmare t 2.1667 .
171

Decizia va fi luat n urma comparrii acestei valori t cu valoarea critic t . Prin urmare,
nici pentru = 0.05 nu vom putea respinge ipoteza nul (aceasta deoarece
t 0.05 2.3646 > t ).
Exemplul 3: S presupunem c ipoteza alternativ este (5a) de mai sus i c, evident,
ipoteza nul este (50):
(5a) Salariul mediu al medicilor brbai este mai mare dect salariul mediu al medicilor
femei,
(50) Salariul mediu al medicilor brbai coincide cu salariul mediu al medicilor femei.
S rescriem ipotezele ntro form ceva mai abstract:
(5a) m > f
(50)

m = f

unde m respectiv f reprezint salariul mediu al medicilor brbai, respectiv salariul


mediu al medicilor femei.
Vom ncepe prin a accepta ca adevrat ipoteza nul. Vom presupune ab initio c
ambele populaii sunt distribuite normal, adic sunt de tipul N( m , 2m ) respectiv
N( f , f2 ) .

La pasul 2 al unei testri clasice a ipotezelor va trebui s alegem o statistic adaptat


situaiei concrete. n alegerea acestei statistici ar trebui s fim contieni de faptul c vor fi
alese dou eantioane disjuncte, unul din populaia (salariilor) medicilor brbai, cellalt din
populaia (salariilor) medicilor femei.
Aceste dou eantioane nu au, n general, volumele egale. S notm cu:
N m volumul eantionului extras din populaia medicilor brbai (adic din salariile
respective),
M m media de eantion a acestor salarii,
S m2 variana de eantion a salariilor.
Pe de alt parte, s notm cu:
N f volumul eantionului extras din populaia medicilor femei (adic din salariile
respective),
M f media de eantion a acestor salarii,
S f2 variana de eantion a acestor salarii.
Va trebui fcut o distincie ntre eantioanele mici i cele mari. Orice eantion cu
mai mult de 30 de indivizi va fi considerat ca mare, altfel el va fi mic.
Statistica pe care o vom alege va depinde n mod esenial de mrimile celor dou
eantioane. Atunci cnd ambele eantioane sunt mari, formula
M Mf
,
Z= m
Sz
n care
1 2
1 2
S z2 =
Sm +
Sf
Nm
Nf
l descrie pe Z ca fiind o distribuie normal standard N(0, 1) .
n cellalt caz, adic atunci cnd cel puin unul dintre eantioane este mic, formula
172

T=

Mm Mf
,
St

n care
1
1
S t2 =
+
Nm Nf

( N m 1) S m2 + ( N f 1) S f2

Nm + Nf 2

l descrie pe T ca fiind distribuit Student t ( N m + N f 2) .


S ne reamintim c pentru N 30 distribuia Student t ( N ) este bine aproximat cu
distribuia normal standard.
Aadar, odat ce a fost ales nivelul de semnificaie , una dintre distribuiile N(0, 1) sau
t ( N m + N f 2) va fi aleas pentru a se obine valoarea critic care va fi fie z , fie t
valoare care va delimita regiunea de respingere.
S facem observaia c n Microsoft Excel funcia NORMSINV ne va ajuta n prima
situaie. Argumentul ei va fi 1 . Evident, n a doua situaie vom folosi TINV (cu
argumentul ).
S presupunem c datele din cele dou eantioane sunt urmtoarele:
Medic brbat Salariul ($)
Medic femeie Salariul ($)
1
8105
1
74410
2
6719
2
5452
3
7909
3
3814
4
4420
4
4381
5
6214
5
3995
6
9407
6
4944
16166
7
4828
media mf
28540.1
8
6689
variana s 2
f

9
10
media m m
2
variana s m
volumul N m

7274
8351
6991.6
1560.2

volumul N f

10

Atenie, mediile calculate pentru cele dou eantioane nu sunt consistente cu ipoteza
alternativ! Testarea ar trebui s se opreasc aici!
S presupunem c am detectat eroarea de dactilo (7410 n locul lui 74410) i am corectato. Acum mm > mf , adic mediile calculate sunt consistente cu ipoteza alternativ. Valoarea
calculat va fi obinut cu formula:
m mf
t= m
st
(pe care o folosim ntruct ambele eantioane sunt mici) n care
2
1
+ ( N f 1) sf2
1 ( N m 1) s m


=
+
Nm + Nf 2
Nm Nf
iar decizia va fi luat n mod corespunztor.
Evident, este nevoie de multe calcule, de mult munc de programare. Acesta este
motivul pentru care testarea de semnificaie statistic nu este prea larg utilizat.

st2

173

n general, s considerm ipoteze alternative tipice legate de diferenele de medii. Sunt


posibile dou tipuri de ipoteze:
(H1) unilateral: 1 > 2 ,
(H1) bilateral: 1 2 .
(Cazul 1 < 2 coincide cu primul, n care ordinea populaiilor a fost inversat.)
n cazul ipotezei unilaterale, odat ce a fost ales nivelul de semnificaie , regiunea de
respingere (r , + ) este determinat, ca n Exemplele 1-3, din condiia

(r ) = 1
unde este o funcie de distribuie adecvat.
n cazul unei ipoteze bilaterale, regiunea de respingere
(, r ) (r , + ) unde numrul r > 0 este determinat din condiia
(r ) = 1

este

reuniune

Regiunea de respingere pentru


unilateral
bilateral

Funcia de distribuie este fie de tipul normal standard, fie de tipul Student. De fapt,
prin raionamente teoretice se identific mai multe cazuri.
(1) Varianele celor dou populaii, 12 i 22 , sunt cunoscute. n acest caz statistica
utilizat
m m2
1 2
1 2
1 +
2 )
(n care 2 =
z= 1

N1
N2
urmeaz o distribuie normal standard N(0, 1) . Evident, m1 i m2 reprezint mediile de
eantion respective.
Varianele celor dou populaii sunt necunoscute, i sunt nlocuite prin varianele de
eantion corespunztoare s12 i s 22 . n acest caz vor trebui luate n considerare dou situaii
ce se exclud reciproc.
(2.1) Cazul homoskedastic: varianele necunoscute 12 i 22 sunt egale ntre ele. n
acest caz statistica folosit este
m1 m2
t=
1
1
sp
+
N1 N 2
unde s p2 este o estimare global a varianei comune a populaiilor, dat de
s p2

174

( N1 1) s12 + ( N 2 1) s 22
.
=
N1 + N 2 2

n acest caz statistica t urmeaz o distribuie Student t ( N1 + N 2 2) .


Cazul heteroskedastic: varianele necunoscute 12 i 22 nu sunt egale. n acest
m m2
1 2
1 2
caz statistica folosit este t = 1
unde s 2 =
s1 +
s 2 ; ea urmeaz de asemenea o
N1
N2
s
distribuie Student.
Evident, se prespune c ambele populaii sunt distribuite normal. Totui, rezultatele sunt
aproximativ corecte chiar i atunci cnd distribuia populaiilor nu este prea ndeprtat de
cea normal.
S accentum asupra faptului c o distribuie Student t ( N ) n care N 30 este
aproximativ o normal standard.
(2.2)

9.5. Compararea mediilor, abordarea practic


Discuia anterioar evideniaz mult dificultile pe care trebuie s le depim pentru a
efectua o testare clasic de semnificaie, atunci cnd vrem s comparm medii. Toate
calculele sunt efectuate abia dup ce a fost ales nivelul de semnificaie , i dup ce au fost
extrase datele dintrun eantion.
Aa cum am exemplificat anterior n Exemplul 1, pentru un eantion dat exist un nivel
de semnificaie particular * , astfel nct valoarea critic corespunztoare (care este fie t * ,
fie z * ) coincide cu valoarea calculat. Acest * este cel mai mic nivel de semnificaie care
ne determin s acceptm ipoteza alternativ (prin respingerea ipotezei nule), bazndu-ne pe
acel eantion. Este numit valoarea p, i este interpretat ca riscul de a accepta ca adevrat
ipoteza alternativ (atunci cnd de fapt ipoteza nul este adevrat).
Softul modern elimin povara calculelor, prin inversarea filosofiei din spatele testrii de
semnificaie. n loc de a alege de la nceput nivelul de semnificaie , apoi de a efectua seria
decalcule, poate ar fi mai bine s calculm mai nti direct valoarea p a ipotezei alternative,
apoi de a accepta sau nu aceast ipotez ca adevrat, depinznd de ct de mult suntem
educai n a ne asuma riscuri.
Aceast idee este suportat atunci cnd utilizm Microsoft Excel prin intermediul funciei
TTEST. Cele patru argumente ale acesteia sunt, n ordine (vezi figura de mai jos)
1) Domeniul Array1 ce conine datele extrase din primul eantion;
2) Domeniul Array2 ce conine datele extrase din al doilea eantion;
3) Un parametru numeric (de fapt boolean) Tails, a crui valoare este 1 dac alternativa
este unilateral, respectiv 2 dac este bilateral;
4) Un al doilea parametru numeric Type, a crui valoare este 1 dac eantioanele sunt
pereche, 2 dac eantioanele nu sunt pereche dar sunt homoskedastice, i 3 dac se tie
despre populaii c sunt heteroskedastice.
S menionm aici c n practic nu exist exemple medicale pentru care s se
cunoasc homoskedasticitatea populaiilor. Pentru eantioane nepereche celui de-al doilea
parametru ar trebui s i se dea valoarea 3.
Funcia TTEST ne returneaz direct valoarea p a ipotezei alternative. Totui, nainte de a
folosi TTEST, ar trebui efectuat o verificare preliminar (atfel, am putea trage concluzii
total greite). Mai precis, ar trebui s verificm, prin aplicarea funciei AVERAGE asupra
ambelor domenii, dac mediile de eantion sunt ordonate corect.
175

Argumentele funciei TTEST n Excel

9.6. Exemplu: compararea proporiilor


n exemplele 1-3 s-a presupus c toate populaiile implicate ar fi fost distribuite normal.
Perechea de ipoteze (10)-(1a) va fi tratat exact ca i perechea (50)-(5a), cu condiia ca s
asimilm coeficientul de inteligen (IQ) cu o distribuie normal cu media 100 i abaterea
standard 10.
Totui, n unele situaii afirmaia c populaiile implicate sunt distribuite normal nu doar
c nu se justific, dar este categoric eronat!
S considerm de exemplu populaia pacienilor tratai cu medicamentul A a se vedea
perechea de ipoteze (40)-(4a) de mai sus. Putem presupune ca fiecare asemenea pacient fie sa nsntoit (marcaj 1), fie nu (marcaj 0). Dac vom alege aleator un eantion de volum N
de pacieni tratai cu medicamentul A, am putea presupune c indivizii eantionului sunt
distribuii Bernoulli (independente)!
Evident, parametrul A care caracterizeaz o asemenea variabil aleatoare este
interpretat ca probabilitatea succesului, adic proporia vindecrii. Proporia celor
vindecai n eantionul ales ne va da o estimare natural a lui A .
Exemplul 4: S presupunem c perechea ipotez alternativ/nul este urmtoarea:
(4a) Proporia celor vindecai n rndul pacienilor tratai cu medicamentul A este mai
mare dect proporia celor vindecai n rndul celor tratai cu medicamentul B
(medicamentul A este mai bun dect medicamentul B)
(40) Proporiile celor vindecai n rndul pacienilor tratai cu medicamentele A respectiv
B sunt egale (medicamentele A i B sunt echivalente).
Formal, aceste ipoteze sunt reexprimate n felul urmtor:
(4a) A B > 0
(40) A B = 0
unde A respectiv B reprezint proporiile vindecrilor.
S urmm mai nti abordarea clasic a testrii de semificaie. Un eantion de volum N A
extras din populaia pacienilor tratai cu medicamentul A este de fapt o secven
X 1 , X 2 ,..., X N A de distribuii Bernoulli (independente) de tipul Be( A ) .
176

Numrul celor vindecai este exact suma X 1 + X 2 + ... + X N A despre care tim c este
distribuit binomial b( N A , A ) . Media de eantion PA =

1
( X 1 + X 2 + ... + X N A )
NA

1
b( N A , A ) este o statistic ce exprim proporia pacienilor vindecai din rndul celor
NA
tratai cu medicamentul A.
Analog, un eantion de volum N B extras din populaia pacienilor tratai cu medicamentul B este de fapt o secven Y1 , Y2 ,..., YN B de distribuii Bernoulli de tipul Be( B ) iar
=

numrul celor vindecai Y1 + Y2 + ... + YN B este distribuit binomial b( N B , B ) . i n acest


1
1
(Y1 + Y2 + ... + YN B ) =
b( N B , B ) este o statistic ce
NB
NB
exprim proporia pacienilor vindecai din rndul celor tratai cu medicamentul B.
Se tie c, n general, distribuia binomial b(n, p ) este aproximativ normal cu media
caz media de eantion PB =

= np i variana 2 = np (1 p ) , cu condiia ca np 5 i n(1 p) 5 .


S presupunem c sunt ndeplinite condiiile necesare aproximrilor, anume N A A 5 ,
1
N A (1 A ) 5 , N B B 5 i N B (1 B ) 5 . Atunci variabila aleatoare
b( N A , A )
NA

(1 A )
1
, iar
b( N B , B ) este
este aproximativ distribuit normal, de tipul N A , A
NB
NA

(1 B )
. Prin urmare, diferena
aproximativ de tipul N B , B
NB

D = PA PB
care exprim diferena ntre proporiile vindecrilor, va fi aproximativ de tipul

(1 A ) B (1 B )
.
+
N A B , A
NA
NB

S explorm consecinele unei ipoteze nule adevrate


(40) A = B = .
Rezult c diferena D = PA PB ntre proporii este aproximativ normal de tipul

1
1
.
+
N 0, (1 )

N
N
B
A

Astfel, pentru a obine o statistic adecvat, vom avea nevoie de o estimare global a lui
, proporia pacienilor vindecai n rndul ceor tratai medicamentos (fie cu A, fie cu B).
Aceasta este obinut ca statistica:
1
P=
( X 1 + X 2 + ... + X N A + Y1 + Y2 + ... + YN B )
NA + NB
Iar statistica noastr ce va fi folosit n testarea de semnificaie va fi urmtoarea
PA PB
Z=
1
1

+
P(1 P)
NA NB

notaia Z indicnd c este vorba despre o distribuie normal standard, adic de tipul N(0, 1) .
177

S presupunem c datele obinute din eantioane au fost urmtoarele:


Total pacieni
Vindecai
Procentajul vindecrilor

Eantionul A
N A = 80
55
PA = 68.75%

Eantionul B
N B = 75
40
PB = 53.33%

Ambele eantioane
N A + N B = 155
95
P 61.29%

Din aceste date obinem scorul z, anume z 1.9692 , iar acesta corespunde unei valori p
* 0.02446 (a se vedea figura de mai jos). Aceasta este cunoscut ca Mid-p value (de
exemplu n Epi Info 2004) i este interpretat conform cu aversiunea noastr fa de risc.
Evident, nainte de a calcula scorul z, va trebui s verificm dac cele dou procentaje PA
i PB sunt n relaie corect unul fa de altul; dac nu sunt, testarea se oprete!
Atunci cnd folosim Microsoft Excel, valoarea p * este obinut prin formula
= 1 NORMSDIST( x)
n care x reprezint coordonatele celulei n care a fost calculat scorul z.

Se obinuiete (ceea ce este perfect adecvat softului Microsoft Excel) ca datele ce provin
din eantioane s fie prezentate n tabele de contingen, ca de exemplu:
Tratat cu:
Numrul pacienilor vindecai
Numrul pacienilor nevindecai

Medicamentul A
55
25

Medicamentul B
40
35

Nu trebuie s uitm de condiiile N A A 5 i celelalte. Totui, A i B sunt


necunoscute; tim doar c sunt estimate de PA respectiv PB . Valorile N A PA etc. sunt exact
valorile numerice din celulele tabelului de contingen de mai sus. Astfel, abordarea clasic a
testrii de semnificaie poate fi utilizat justificat doar atunci cnd toate componentele
numerice ale tabelului de contingen sunt mai mari dect 5.
Exist i o alt metod de tratare a unor date de acest fel, cunoscut sub numele de testul
hi-ptrat. Aceast metod compar dou variabile aleatoare (cu cte 2 valori fiecare), i le
evalueaz independena statistic.
Reamintim c independena statistic a dou variabile aleatoare V, W nseamn c
P(V = v W = w) = P(V = v) P(W = w)
pentru fiecare pereche de valori, v a lui V i w a lui W.
n cazul nostru, V este Medicamentul iar valorile sale sunt v {" Med.A", " Med.B"} ;
pe de alt parte, W este Starea pacientului, cu valorile w {" Vindecat", " Nevindecat"} .
178

Dac vom estima probabilitile prin frecvenele relative (folosind datele obinute dintrun
eantion), atunci independena statistic a lui V i W corespunde dependenei liniare a liniilor
(sau a coloanelor) din tabelul extins de contingen:

Totaluri pe linii

N vw

N v

N w

Totaluri pe coloane

unde:
N vw este numrul de cazuri pentru care V = v i W = w ,
N v este numrul de cazuri pentru care V = v , adic N v =

N vw ,

wW

N w este numrul de cazuri pentru care W = w , adic N w =


N este numrul total de cazuri, adic N =

vV wW

N vw ,

vV

N vw .

Aceast dependen liniar nseamn c:


N N
N vw = v w
N
pentru orice valori v ale lui V i w ale lui W, sau c valoarea expresiei
X

vV wW

N
N v N w

N N
N vw v w
N

este 0.
n cazul nostru, tabelul extins de contingen este:
Medicamentul A

Medicamentul B

Totaluri pe linii

Vindecai

55

40

95

Nevindecai

25

35

60

Totaluri pe coloane

80

75

155

iar dependena liniar a liniilor (sau a coloanelor), adic independena statistic a variabilelor
Medicament i Starea pacientului nseamn exact c ipoteza nul (40) A = B este
adevrat.
Formula de mai sus, care prezint statistica X ptrat a lui Pearson, d o msur a
neadevrului ipotezei nule. Valori mari ale lui X 2 ne ndeamn s o respingem.
Se tie c X 2 urmeaz aproximativ o distribuie de tipul 2 ((l 1)(c 1) ) , unde l este
numrul de valori distincte ale lui V iar c este numrul de valori distincte ale lui W. (n cazul
nostru l = c = 2 , prin urmare X 2 este de tipul 2 (1) .)
Apoi, graficul distribuiei hi-ptrat (a se vedea figura urmtoare) ar putea fi folosit pentru
a respinge sau nu ipoteza nul.
179

Toate consideraiile de mai nainte sunt simplificate drastic atunci cnd folosim Microsoft
Excel! ntr-adevr, aici dispunem de funcia denumit CHITEST, care are dou argumente:
a) Domeniul dreptunghiular ce conine tabelul de contingen (Actual_range),
b) Domeniul dreptunghiular ce conine datele teoretice care corespund ipotezei nule
(Expected_range), ceea ce nseamn c sunt calculate cu formula
N N
N vw = v w .
N
Aceast funcie returneaz valoarea p * , care poate fi interpretat de fiecare conform cu
apetena/ adversitatea sa fa de risc.
n cazul nostru (vezi figura urmtoare) obinem * = 0.0489...

Merit s subliniem c cele dou metode pe care le-am folosit anterior au dat valori p
distincte (0.02446 respectiv 0.0489). Aceasta nu este surprinztor! Mai multe motive
contribuie la aceasta: (a) folosirea estimrilor intermediare ale proporiilor, (b) aproximarea
distribuiilor adevrate ale statisticilor utilizate prin altele, de tipul normal sau hiptrat, (c) considerarea ipotezelor alternative de tip uni- sau bilateral etc.
180

Perechea de ipoteze (2a)-(20) este similar perechii (4a)-(40). Cele dou metode prezentate
mai sus sunt potrivite pentru confirmarea opiniilor sau descoperirilor despre incidena
maladiilor, similare lui (2a).
Totui, distribuia hi-ptrat este folosit i pentru a confirma opinii cum ar fi (20) sau (40),
adic opinii exprimnd o egalitate sau coinciden. Aceasta nu poate fi fcut ns n cadrul
testrii de semnificaie; testele respective sunt cunoscute ca teste de bonitate i au fost
abordate ntrun curs anterior.

181

Cursul 10. Analiza varianei i teste neparametrice


Analiza varianei este o extindere la mai mult de dou populaii sau straturi a metodelor
utilizate n testarea de semnificaie statistic. Se ncearc depistarea unor diferene
semnificative ntre mediile populaiilor/straturilor.
Nu ntotdeauna se recomand compararea a dou populaii dup parametrii care le
caracterizeaz (media, proporia, etc.). De exemplu, nu este recomandabil compararea a
dou tratamente alternative dup mediile duratelor de supravieuire, ntruct o singur durat
aberant de lung ar produce concluzii incorecte.
Cursul se ncheie cu prezentarea curbelor ROC ca instrument de evaluare a eficacitii
testelor biologice auxiliare diagnozei.
Coninutul acestui curs este urmtorul:
10.1. Teste t pereche i nepereche ............................................................................
10.2. Analiza varianei (ANOVA) ............................................................................
10.3. Testul Mantel-Haenszel ...................................................................................
10.4. Teste neparametrice: testele Wilcoxon/Mann-Whitney ..................................
10.5. Interpretarea datelor obinute din testele biologice .........................................

Adrese web utile:


www.bmj.com/cgi/content/full/312/7044/1472
www.stat.psu.edu/online/development/stat504/04_3way/12_3way_CMH.htm
faculty.vassar.edu/lowry/ch12a.html
www.graphpad.com/www/Book/Choose.htm
www.cs.unb.ca/profs/hzhang/CS6735/lectureslides/AUCTut.ppt

182

183
184
186
190
194

10.1. Teste t pereche (pentru eantioane dependente) i nepereche (pentru


eantioane independente)

S ncepem aceast seciune prin considerarea a dou seturi de date formale. S facem
observaia c ultima valoare n fiecare set de date poate fi considerat ca aberant (outlier),
fiind mult mai mare dect restul datelor din seturile respective. Se poate observa c aceste
valori aberante ridic mediile respective cu circa 25%, ns le pstreaz ordinea. (Chiar i
prin eliminarea lor, media datelor din setul 1 este mai mic dect media datelor din setul 2.)

Vom lua n considerare dou abordri diferite. n prima abordare vom admite c datele
provin de la pacieni tratai cu un medicament M, fiind rezultate de laborator obinute nainte
i dup tratament (de exemplu, valori ale creatininei). Scderea valorilor dup tratament
nseamn mbuntirea strii pacientului. Prin urmare, aceste date indic mbuntirea strii
pacienilor cu dou excepii dup tratamentul cu medicamentul M, ceea ce ne ndeamn
s credem n adevrul ipotezei alternative:
(PERa): n urma tratamentului cu medicamentul M, valoarea creatininei scade.
Valoarea p a acestei afirmaii, obinut printrun test t pereche, este de 0.00010,
confirmnd adevrul ipotezei alternative.
n a doua alternativ, vom admite c datele provin de la dou populaii diferite, primul set
provine de la pacienii tratai cu placebo, al doilea set de la pacienii tratai cu
medicamentul M. Media mai mic a setului 2 (comparativ cu setul 1) indic eficacitatea de
ansamblu a medicamentului M i ne ndeamn s credem n adevrul ipotezei alternative:
(NEPERa): tratamentul cu medicamentul M este eficace (prin comparaie cu lipsa de
tratament).
Valoarea p a acestei afirmaii, obinut prin testul t nepereche, este ns de 0.4080. O
asemenea valoare nu confirm adevrul ipotezei alternative!
183

Aadar, aceleai date conduc la concluzii diferite, concluziile depinznd n mod esenial
de contextul n care am obinut datele.
Aceeai discrepan se constat i dup ce se renun la valorile aberante.
10.2. Analiza varianei (ANOVA)

n a doua abordare din seciunea anterioar am analizat comparativ dou grupuri diferite
ale aceleiai populaii, anume grupul celor tratai cu medicamentul M i grupul celor tratai
cu placebo. Grupurile au fost considerate ca eantioane provenind din populaii diferite.
Dac s-ar fi prescris medicamentul M n cteva doze diferite, atunci am fi avut de-a face
cu mai mult de dou grupuri.
Deseori se pune problema comparrii a mai mult de dou grupuri/populaii, sau a unei
populaii stratificate n mai mult de dou straturi, iar compararea se face prin medii. n
asemenea situaii se poate aplica o generalizare a testului t pentru dou populaii, cunoscut
sub numele de analiza varianei sau testul ANOVA. Scopul ANOVA este validarea
existenei diferenelor semnificative ntre mediile grupurilor/ straturilor. Numele de
analiz a varianei provine din faptul c de fapt n aceast metod se compar ntre ele i
varianele grupurilor/straturilor.
Din punct de vedere istoric, prima aplicare a analizei varianei s-a fcut ntro situaie n
care se analizau recoltele obinute n urma tratrii solului cu diferite feluri de ngrminte.
Se pstreaz, prin tradiie, unele dintre notaiile i noiunile folosite atunci (cum este media
tratamentului).
Pentru a explica modul n care se efectueaz analiza varianei, s lum n considerare mai
multe grupuri/straturi, fiecare grup/strat avnd o medie i o varian proprie (evident,
necunoscute). Extragem, din fiecare grup/strat, cte un eantion, conform schemei
urmtoare:
Grupul (stratul) 1
media 1

Grupul (stratul) k
media k

Grupul (stratul) K
media K

variana 12

variana 2k

variana 2K

Eantion de volum n1
media de eantion m1

Eantion de volum nk
media de eantion mk

Eantion de volum n K
media de eantion m K

variana de eantion s12

variana de eantion s k2

variana de eantion s K2

Analiza varianei se efectueaz pentru o ipotez nul


(H0): nu exist diferene ntre mediile populaiilor
care va trebui respins, pentru a se confirma ipoteza alternativ
(Ha): cel puin dou dintre mediile k difer ntre ele (adic cel puin dou dintre
populaii difer prin medii).
Ca de obicei n problemele de testare de ipoteze, s admitem pentru moment c ipoteza
nul ar fi adevrat, i s deducem consecine logice ale ei. Dac nu ar exista diferene ntre
mediile populaiilor k , ar trebui s ne ateptm ca mediile de eantion mk s fie
apropiate ntre ele.
184

De asemenea, cumulnd cele K eantioane ntrun eantion global de volum N = nk ,


ar trebui ca nici media global m = n k mk N s nu difere prea mult de mediile de eantion
mk . Am avea nevoie de un numr care s exprime ct de apropiate sunt n ansamblu
mediile de eantion mk de media global m.
Un asemenea numr, denumit tradiional variabilitatea ntre tratamente, este urmtorul:
SST = n k (m k m) 2 .
k

(Iniialele provin de la sum of squares for treatments = suma ptratelor pentru tratamente.)

Numrul SST este minim (de fapt este 0) dac i numai dac toate mediile de eantion
sunt egale ntre ele: m1 = ... = mk = ... = m K .
Valori mici ale lui SST apar atunci cnd mediile de eantion mk sunt apropiate ntre ele,
iar asemenea situaii confirm ipoteza nul. Dar dac ar exista diferene mari ntre mediile de
eantion, atunci cel puin cteva dintre ele vor diferi considerabil de media global, ceea ce
va determina o valoare mare a lui SST, confirmnd astfel ipoteza alternativ (prin
respingerea celei nule). Oare ct de mare trebuie s fie numrul SST pentru ca s fim
ndreptii s respingem ipoteza nul?
Total SS din tabele nu trebuie confundat cu SST. De fapt nici nu joac nici un rol
special. Includerea acestei valori n tabele doar evideniaz faptul c testul statistic se
bazeaz pe descompunerea varianei totale a datelor n cele dou surse de variabilitate: cea
dintre eantioane (between) i cea din interiorul eantioanelor (within).
Variabilitatea din interiorul eantioanelor este dat de suma ptratelor erorilor (SSE),
care este suma ptratelor abaterilor dintre valori i mediile respective de eantion,
SSE =

( x jk m k ) 2 .

k =1 j( k )

mprtierea datelor dintrun eantion oarecare este caracterizat de variana sa


s k2 =

n k 1 j( k )

( x jk m k ) 2

aadar, suma ptratelor erorilor se poate rescrie (ceea ce justific denumirea metodei):
2
SSE = (n1 1) s12 + ... + (n k 1) s k2 + ... + (n K 1) s K
.
Ca exemplu, s considerm aciunea unui medicament asupra indivizilor din patru
categorii de vrst, timp de 60 de zile, exprimat n scderea procentual a nivelului
colesterolului:
(procente)
Sub 20 ani
20 39 ani
40 59 ani
Peste 60 ani
13
17
22
15
8
22
25
17
19
28
20
31
16
15
36
7
22
10
22
19
media = 15.60
2
12
20
8
9
media = 18.17
media = 14.57
41
17
media = 22.67
185

Avem N = 27 , K = 4 . Observm o discrepan destul de mare ntre mediile straturilor


(categoriilor de vrst): media minim este de 14.57%, media maxim este de 22.67%.
Rezultatele oferite de Epi Info, n cadrul comenzii MEANS, sunt urmtoarele:
ANOVA, a Parametric Test for Inequality of Population Means
(For normally distributed data only)
Variation SS
df
MS
F statistic
SST
Between 305.4376
3
101.8125 1.3414
Within
1745.7476
23
75.9021
SSE
Total
2051.1852
26

MST

MSE

P-value = 0.2822

Valoarea p fiind 0.2822, respingerea ipotezei nule este improprie (chiar dac discrepana
ntre medii ni s-ar prea suficient de mare). Nu dispunem de suficiente date pentru a trage
concluzia c scderea procentual a nivelului colesterolului depinde de categoria de vrst.
(Dar nici nu putem trage concluzia c nu depinde de categoria de vrst!)
Motivaia principal pentru aceast concluzie pare clar dac observm cu atenie datele
care se prezint n tabel. Din suma total de 2051, doar 305 = SST este datorat diferenelor
ntre straturi, cea mai mare parte (1745 = SSE) provine din diferenierea indivizilor n cadrul
straturilor. Deci straturile nu sunt suficient de omogene!
Acest mod de a raiona i are riscurile sale. De fapt, teoria statisticii arat c pentru o
comparaie corect ar trebui s inem seam de mediile ptratelor (MS = means of squares)
i nu de suma ptratelor (SS = sum of squares). Pe msur ce media ptratelor erorilor MSE
va scdea comparativ cu media ptratelor tratamentelor MST, straturile se separ iar ipoteza
nul devine implauzibil. Calculul valorii p se face innd seam de faptul c raportul

MST
MSE

este distribuit aproximativ Fisher-Snedecor (F).


Atenie, folosirea distribuiilor Fisher-Snedecor cere ca valorile x jk obinute din
eantioane s fie distribuite normal. Aadar ANOVA poate fi folosit doar n cazul n care
fiecare populaie este distribuit aproximativ normal!
10.3. Testul Mantel-Haenszel

S presupunem c efectum studii caz-control asupra unei populaii ai crei indivizi ar


putea fi afectai de o maladie D , pentru a stabili gradul de asociere ntre maladie i un factor
(presupus cauzator) F.
S considerm trei situaii tipice pentru aplicarea testului Mantel-Haenszel:
1) Repetm studiul la momente diferite de timp, cu aceiai indivizi sau nu;
2) Efectum studiul n zone geografice diferite;
3) Efectum studiul pe mai multe subgrupuri ale populaiei.
Testul Mantel-Haenszel stabilete semnificaia (statistic) a ipotezei c OR = 1.
Ipoteza nul const n urmtoarele: riscul de a fi diagnosticat cu maladia (D+) este acelai
n toate straturile, cu alte cuvinte numrul persoanelor diagnosticate cu maladie, n fiecare
strat, este proporional cu numrul persoanelor din acel strat.
Testul MH ia n considerare estimarea probabilitilor k , k , k , k n straturi prin
frecvenele relative
186

a k bk c k d k
,
,
,
calculate pentru fiecare strat din datele tabelului
nk nk nk nk

Factorul F

Maladia D
+

ak
ck

bk

dk
nk

Dac n-ar exista nici-o asociere ntre factor i maladie, atunci media, respectiv variana lui
a k ar fi urmtoarele
E (a k ) =

(a k + bk )(a k + c k )
(a + b )(c + d )(a + c )(b + d k )
, Var (a k ) = k k k 2 k k k k
nk
nk (nk 1)

Statistica MH ine seam de discrepana ntre valorile observate a k i mediile lor E (a k )


n toate straturile; se ine seam de asemenea de corecia de continuitate. Formula de calcul a
statisticii MH este urmtoarea

2
X MH =

ak

1
E (a k )
2
Var (a k )

sumele fiind extinse la toate straturile k. Dar ceea ce este important este faptul c ea este
distribuit aproximativ 2 (1) .
Exemplu. Ne punem problema s studiem comportarea organismului uman fa de dou
medicamente care au ca scop creterea imunitii organismului. Rezultatul utilizrii oricruia
dintre medicamente (s le identificm ca MedA, respectiv MedB) este dihotomic: se constat
fie creterea imunitii organismului (CI), fie descreterea imunitii organismului (DI). Se
ncearc s se stabileasc dac exist vreo asociere ntre variabila rspuns (evoluia
imunitii, notat Y, avnd valorile posibile CI i DI) i variabila de influen tipul de
medicament (notat cu X, avnd valorile posibile MedA i MedB) sau, dimpotriv, dac
cele dou variabile sunt independente (aadar nu exist asociere ntre modificrile imunitii
organismului i tipul de medicament).
Apare ns o problem suplimentar, deoarece bnuim c asocierea, dac exist, depinde
n mod esenial de vrsta organismului. Aadar, vom considera ca variabil de control
categoria de vrst (notat cu Z, avnd valorile Tnar, Adult, Btrn).
Avem aadar trei straturi, iar datele provenind din eantioane sunt urmtoarele:
Tnr
MedA
MedB
Adult
MedA
MedB
Btrn
MedA
MedB

Evoluia imunitii
CI
DI
17
8
11

15

Evoluia imunitii
CI
DI
59
27
55

48

Evoluia imunitii
CI
DI
21
13
11

10
187

n figura anterioar este prezentat organizarea calculelor necesare ntro foaie de calcul
Excel. Rezultatul final, valoarea p a afirmaiei
exist asociere ntre modificrile imunitii organismului i tipul de medicament
este obinut n celula I19. Concret, numrul 0.0082 este suficient de mic pentru a ne permite
respingerea ipotezei nule.
n continuare este prezentat rspunsul dat de EpiInfo n cadrul comenzii TABLES, mai
nti exemplificarea pentru un strat, apoi sumarul pentru cele trei straturi.
TIPM : REZ, STRAT=Adult
REZ
TIPM
CI
DI
TOTAL
MedA
Row %
Col %

59
68.6
51.8

27
31.4
36.0

86
100.0
45.5

MedB
Row %
Col %

55
53.4
48.2

48
46.6
64.0

103
100.0
54.5

TOTAL
Row %
Col %

114
60.3
100.0

75
39.7
100.0

189
100.0
100.0

Single Table Analysis

Point Estimate

95% Confidence Interval


Lower
Upper

PARAMETERS: Odds-based

Odds Ratio (cross product)

1.9071

1.0490

3.4670 (T)

Odds Ratio (MLE)

1.9005

1.0467

3.4870 (M)

1.0073

3.6331 (F)

PARAMETERS: Risk-based

Risk Ratio (RR)

1.2848

1.0206

1.6173 (T)

Risk Difference (RD%)

15.2066

1.4580

28.9552 (T)

(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)

188

STATISTICAL TESTS
Chi square - uncorrected
Chi square - Mantel-Haenszel
Chi square - corrected (Yates)
Mid-p exact
Fisher exact

Chi-square
4.5279
4.5039
3.9149

1-tailed p

2-tailed p
0.033347973
0.033818255
0.047862308

0.017360730
0.023603184

Atenie la diversele valori p afiate! Alegerea se va face n funcie de tipul afirmaiei pe


care dorim s o validm.
Reamintim:
a) Valoarea Mid-p o lum n considerare atunci cnd comparm proporii;
b) Valorile Chi-square sunt valabile cnd n fiecare celul avem cel puin valoarea 5;
c) Valoarea Fisher va fi considerat n caz c nu putem alege chi-square.
SUMMARY
Parameters

Point Estimate

95%Confidence Interval
Lower

Upper

Odds Ratio Estimates


Crude OR (cross product)

1.9159

1.1958,

3.0694 (T)

Crude OR (MLE)

1.9116

1.1940,

3.0763 (M)

1.1645,

3.1576 (F)

Adjusted OR (MH)

1.9538

1.2138,

3.1449 (R)

Adjusted OR (MLE)

1.9426

1.2095,

3.1380 (M)

1.1793,

3.2223 (F)

Risk Ratios (RR)


Crude Risk Ratio (RR)

1.3032

1.0741,

1.5812

Adjusted RR (MH)

1.3122

1.0809,

1.5929

(T=Taylor series; R=RGB; M=Exact mid-P; F=Fisher exact)


STATISTICAL TESTS (overall assoc)

Chi-square

1-tailed p

2-tailed p

MH Chi square - uncorrected

7.6223

0.0058

MH Chi square - corrected

6.9804

0.0082

Mid-p exact

0.0029

Fisher exact

0.0040

In the following two tests, low p values suggest that ratios differ by stratum
Chi-square for differing Odds Ratios by stratum (interaction)

0.7198

0.6978

Chi-square for differing Risk Ratios by stratum

0.7937

0.6724

189

Observm coincidena valorii p raportate cu cea calculat de Excel.


De asemenea, observm c se pot identifica situaiile n care ar trebui s lum n
considerare interaciuni ntre variabile.
10.4. Teste neparametrice: testele Wilcoxon/Mann-Whitney

n cursurile anterioare ne-am pus problema comparrii a dou populaii lund n


considerare mediile sau proporiile, eventual varianele lor. Cu alte cuvinte, am luat n
considerare parametrii care determin populaiile: mediile ( ), proporiile ( ), varianele
( 2 ).
Multe dintre metodele de comparaie care sunt utilizate n tratamentul variabilelor
aleatoare continue se bazeaz pe ipoteza fundamental c anumite variabile sunt distribuite
normal (sau cel puin aproximativ normal). Sunt cunoscute n literatura statistic, din motive
evidente, sub numele de teste parametrice.
Exist ns situaii n care fie nu cunoatem deloc felul n care sunt distribuite variabilele,
fie distribuia normal a lor este nclcat flagrant. n asemenea situaii, pentru compararea
populaiilor este posibil s folosim teste care nu presupun nimic despre tipul de distribuie,
cu alte cuvinte teste neparametrice.
(Evident, asemenea teste vor putea fi aplicate i pentru variabilele care sunt distribuite
normal, ns rezultatele pe care le vom obine vor fi mai puin semnificative dect ale
testelor parametrice analoage.)
n cele mai cunoscute dintre aceste teste neparametrice, valorile numerice ale variabilelor
obinute din eantion sunt nlocuite prin rangurile lor. De aceea ele sunt denumite teste
de rang.
S prezentm, n cele ce urmeaz, unul dintre cele mai simple teste de rang, anume testul
Wilcoxon.
Ipoteza alternativ de la care plecm, ntro exprimare general, este urmtoarea:
(Ha): distribuia valorilor variabilei aleatoare numerice (care ne intereseaz) este
asimetric n raport cu 0.
i vom opune ipoteza nul:
(H0): distribuia valorilor variabilei aleatoare numerice este simetric n raport cu 0.
Conform teoriei generale a testrii, vom ncerca s deducem consecine logice ale
acceptrii adevrului ipotezei nule, apoi s vedem dac datele provenite din eantion sunt sau
nu compatibile cu aceste consecine.
S ncepem prin a analiza datele numerice x1 , x2 ,..., x n provenite dintrun eantion de
volum n. Evident, unele dintre aceste valori vor fi pozitive, altele vor fi negative, i este
perfect posibil ca s avem cteva chiar egale cu 0. S presupunem c m n dintre ele sunt
nenule.
Conform indicaiilor lui Wilcoxon, vom ordona cresctor valorile nenule, luate n modul
(adic neglijndu-le semnul), apoi le vom nlocui cu rangurile lor: | x(1) | | x( 2) | ... | x( m) | .

S notm cu T+ suma rangurilor valorilor pozitive, i cu T suma rangurilor valorilor


negative. Dac acceptm ideea c ipoteza nul este adevrat, atunci T+ i T n-ar trebui s
difere prea mult ntre ele. Pe de alt parte, suma lor T+ + T ar trebui s fie egal cu suma
tuturor rangurilor, adic cu
190

m(m + 1)
. Ar trebui s ne ateptm ca att T+ ct i T s fie
2

apropiate de

m(m + 1)
m(m + 1)
. Cu ct T+ difer mai mult de
, cu att ipoteza nul devine
4
4

mai implauzibil i drept urmare vom fi nclinai s acordm credit alternativei (Ha).
Calculul valorii p a ipotezei alternative se bazeaz pe faptul c statistica
T+ m(m + 1) / 4
m(m + 1)(2m + 1) / 24

este distribuit (cel puin pentru valori mari ale lui n) aproximativ normal standard.
Ca un exemplu, fie datele din foaia de calcul Excel prezentat n figura urmtoare.

Observm c dintre cele nou valori cinci sunt pozitive iar patru negative (nici una nu este
nul). Abstracie fcnd de semn, ordinea lor este urmtoarea:
0.4 < 0.5 < 0.6 < 1.9 = 1.9 < 2.1 < 3.5...

Dou dintre cele pozitive sunt egale ntre ele, n consecin rangurile lor vor fi ambele
egale cu

4+5
= 4.5 .
2

Efectul comenzii
MEANS valori semn
din Epi Info este prezentat n figura urmtoare. Valoarea p a ipotezei alternative, obinut cu
testul Wilcoxon, este de 0.0139, suficient de mic pentru a ne determina s o acceptm ca
adevrat.

191

Aadar, putem afirma c setul celor cinci valori pozitive difer semnificativ de setul
celor patru valori negative. (De menionat c dac am fi folosit testul t clasic, valoarea p ar fi
fost de 0.0042, de circa trei ori mai mic. ns putem fi siguri c sunt satisfcute toate
condiiile preliminare de normalitate necesare pentru aplicarea testului t?)
Reamintim c testul t (Student) poate fi folosit, n general, n situaii n care:
a)
dispunem de dou eantioane extrase din dou populaii,
b) valorile obinute de la indivizii din eantioane sunt numerice,
c)
dorim s stabilim c centrul (valorilor) primei populaii difer de centrul (valorilor)
celei de-a doua populaii, i
d) localizm centrul unei populaii n media sa.
ns centrul unei populaii poate fi localizat i n median, n condiiile n care suntem
interesai mai mult de ranguri i mai puin de valorile numerice ca atare.
Valori numerice obinute din eantioane (extrase din populaii) pot aprea nu doar prin
msurare, ci i prin transformri ale valorilor ordinale, n mod arbitrar.
Exemple:
hipo = +1, mediu = +2, hiper = +3;
= 3, = 2, = 1, + = 1, ++ = 2.
n asemenea situaii aplicarea testului t (Student) nu este justificat, ns nimic nu ne
mpiedic s aplicm teste neparametrice.
S presupunem c din prima populaie am extras setul de valori numerice x1 , x 2 ,..., x n1 iar
din a doua populaie am extras setul de valori numerice y1 , y 2 ,..., y n2 .
Conform ideii lui Wilcoxon, s ordonm cresctor valorile (reunite ale) celor dou seturi,
apoi fiecrei valori s-i atam rangul ei. (Evident, rangul se recalculeaz n situaii de
egalitate a unor valori.)
Notm cu T1 suma rangurilor obinute de cele n1 valori xi ce formeaz eantionul extras
din prima populaie. Analog, T2 va fi suma rangurilor obinute de cele n2 valori y j ce
formeaz eantionul extras din a doua populaie.
Ipoteza alternativ pe care am dori-o confirmat este urmtoarea
(Ha): distribuia valorilor x n prima populaie difer de distribuia valorilor y n a doua
populaie
iar confirmarea ei va avea loc prin respingerea ipotezei nule:
(H0): distribuia valorilor x n prima populaie coincide cu distribuia valorilor y n a
doua populaie.

n1 (n1 + 1)
n (n + 1)
i valoarea maxim n1n 2 + 1 1
.
2
2
Pe de alt parte, acceptnd adevrul ipotezei nule, ne ateptm ca suma de ranguri T1 s fie
n (n + n + 1)
egal cu 1 1 2
. Cu ct T1 se deprteaz de aceast valoare (spre extremele
2
n1 ( n1 + 1)
n (n + 1)
respectiv n1n 2 + 1 1
), cu att ipoteza nul devine mai puin plauzibil.
2
2

Suma de ranguri T1 are valoarea minim

Aadar, testul Wilcoxon se bazeaz pe calculul unei sume de ranguri.


n literatura medical ntlnim destul de des un alt test, anume testul Mann-Whitney.
Acesta are exact acelai scop ca i testul Wilcoxon. De fapt, cele dou teste sunt echivalente.
Pe scurt, n testul Mann-Whitney nu se calculeaz suma de ranguri, ci se compar toate
perechile ( xi , y j ) i se noteaz cu U XY numrul perechilor ( xi , y j ) pentru care xi < y j plus
jumtate din numrul perechilor pentru care xi

192

yj.

Numrul U XY are valori ntre 0 i n1n2 , iar n cazul adevrului ipotezei nule ne ateptm
ca el s fie egal cu

n1n2
nn
. Cu ct U XY se deprteaz de valoarea 1 2 , cu att ipoteza nul
2
2

devine mai puin plauzibil.


Legtura dintre testele Wilcoxon i Mann-Whitney este dat de formula

n n + n1 (n1 + 1)
U XY = 1 2
T1
2
care leag numrul U XY (Mann-Whitney) de suma rangurilor T1 (Wilcoxon). Nu este de

mirare c n raportrile Epi Info (vezi figura de mai sus) rezultatele aplicrii celor dou teste
sunt prezentate mpreun.
Testul Kruskal-Wallis nu este altceva dect o generalizare a testului Wilcoxon pentru
cazul a mai mult de dou eantioane.
Ca exemplu, s considerm datele prezentate n articolul Factors influencing the rate of
healing of gastric ulcers admission to hospital, phenobarbitone, and ascorbic acid aprut n
Lancet, 1 (1952), pag. 171-175, autori R. Doll i F. Pygott. Este vorba despre schimbrile
procentuale n zona ulcerului gastric dup un tratament de trei luni.
Datele despre 32 pacieni internai i 32 de pacieni externi, ce exprim schimbrile
procentuale, ordonate n ordine cresctoare, sunt prezentate n tabelele urmtoare:
Tabelul pentru pacienii internai:
-100
-100
-100
-100
-100
-100
-90
-85
-83
-34
0
29
Tabelul pentru pacienii externi:

-100
-100
-81
62

-100
-93
-80
75

-100
-92
-78
106

-100
-100
-100
-100
-100
-93
-78
-75
-74
-72
-71
-66
-30
-29
-26
-20
-15
20
55
68
73
75
145
146
Prelucrarea datelor cu Epi Info a condus la urmtoarele rezultate:

-100
-91
-46
147
-89
-59
25
220

-100
-91
-40
1321
-80
-41
37
1044

Descriptive Statistics for Each Value of Crosstab Variable


Obs Total
Mean
Variance
Std Dev
E 32 490.0000 15.3125 42164.8669
205.3409
I 32 -444.0000 -13.8750 63930.3710
252.8446
ANOVA, a Parametric Test for Inequality of Population Means
(For normally distributed data only)
Variation SS
df
MS
F statistic
Between 13630.5625
1
13630.5625 0.2569
Within
3288952.3750
62
53047.6190
Total
3302582.9375
63
T Statistic = 0.5069
P-value = 0.6140
Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups)
Kruskal-Wallis H (equivalent to Chi square) = 6.0863
Degrees of freedom =
1
P value =
0.0136

Se poate observa c testul t nu d rezultate, dar testul Wilcoxon da.


193

10.5. Interpretarea datelor obinute din testele biologice

Interpretarea datelor (i cunotinelor) medicale trebuie s se bazeze pe o nelegere


exact a termenilor folosii. Din acest punct de vedere, noiunea de prevalen a unei maladii
M n cadrul unei populaii este clar, fiind legat de frecvena indivizilor bolnavi. Mai precis,
din punct de vedere teoretic, prevalena maladiei M este numrul de indivizi bolnavi dintrun
eantion de 1000 de indivizi ai populaiei, alei aleator.
Evident, prevalena este un parametru statistic al populaiei; valoarea concret i poate
fi doar estimat, prin metode statistice, din datele unui eantion.
S ne imaginm c un test biologic S care ar putea s dea rezultat pozitiv sau negativ
produce informaii asupra maladiei M. Ne intereseaz felul n care informaia privind
rezultatul testului efectuat asupra unui individ va modifica probabilitatea ca acel individ s
aib maladia M; cu alte cuvinte, ca medici ne intereseaz cum se schimb probabilitatea a
priori P(M) n probabilitatea a posteriori P(M | S).
Indivizii populaiei vor fi plasai evident n patru categorii:
Numr indivizi
care
pentru care
au maladia M
nu au maladia M
Testul S d rezultat pozitiv
TP
FP
Testul S d rezultat negativ
FN
TN
Evident, un individ oarecare ar putea fi plasat n (doar) una dintre cele patru categorii:
TP (true positive), care au maladia M iar testul d rezultat pozitiv,
TN (true negative), care nu au maladia M iar testul d rezultat negativ,
FP (false positive), care nu au maladia M iar testul d rezultat pozitiv,
FN (false negative), care au maladia M iar testul d rezultat negativ.
n cazul unui test perfect pentru toi indivizii care au maladia M testul va da rezultat
pozitiv, iar pentru toi indivizii care nu au maladia M testul va da rezultat negativ. Dar
asemenea teste sunt extrem de rare!
n general, pentru un test biologic dat apar noiunile teoretice de senzitivitate i de
specificitate a testului. Definirea lor este uoar dac vom considera tabelul de contingen
anterior.
Cunoscnd repartizarea indivizilor, putem defini cu uurin senzitivitatea testului S prin
proporia celor cu rezultat pozitiv n cadrul celor ce au maladia M:
Se =

TP
TP + FN

Senzitivitatea nu este altceva dect probabilitatea condiionat P(S | M).


Analog, specificitatea testului S este proporia indivizilor care testeaz negativ n cadrul
celor ce nu au maladia M:
Sp =

TN
TN + FP

i specificitatea este o probabilitate condiionat, mai precis P( S | M ).


Un test bun trebuie s aib att specificitatea, ct i senzitivitatea ridicate (apropiate de
valoarea 1).
De obicei, probabilitile sunt estimate pe baza datelor unui eantion. Evident,
specificitatea i senzitivitatea unui test pot fi estimate din datele provenite dintrun eantion.
Iat, dup Shortliffe, ca exemplu concludent, cazul testului PAP (Prostatic Acid
Phosphatase) folosit pentru detectarea cancerului de prostat, maladie despre care se tie c
are prevalena 0.33 (= 33/100000!). Studii de cercetare arat c senzitivitatea testului PAP
194

este de aproximativ 70%, ntruct din 113 pacieni bolnavi 79 au testat pozitiv. Specificitatea
sa este mai ridicat, de aproximativ 94% (doar 13 indivizi din 217 sntoi au testat
pozitiv). Ce se poate deduce odat cunoscute toate aceste date? Informaia cea mai
important poart numele de valoarea predictiv pozitiv a testului, care prin definiie este
probabilitatea ca un individ ce testeaz pozitiv s aib maladia M. Este de fapt probabilitatea
unui eveniment condiionat, n notaii evidente P(M | S). Formula de calcul este simpl:
VPP =

prev Se
prev Se + (1 prev) (1 Sp)

(ea este un caz particular al clasicei formule a lui Bayes!). n cazul nostru, un calcul imediat
arat c VPP = 0.0038, o valoare destul de mic!
A doua informaie important poart numele de valoarea predictiv negativ a testului,
care prin definiie este probabilitatea ca un individ ce testeaz negativ s nu aib maladia M.
i aceasta este o probabilitate condiionat, anume P( M | S ).
n mod evident, atunci cnd dispunem de dou teste biologice cu rspuns binar (fie
pozitiv, fie negativ), pentru a le compara eficacitatea ar trebui s inem seam n primul rnd
de valorile predictive respective, apoi de considerente de costuri (economice i/sau sociale).
Mult mai interesant este cazul n care rezultatul testului biologic nu este binar (pozitiv/
negativ). Exist destule teste biologice care au ca rezultate numere reale. Acceptnd un prag
de separare ntre valorile pozitive i cele negative ale testului, reprezentarea grafic a
acestei situaii este cea din figura de mai jos.
Evident, am presupus c ambele populaii, i cea a celor ce au maladia M, i cea a celor ce
nu au maladia M, au anumite distribuii, reprezentate prin curbele densitilor.
O deplasare spre stnga a pragului, de la valoarea la valoarea ', va conduce la mai
puini indivizi false negatives, de asemenea la mai puini indivizi true negatives, dar la mai
muli indivizi true positives. n consecin, senzitivitatea va fi mai ridicat, dar specificitatea
va fi mai sczut.
Repartizarea teoretic a indivizilor n funcie de rezultatul numeric al unui test biologic

195

Pentru fiecare valoare a pragului de separare, vom obine aadar o pereche de valori
(Se, Sp) ce ar corespunde unui test cu rezultat binar (obinut din testul nostru biologic prin
fixarea pragului de separare la valoarea ). Se obinuiete ca perechile (Se, 1 Sp) s fie
reprezentate grafic ntro diagram numit curb ROC (iniialele de la receiver operating
characteristic).
Compararea a dou teste biologice cu rezultate numerice se va face prin compararea
curbelor ROC corespunztoare. n figura alturat exemplificm aceast situaie.
Curbe ROC corespunztoare unor teste biologice cu rezultate numerice

n general, evaluarea unui test biologic cu rezultate numerice se face prin evaluarea ariei
de dedesubtul curbei ROC corespunztoare. Valoarea 0.5 a acestei arii corespunde unui test
cu rezultate total ntmpltoare, iar valoarea 1 corespunde unui test perfect de identificare
a maladiei M.

196

Cursul 11. Prelucrarea sunetelor i imaginilor


Sunetele auzite de ctre oameni au drept cauze modificri rapide ale presiunii aerului n
jurul presiunii atmosferice. Caracterul analogic al variaiilor de presiune face ca acestea s
nu poat fi prelucrate direct cu ajutorul calculatoarelor, care opereaz doar cu date digitale
(secvene de bii). Pentru prelucrarea cu calculatorul a semnalului auditiv este necesar o
conversie analog-digital preliminar, realizat de obicei cu ajutorul unui dispozitiv denumit
placa de sunet ce preia datele capturate de microfon.
Dar, orice conversie analog-digital are ca efect pierderea unei pr i a informaiei
totale con inut n semnalul auditiv. Aceast pierdere de informaie trebuie s fie, dac nu
minimizat, mcar inut sub control, aa nct ncercarea de a reface semnalul analogic din
datele digitale s poat da rezultate bune. Este de dorit ca informaia relevant medical s
fie, pe ct posibil, conservat integral.
n ultimii anii au fost dezvoltate cu ajutorul calculatoarelor (i a altor dispozitive ce
produc imagini) o serie de tehnici complet noi, att n procesul de stabilire a diagnosticului,
ct i n procesul de pregtire a interveniei chirurgicale sau chiar a execuiei acesteia.
Acest curs este dedicat prezentrii problemelor prelucrrii digitale de sunet n scopul
recunoaterii automate a vorbirii i de imagine de tip medical.
Coninutul acestui curs este urmtorul:
11.1. Mesaje i reprezentarea lor ..............................................................................
11.2. Prelucrarea digital a sunetelor ........................................................................
11.3. Prelucrarea imaginilor ......................................................................................
11.4. Imagistica medical ..........................................................................................

198
198
202
204

Adrese web utile:


www.haskins.yale.edu
www.ph.tn.tudelft.nl/Courses/FIP/frames/fip.html

197

11.1. Mesaje i reprezentarea lor

Mesajele sunt combinaii de simboluri formate dup reguli cunoscute, bine specificate.
Simbolurile reprezint semnale particulare, iar semnalele sunt variaii ale strii unui obiect
(de obicei variaii n timp).
Pentru a nelege problema segmentrii, s lum ca exemplu variaia unui curent electric

Ea ar putea fi reprezentat prin mesajul aaa, n care a reprezint semnalul


. Aceeai variaie de curent electric ar putea fi reprezentat de mesajul bcbc
iar c reprezint semnalul
.
n care b reprezint semnalul
S observm c aceeai variaie a semnalului ar putea fi reprezentat prin mesajul
xxxxxx n care x reprezint

, sau de mesajul 101010101010 n care 1

reprezint
iar 0 reprezint
.
S nu rmnem cu impresia c variaiile de stare considerate trebuie s fie reprezentate
printrun mesaj regulat, iar cel de mai sus este cel mai lung posibil. Felul n care
reprezentm variaia de stare depinde de posibilitile noastre de a diviza timpul.
De obicei, prelevarea modificrii strii se face prin eantionare la momente de timp
echidistante, iar valorile obinute se codific.

01
Valori
codificate
prin:

00
11
10

De exemplu, din figura de mai sus rezult secvena de bii


01010101111010100001010111101010110101010110101010
a crei interpretare depinde n mod esenial de segmentare.
11.2. Prelucrarea digital a sunetelor

Sunetele auzite de ctre oameni au drept cauze principale semnale auditive, adic
modificri rapide ale presiunii aerului n jurul presiunii atmosferice, care i ea are o
evoluie n timp, dar mult mai lent iar drept cauze secundare posibilele defecte ale
sistemului auditiv.
Caracterul analogic al variaiilor de presiune face ca acestea s nu poat fi prelucrate
direct cu ajutorul calculatoarelor, care opereaz doar cu date digitale (secvene de bii).
Pentru prelucrarea cu calculatorul a semnalului auditiv este necesar o conversie analogdigital preliminar, realizat de obicei cu ajutorul unui dispozitiv denumit placa de sunet
ce preia datele capturate de microfon.
Trebuie menionat de la nceput faptul c prin orice conversie analog-digital (A-D),
orict de precis ar fi, o parte a informaiei totale din semnalul auditiv se va pierde.
198

Aceast pierdere de informaie trebuie s fie, dac nu minimizat, mcar inut sub control,
aa nct ncercarea de a reface semnalul analogic din datele digitale s poat da rezultate
bune. Cu alte cuvinte, este de dorit ca informaia relevant medical s fie, pe ct posibil,
conservat integral.
Conversia analog-digital a unui semnal auditiv are loc n dou etape, identificate de
obicei ca:
1) Etapa de eantionare, urmat de
2) Etapa de cuantificare.
S ncercm o reprezentare grafic a ceea ce se ntmpl n aceste etape.

n urma conversiei analog-digitale are loc o dubl pierdere de informaie. Se poate


observa, n figura anterioar, c:
1) Prelevm valori ale semnalului doar n momentele de eantionare, iar informaia
despre evoluia semnalului ntre aceste momente va fi pierdut.
2) Fiecare valoare real a semnalului va fi rotunjit la cel mai apropiat nivel de
cuantificare, prin urmare are loc o distorsionare.
Este natural s alegem momentele consecutive de eantionare echidistant n timp, cu
alte cuvinte s le alegem prin folosirea unei frecvene de eantionare . La fel, pare natural
s alegem nivelele de cuantificare echidistant n intensitate. Totui, anumite considerente
legate de fiziologia organelor de sim (de exemplu, legea Weber-Fechner) impun alegerea
logaritmic a nivelelor de cuantificare.
Pentru a exprima calitatea unei conversii analog-digitale trebuie s inem seama de
rspunsul la urmtoarele dou ntrebri:
1) Ct de mare a fost aleas frecvena de eantionare?
2) Ct de precis au fost aproximate valorile cuantificate?
Pentru a putea fi capabili s obinem o bun calitate a conversiei trebuie s avem
cunotin de un rezultat fundamental, aa-numita teorem a lui Shannon i Nyquist. Acest
rezultat afirm c pentru a reui s nu pierdem (n urma conversiei) o component
interesant de frecven f, suspectat c exist ntrun semnal analogic, va trebui s
eantionm semnalul la o frecven (de eantionare) cel puin dubl
> 2 f.
(Cu alte cuvinte, perioada de eantionare trebuie s fie cel mult jumtate din perioada
componentei interesante urmrite.) n caz contrar, componenta noastr interesant va fi
nlocuit de o component de frecven fals, fenomen denumit repliere (aliasing) a se
vedea figura urmtoare.
199

Mai precis, componentele din semnal de frecvene f cuprinse ntre 0 i

vor putea fi
2
regsite n urma prelucrrii. n schimb, cele de frecvene peste 2 vor fi repliate peste
componente de frecvene inferioare i nu va exista posibilitatea de a le identifica!

De exemplu, tim c ntro electroencefalogram (EEG) apar componente (quasi)


periodice de frecvene de pn la 30 Hz. Pentru a reui capturarea acestora, frecvena de
eantionare va trebui s fie, conform teoremei lui Shannon-Nyquist, de cel puin 60 Hz.
Calitatea prelucrrii digitale a semnalului depinde n mod esenial i de rspunsul la a
doua ntrebare de mai sus. n urma eantionrii prelevm din semnalul analogic doar o
secven de valori reale, anume valorile la momentele de timp t 0 , t 1 = t 0 + ,
t 2 = t 0 + 2, t 3 = t 0 + 3,... unde = 1 este perioada (intervalul) de eantionare. Aceste

valori reale nu vor putea fi prelucrate cu calculatorul dect dup ce au fost aproximate cu
coduri binare adecvate.
S admitem c putem s asigurm fiecrei valori obinute prin eantionare un spaiu de n
bii pentru a putea fi stocat. Ca urmare, vom putea alege un numr N de nivele de
cuantificare care este o putere a lui 2, mai precis
N = 2n .
Aceste nivele vor fi repartizate (de obicei uniform) ntre valoarea (amplitudinea) maxim
Amax i cea minim Amin a semnalului. Exponentul n exprim astfel precizia cuantificrii. De
exemplu, pentru n = 7 vom dispune de N = 128 nivele diferite de cuantificare, adic de o
rezoluie de aproximativ 1/100 din plaja [Amin, Amax] a valorilor, pentru n = 10 vom dispune
de N = 1024 nivele diferite de cuantificare, adic de o rezoluie de aproximativ 1/1000 din
plaja [Amin, Amax] a valorilor, iar pentru n = 16 vom dispune de N = 65536 nivele diferite de
cuantificare. Pentru unele semnale biologice este suficient o rezoluie de aproximativ 8%
din plaja valorilor. Aceasta nseamn alegerea unui numr N = 16 (cea mai mic putere a lui
2 care depete pe 12.5 = 100%/8%), adic o precizie de 4 bii a cuantificrii.
Calitatea unei prelevri de semnal depinde aadar de numrul n de bii pe care-l rezervm
pentru fiecare valoare eantionat, de felul n care aproximm valorile eantionate prin
coduri (secvene de bii), dar i de nivelul zgomotului care se suprapune semnalului util.
Dac semnalele nu sunt eantionate la o frecven suficient de mare, iar amplitudinile nu
sunt prelevate suficient de precis, atunci prin conversia A-D vom avea o pierdere
semnificativ de informaie, semnalul va fi distorsionat. n figura urmtoare este prezentat un
exemplu.

200

Pentru cea mai mare parte a semnalelor biologice, o precizie a cuantificrii ntre 6 i 12
bii este suficient pentru evidenierea fenomenelor cercetate.
Tabelul urmtor conine domeniile de frecvene i de amplitudine, precizia cuantificrii
precum i spaiul necesar pentru stocare, pentru diferite tipuri de semnale biologice.
Spaiul
Domeniul
Precizia
Domeniul
necesar
Semnalul
frecvenelor
cuantificrii
amplitudinilor
(bii/s)
(Hz)
(bii)
EEG
0.2 - 50
600 V
4-6
Electrooculogram
0.2 - 15
10 mV
4-6
Electrocardiogram
0.15 - 150
10 mV
10 - 12
Electromiogram
20 - 8000
10 mV
4-8
Tensiunea arterial
0 - 60
400 mm Hg
8 - 10
Fonocardiogram
5 - 2000
80 dB
8 - 10
Und sonor
20 - 20000
96 dB
16
640000 (!)
Analiza semnalelor se face urmrindu-se:
evoluia n timp a amplitudinii, pe termen lung. n acest fel se determin, de
exemplu, energia semnalului auditiv i diverse durate dup care se evalueaz o
electrocardiogram;
depistarea componentelor de frecven ale semnalului, de obicei pe termen scurt. Se
obin de obicei grafice care sunt apoi comparate cu modele cunoscute, ntro procedur
de recunoatere a formelor (pattern recognition).
Foarte interesant poate fi spectrul de frecvene al unei unde. Acest spectru ne arat care
componente de frecven i cu ce intensitate sunt prezente ntrun semnal s(t). Spectrul de
frecvene poate fi calculat printro metod numit transformata Fourier i, cel puin teoretic,
poate fi folosit ca punct de plecare n proceduri de recunoatere a formelor.
Transformata Fourier nlocuiete astfel semnalul-und s(t) ce se manifest n timp, cu
spectrul su de frecvene S(f). n figura de mai jos este prezentat reprezentarea grafic n
timp a situaiei unei unde EEG, precum i spectrul su de frecvene (n care este reprezentat
doar puterea ce se asociaz fiecrei valori de frecven, de aceea se mai spune c este un
spectru de putere). Se poate observa n spectru un vrf aproximativ n dreptul frecvenei de
10 Hz determinat de aa-numitele unde alpha i un alt vrf n dreptul frecvenei de 50
Hz determinat, evident, de frecvena curentului electric standard.

Eliminarea anumitor frecvene din spectru cum ar fi cea de 50 Hz din exemplul anterior
se poate face prin filtrare cu diverse tipuri de filtre (trece jos, trece sus, trece band etc.).
Aceste filtre sunt sisteme artificiale care las s treac doar componentele de anumite
frecvene, celelalte fiind micorate pn la anulare.
Folosirea spectrelor de frecven pentru recunoatere este destul de bine exemplificat de
cazul deteciei fonemelor n vorbirea uman. Mai precis, n cazul unei vocale spectrul de
frecven aproximeaz funcia de transfer a tractului vocal (pregtit pentru pronunarea
acelei frecvene), care prezint un aspect tipic (a se vedea n figura urmtoare datele
vocalelor [a] i [i], preluate dup Laboratoarele Haskins). Poziiile frecvenelor ce corespund
vrfurilor n spectru poart numele de formani. Primii trei identific destul de clar vocala
pronunat, indiferent de persoana care o pronun.
201

Pe acest fapt se bazeaz i unele sintetizoare de voce uman, create pentru vocale ca
nite combinaii seriale de cte patru filtre trece-band, fiecare simulnd un formant. De
exemplu, pentru sintetizarea vocalei [o] se fixeaz frecvenele de rezonan la 570, 1030,
2730 i 3630 Hz, iar limile de band respective la 80, 55, 90 i 100 Hz.

Se obinuiete s se fac i o reprezentare a vocalelor n planul primilor doi formani,


obinndu-se ceea ce se cheam, impropriu, triunghiul vocalelor (este mai degrab un
trapez). n figura urmtoare punctele identific poziia formanilor pe datele unei sutimi de
secund, fiind pronunate vocalele limbii romne, n ordine, ncepnd cu [a].

n figura de mai sus obinut cu ajutorului softului Computerized Speech Lab sunt
marcate poziiile standard ale vocalelor limbii engleze. Se observ diferene de poziionare!
Pentru semnalele digitizate formate dintrun numr N = 2n de valori, Cooley i Tukey au
imaginat n anul 1954 o metod special de obinere a (unei aproximri a) spectrului de
frecvene. Metoda lor este cunoscut sub numele de transformata Fourier rapid (FFT = fast
Fourier transform) deoarece necesit un timp mult mai scurt de obinere a rezultatului dect
metodele clasice. FFT este implementat astzi n toate aplicaiile de prelucrare a
semnalelor biologice.
Metoda Cooley-Tukey are ca rezultat doar o aproximare a spectrului, producnd i unele
artefacte neplcute atunci cnd are loc o variaie brusc a frecvenelor. Pentru eliminarea
acestor artefacte, precum i pentru accelerarea obinerii componentelor importante ale
spectrului se obinuiete s se foloseasc tehnici de ponderare a valorilor semnalului. Cele
mai utilizate ponderi sunt cele Hamming, probabil universal implementate n softul de
analiz.
11.3. Prelucrarea imaginilor

Sunetele (ideale) pot fi reprezentate prin variaii de presiune n timp i descrise prin
funcii reale
t 6 S (t ) .
202

n mod analog, imaginile ideale pot fi descrise prin funcii de dou argumente
x, y 6 I ( x, y ) .
Calculatoarele sunt folosite n:
construirea imaginii din datele msurate;
mbuntirea calitii imaginii;
extragerea optim a unor trsturi particulare dintro imagine;
prezentarea imaginii pe ecran sau redarea ei pe film;
stocarea i regsirea imaginilor n bazele de date.
Prelucrarea computerizat a imaginilor impune:
discretizarea absciselor x i ordonatelor y, la un nivel comparabil cu puterea de
a)
rezoluie a ochiului uman, adic de peste 25 de puncte pe milimetru, ceea ce
nseamn peste 625 pixeli pe milimetrul ptrat. (n consecin o imagine de
dimensiuni 10 10 = 100 cm2 va fi format din peste 6.2 megapixeli.)
folosirea unui model de culoare care s permit descrierea distinct a unui numr de
b)
nuane suficient de mare. (Din acest punct de vedere, modelele pe 24 bii, care
permit distingerea ntre peste 16 milioane de nuane diferite, pare satisfctoare.)
Stocarea direct a informaiei brute coninut ntro imagine discretizat i cuantificat
(codificat) necesit aadar cantiti uriae de memorie, de ordinul zecilor de megaoctei.
Acesta este motivul principal pentru crearea mai multor algoritmi de compresie a imaginilor,
cu sau fr pierdere de informaie, capabili s reduc drastic cantitatea de memorie
necesar stocrii unei imagini.
Prelucrarea imaginilor presupune:
- transformri geometrice: translaii, rotaii, simetrii ...
- transformri de culoare, avnd ca scop extragerea trsturilor importante din
imagine,
- compresii/expandri, cu pstrarea a ct mai mult informaie relevant.
Sintagma prelucrarea digital de imagine se refer la:
a) achiziia imaginii,
b) reprezentarea digital i stocarea imaginii,
c) analiza i manipularea datelor obinute, n scopul mbuntirii calitii imaginii, dar
mai ales n scopul obinerii de informaii.
Evident, toate acestea sunt fcute cu ajutorul unor procesoare, a cror activitate ncearc
s imite vederea uman, care este poate cel mai dezvoltat sim.
Imaginile digitale sunt reprezentate matematic cu ajutorul funciilor bidimensionale
f ( x, y ) ; mai precis, pentru fiecare punct dat de coordonate ( x, y ) , valoarea funciei este de
fapt asociat culorii punctului respectiv. n acest fel, destul de multe rezultate aplicabile
funciilor-semnal obinuite pot fi adaptate i utilizate pentru imagini digitale. Fizica i
matematica joac un rol important n rezolvarea problemelor de prelucrare digital i
computer vision, ncepnd chiar cu nelegerea modului de achiziie a imaginii (deci n
achiziia de informaie vizual), continund cu nelegerea operaiilor de transformare a
informaiilor n mesaje utilizabile de ctre dispozitivele de prelucrare. Destul de multe
metode de prelucrare de imagine i computer vision se bazeaz pe statistic, optimizare i
geometrie; identificarea obiectelor fiind doar unul din multele exemple n acest sens.
Primele sisteme de achiziie de imagini aparatele fotografice dateaz din secolul al
XIX-lea. ncepnd din anii 60 i pn n prezent domeniul prelucrrii digitale a imaginii a
cunoscut o dezvoltare rapid, dezvoltarea spectaculoas a tehnicii de calcul oferind
posibilitatea achiziionrii de imagini din domeniul micro i macroscopic n condiiile cele
mai diverse, precum posibilitatea efecturii de operaii complexe n timp real. Aria de
203

utilizare s-a extins de la aplicaii medicale i spaiale la mai toate domeniile economiei i
vieii curente, de la industria fotografic la automatizarea proceselor de producie,
microbiologie, tehnic militar, dar i supravegherea traficului i pn la recunoaterea
automat a produselor n supermarket.
Dup gradul de complexitate putem mpri procedeele i algoritmii din prelucrarea
digital de imagine n trei mari clase:
a) clasa algoritmilor de nivel sczut (low-level algorithms), n care se ncadreaz toate
tehnicile destinate n principal mbuntirii calitii imaginii (prin reducerea zgomotului
sau mbuntirea contrastului);
b) clasa metodelor de procesare de nivel mediu (mid-level processing), metode care
presupun segmentarea/partiionarea n zone de interes sau n obiecte, apoi descrierea
obiectelor i recunoaterea lor, i
c) clasa metodelor de procesare de nivel nalt (high-level processing), metode care
presupun extragerea de informaii n urma analizarii imaginii i obiectelor recunoscute,
apoi efectuarea de sarcini cognitive, asociate cu computer vision.
Computer vision este o extindere a prelucrrii digitale de imagine ctre aplicaii i
probleme rezolvabile eminamente n spaiul tridimensional. Cteva dintre principalele sarcini
ale computer vision sunt:
Recunoaterea obiectelor. Aceast problem nu a fost dect parial rezolvat, pn
n prezent, i anume pentru cazul obiectelor geometrice simple, fizionomiilor umane,
vehiculelor auto, textelor scrise, dar n situaii bine stabilite de iluminare i fundal.
Urmrirea i controlul micrilor unui obiect, vehicul sau persoan.
Reconstrucia scenelor tridimensionale din seturi de imagini bidimensionale.
Construirea sistemelor de computer vision.
Multe dintre procedeele i metodele utilizate n prelucrarea digital de imagine sunt parte
integrant a unor sisteme de computer vision, fiind adaptate i dezvoltate n funcie de
aplicaia concret din care fac parte.
n tehnic, spre deosebire de medicin, obiectele cu care se lucreaz sunt structuri bine
conturate, relativ simple, care permit modelare matematic i aplicarea unor metode standard
de mbuntire a imaginii sau detectare de contur. Unul dintre principalele obiective ale
prelucrrii digitale de imagine n industrie este acela de a crete autonomia utilajelor
(robotizate) pn la funcionare independent, care s nlocuiasc componenta uman.
Aceasta, chiar dac este posibil, nu este de dorit n domeniul medical, acolo unde
calculatorul are doar rolul de a asista medicul n activitatea de diagnosticare i tratare a
pacienilor.
Trecem rapid peste cele mai importante aplicaii industriale sau sociale:
supravegherea i dirijarea computerizat a proceselor de producie
controlul calitii obiectelor produse
citirea, recunoaterea i interpretarea automat de coduri (cel mai cunoscut exemplu
este cel al codurilor de bare pentru identificarea produselor)
supravegherea i reglarea traficului rutier
11.4. Imagistica medical

Imagistica ocup un rol din ce n ce mai important att n diagnosticarea i planificarea


interveniilor chirurgicale, ct i n cercetarea medical. Prelucrarea imaginilor de tip
medical este o ramur aparte a prelucrrii digitale de imagine, ramur care necesit o
204

abordare specific dat fiind cerinele acestui domeniu special care este medicina. Majoritatea
aplicaiilor sunt interactive, presupunnd intervenie uman permanent peste efortul de
calcul. n medicin rolul sistemelor de calcul este n principal acela de asistent al medicului.
Dac iniial scopul imagisticii medicale era cel de a permite medicilor vizualizarea
interiorului corpului uman iar interesul primar era cel de a mbunti calitatea imaginilor
obinute, n ultimii anii au fost dezvoltate cu ajutorul calculatoarelor o serie de aplicaii care
au ca scop asistarea medicului att n procesul de stabilire a diagnosticului, ct i n procesul
de pregtire a interveniei chirurgicale sau chiar a execuiei acesteia.
Problemele prelucrrii digitale de imagine de tip medical pot fi clasificate n trei mari
categorii:
filtrare (ceea ce presupune preprocesarea datelor nainte de analiz),
segmentare (ceea ce nseamn partiionarea imaginii n regiuni contigue cu proprieti
specifice),
identificare (inclusiv poziionarea obiectelor/organelor).
Iar printre numeroasele aplicaii ale prelucrrii digitale de imagine de tip medical se
afl:
redarea/vizualizarea, adic transformarea datelor bidimensionale sau tridimensionale,
obinute prin diferite sisteme de achiziie, n imagini care pot fi ulterior studiate i
prelucrate;
alctuirea de atlase ale organelor, printre care cele mai interesante i relevante sunt
cele ale creierului uman;
segmentarea imaginii, pentru identificarea tumorilor i studierea organelor;
planificarea radioterapiei sau a interveniei operaionale astfel nct riscurile i
efectele secundare pentru organele din jur s fie minimizate;
asistarea de ctre roboi a interveniilor chirurgicale (domeniu aflat nc n faza de
cercetare).
Majoritatea aplicaiilor medicale au la baz imagini achiziionate direct de la pacient.
Imaginile obinute prin tehnicile de achiziie existente sunt alterate de zgomot (inerent atunci
cnd folosim tehnici digitale!) sau de defeciuni ce pot aprea n timpul achiziiei datorate
poziionrii incorecte sau micrii pacientului. Metodele de eliminare a zgomotului sunt de
interes, mai ales n faza de preprocesare imagistic.
Coninutul informaional al imaginilor medicale variaz destul de mult n funcie de
sistemul de achiziie de imagine utilizat. O prim etap n imagistica medical const n
selectarea sistemului de achiziie potrivit scopului urmrit. n acest scop sunt necesare
cunotine despre modul n care funcioneaz diversele sisteme de achiziie i despre
calitatea imaginilor obinute prin intermediul acestora. n funcie de aceste cunotine se pot
apoi selecta i metodele adecvate de procesare a imaginii i de extragere de informaii utile.
S descriem pe scurt cele mai utilizate tehnici de achiziie a imaginilor n domeniul
medical.
(1) Ecografele aparate cu ultrasunete obin imagini emind semnale acustice de
frecven nalt (ultrasunete). Sonda ecografic are drept component principal un cristal
piezoelectric, care sub aciunea ultrasunetelor dezvolt sarcini electrice de semne contrare pe
feele lui opuse (deci o tensiune electric alternativ), dar i invers, la aplicarea unei tensiuni
alternative de o anumit frecven, emite ultrasunete. Astfel, cristalul poate fi utilizat att ca
emitor ct i ca detector de ultrasunete. Ultrasunetele emise sunt trimise asupra zonei de
investigat. Ele sunt reflectate de ctre suprafeele organelor i captate de ctre dispozitivul
ecografic de achiziie a datelor. Imaginile obinute sunt felii bidimensionale de forma unui
sector de disc, ce reprezint zona din organism aflat sub dispozitivul de achiziie.
205

Imagine ecografic

Imagine tridimensional obinut prin ecografie

Avantajele ecografelor sunt obinerea n timp real a imaginilor i costurile relativ sczute
ale echipamentului. ns imaginile obinute sunt perturbate de zgomot semnificativ, ceea ce
ngreuneaz detectarea structurilor/organelor. Este destul de dificil obinerea de informaii
spaiale, n prezent fiind studiate diverse posibiliti de obinere a unor imagini
tridimensionale cu ajutorul ecografelor.
(2) Efectul Doppler se refer la modificarea frecvenei semnalului recepionat fa de
frecvena semnalului emis, atunci cnd sursa i receptorul se afl n micare relativ. Prin
ecografie Doppler se poate studia curgerea sngelui prin vase, viteza de curgere fiind
determin n funcie de modificarea frecvenei semnalului receptat fa de frecvena
semnalului emis.
(3) Cel mai cunoscut dispozitiv de achiziie a imaginilor medicale tridimensionale este
tomograful computerizat cu raze X. Acesta este un scaner de dimensiuni mari, care se
bazeaz pe utilizarea razelor X emise de un tub care care se deplaseaz circular n jurul
pacientului ntins pe un pat. Detectoarele de raze X sunt montate opus fa de emitor, astfel
nct s capteze razele X emise, dup trecerea lor prin corpul pacientului. n urma fiecrei
rotaii a tubului emitor se obine o imagine bidimensional, seciune a corpului pacientului.
Tomografele moderne permit achiziia n spiral a imaginilor, astfel timpul de expunere a
pacientului la raze X scade. Informaia tridimensional se obine prin reconstrucie pe baza
imaginilor bidimensionale achiziionate.
Noiunea de rezoluie a imaginilor tridimensionale obinute se exprim n voxeli (care
este unitatea tridimensional elementar, analoag pixelului bidimensional. Cu tomografele
obinuite se obin secvene de imagini bidimensionale coninnd proiecia a 512512 voxeli,
iar n direcie longitudinal spaierea ntre imaginile consecutive este de aproximativ 1 mm.
(n direcie transaxial dimensiunea unui voxel poate lua valori de la 0.5 mm la 2 mm).
Din cauza discretizrii, imaginile obinute prin tomografia computerizat conin artefacte,
cu care utilizatorul-medic trebuie s se familiarizeze, pentru a da o interpretare corect a
imaginilor.
206

Tomograf computerizat

Imaginile obinute prin tomograf redau bine structurile osoase dar nu sunt utilizabile
pentru vizualizarea esuturilor moi.
(4) Scanarea prin rezonan magnetic este mai recent. (La cuvntul nuclear s-a
renunat din cauza conotaiilor negative.). Scanerul RM este de dimensiuni mari cu o
adncime de circa 2 metri i conine un magnet de dimensiuni mari, un transmitor i un
receptor de microunde. Momentelor magnetice ale atomilor de hidrogen ai pacientului se
aliniaz dup direcia magnetului scanerului, iar microundele emise de ctre corpul
pacientului sunt capturate, amplificate i transformate n secvene de imagini.
Imaginile obinute folosind scanerul RM sunt asemntoare cu cele obinute prin
tomografia computerizat. esuturile rezoneaz n mod diferit la microunde, permind
discriminarea lor, n imagini aprnd redate n special esuturile moi. Un avantaj deosebit
pentru imagistic, fa de tomografia computerizat cu raze X const n faptul c nu sunt
obinute doar imagini transaxiale, cu scanerul RM se pot obine imagini bidimendionale
orientate perpendicular pe orice direcie.
n general pentru o direcie dat se obin cu scanerul RM n jur de 50 de imagini
bidimensionale cu rezoluia de 256256 pixeli, distanate ntre ele cu 2 pn la 10 mm.
Cu ajutorul imaginilor obinute cu scanere RM s-au alctuit atlase ale creierului uman.
Imagine obinut prin rezonan magnetic

(5) Camera Gamma, exploatnd emisia fotonilor datorit injectrii pacientului cu


substane radioactive, are dou rnduri de detectoare pentru radiaiile emise de pacient, pe
baza crora se obin imaginile tomografice. Imaginile obinute prin aceast tehnic sunt de
obicei de rezoluie slab, din cauza utilizrii unor cantiti reduse de substan radioactiv.
207

(6) n cazul imaginilor generate prin emisie de pozitroni (PET), tehnologia este mai
complex; substanele injectate emit pozitroni care, la ntlnirea unui electron, dau natere la
doi fotoni gamma care se deplaseaz n sens opus, acetia fiind captai de senzor. Cu aceast
tehnic se obin 10-30 de imagini transaxiale, distanate la 5-10 mm una de alta, destul de
grosiere (pixeli de dimensiune 5-10 mm); ele permit studierea activitii fiziologice a
organismului.
Imagine obinut prin emisie de pozitroni

De regul dispozitivele achiziioneaz secvene de imagini bidimensionale, iar acestea


trebuie utilizate pentru reconstrucia tridimensional. Acesta nu este o sarcin uoar, dat
fiind distana (prea mare) ntre imaginile consecutive, precum i calitatea slab a unor
imagini. (Trebuie avut n vedere i faptul c obinerea unor imagini mai bune nseamn n
general supunerea pacientului la doze mai mari de radiaii, ceea ce poate avea efecte
negative pe termen lung.)
Etapa imediat urmtoare achiziiei este cea de mbuntire a calitii imaginii, etap care
presupune remedierea pe ct posibil a erorilor i distorsiunilor induse n imagini de sistemele
de achiziie i de condiiile de mediu. Exist diferite procedee standard aplicabile n aceast
faz, cum ar fi mbuntirea contrastului i filtrarea zgomotului. Problemele care apar este
vorba de eliminarea zgomotului i a distorsiunilor induse de sistemul de achiziie a imaginii,
dar fr a afecta coninutul informaional util nu au fost rezolvate n mod satisfctor n
programele de imagistic medical. n aplicaiile moderne de imagistic sunt dezvoltate n
prezent filtre spaio-temporale, care in cont pentru corecii att de componenta spaial, ct
i de cea temporal.
Pentru vizualizare pe ecran, prelucrarea digital de imagine se combin cu elemente de
grafic (n special tridimensional) i uneori chiar animaie, ceea ce permite o reprezentare
ct mai apropiat de realitate a organelor studiate. Vizualizarea reprezint o prim etap n
aplicaiile de imagistic medical ce au ca scop reprezentarea evoluiei organelor.
Pn n prezent au fost alctuite numeroase atlase i reprezentri anatomice, majoritatea
bazate pe date obinute de la o singur persoan sau de la un numr redus de persoane, ceea
ce reduce generalitatea i utilizabilitatea practic a acestora. Abordri moderne ncearc
descrierea organelor prin modele adaptabile, date prin reprezentri parametrice ca modele
scheletate, cu care se simuleaz apoi suprafeele tridimensionale ale organelor n cazuri
particulare.
Un mod de reprezentare scheletat sunt reprezentrile mediale, sub forma unor grile de
puncte discrete. Fiecare astfel de punct este dat printrun vector de parametri care conine
diverse informaii locale (poziie, diametrul obiectului, orientare, unghiul obiectului). Pe
baza unor ansambluri de asemenea date se poate realiza reprezentarea suprafeei i chiar
modele dinamice (n care apare i componenta temporal).
208

Segmentarea nseamn partiionarea unei imagini sau a unui set de imagini n regiuni
contigue, ale cror elemente (pixeli, respectiv voxeli) sunt caracterizate prin anumite
proprieti comune. Aceasta este o etap premergtoare detectrii/identificrii i clasificrii
obiectelor n analiza imaginii.
Segmentarea imaginii este fundamental pentru detectarea i recunoaterea de obiecte.
Pentru imagini complexe acest proces este destul de dificil, iar perturbaiile i zgomotul din
imagine pot influena mult rezultatul!
Algoritmii de segmentare se bazeaz n general pe dou proprieti ale pixelilor:
discontinuitatea i similitudinea. n primul caz segmentarea se face pe baza modificrii
brute a valorilor de culoare, deci pe baza detectrii de contururi, iar n al doilea caz pe baza
similitudinii valorilor de culoare, prin selectarea suprafeelor care au pixeli similari relativ la
un anumit criteriu.
Dei exist numeroi algoritmi de detectare de contur, utiliznd filtre trece jos, problema
segmentrii nu este rezolvat n mod satisfctor pentru orice tip de imagine. Imaginile
medicale, prin natura lor i prin sistemele de achiziie utilizate care induc nivele apreciabile
de zgomot, sunt un exemplu de imagini n care detectarea de contur este nc n dezvoltare,
cutndu-se pentru diferite aplicaii algoritmi mai eficieni, robuti la zgomot sau la detalii
neinteresante.
Exist i metode interactive de detectare de contur i separare de obiecte, care se bazeaz
pe trasarea manual a unui contur iniial, n interiorul zonei/obiectului care trebuie
segmentat, dup care acest contur este extins de ctre algoritm, pn cnd se suprapune peste
conturul efectiv al obiectului.
Imagine n tonuri de gri care trebuie segmentat

Reprezentare topografic

Segmentare obinut n urma aplicrii algoritmului watershed

209

O situaie aparte care presupune segmentarea este cerut de cercetarea la nivel


microscopic, i anume separarea celulelor unui esut. Cele mai frecvente abordri utilizeaz
algoritmi de tip watershed, n care imaginile bidimensionale sunt reprezentate n trei
dimensiuni: dou coordonate spaiale plus nivelul de gri. Cu ajutorul acestei interpretri
topografice punctele din imagine sunt mprite n minime locale, pante i maxime locale.
Pornind apoi de la minimele locale se inund bazinele formate de aceste minime de-a
lungul pantelor, pn cnd se ajunge ca dou bazine s se contopeasc. n acel moment se
realizeaz separarea, obinndu-se liniile care marcheaz maximele locale dintre cele dou
suprafee.
S abordm acum problematica softului de imagistic medical utilizat curent n practica
exploratorie. Un prim exemplu l constituie IQ-View, creat de IMAGE Information Systems
Ltd.
Baza de date este constituit din fiiere create n standardul DICOM (cu extensia dcm)
n urma explorrii pacienilor prin tomografie computerizat sau prin rezonan magnetic
(vezi figura urmtoare). Aceste fiiere sunt grupate n serii de imagini.

Fiecare fiier-imagine conine, n afara datelor ce descriu imaginea propriu-zis (ce poate
fi comprimat JPEG sau necomprimat), destul de multe aa-numite meta-date: numele
pacientului, sexul, data naterii, spitalul, numele medicului, data i momentul prelevrii
imaginii, poziia fizic a imaginii etc. (vezi figura urmtoare).

210

Specificul acestui soft l constituie apariia unor bare de instrumente n lateral i n partea
inferioar a ferestrei (vezi figura), cu posibilitatea de a alege comenzi uzuale altfel dect din
meniuri. De asemenea, exist posibilitatea adaptrii n limba romn a textelor afiate, ele
fiind controlate ntrun fiier de configurare denumit custom.ini. (Limba originar este
germana.)
Un alt exemplu de soft de imagistic l constituie eFilm, creat de Merge Technologies
Inc. Baza sa de date este constituit din aceleai fiiere create n standardul DICOM.

Specificul acestui soft (vezi figura anterioar) l constituie posibilitatea de a reconstitui


volume 3-dimensionale din seturile de imagini. Ct privete denumirile comenzilor din
meniuri, ele sunt controlate n fiiere de configurare create n limbajul XML.

211

Cursul 12. Structuri de date, arbori de decizie,


reprezentarea cunotinelor
Cursul are ca scop prezentarea
a) unor structuri de date des ntlnite n organizarea activitilor de regsire rapid a
datelor n memoriile volatile,
b) unor noiuni elementare de teoriei a deciziei, bazat pe luarea n considerare a
probabilitilor i utilitilor,
c) modalitilor principale de reprezentare a cunotinelor n softul medical.
Coninutul acestui curs este urmtorul:
12.1. Structuri de date: tablouri i liste ...................................................................
12.2. Structuri de date: arbori i tabele de dispersie ...............................................
12.3. Arbori de decizie ............................................................................................
12.4. Reprezentarea cunotinelor ...........................................................................
12.5. Sisteme expert (de suport pentru decizia medical) .......................................

Adrese web utile:


www.haskins.yale.edu
en.wikipedia.org/wiki/Hash_table
www.openclinical.org/dss.html

212

213
216
217
220
223

12.1. Structuri de date: tablouri i liste

Structurile de date sunt tipuri de obiecte informatice care se caracterizeaz prin


flexibilitate (posibilitate de modificare rapid). Ele sunt utilizate de regul atunci cnd
exploatm memorii volatile (aa cum este de exemplu memoria intern a unui calculator
personal) i nu memorii pe suport magnetic. Programele i aplicaiile, n funcionarea lor,
exploateaz intens structuri de date.
Probabil cea mai utilizat structur de date este tabloul, implementat n toate limbajele de
programare, de obicei sub forma unei clase Array. (Reamintim c n programarea orientat
obiect o clas este un model abstract pentru obiecte similare.) Din punct de vedere formal,
un tablou este o succesiune de celule contigue, toate avnd aceeai capacitate de stocare.
Tabloul este creat n memorie ncepnd de la o adres . n afar de aceasta, el este
caracterizat prin:
a) numrul de celule, i
b) capacitatea de stocare a unei celule, aceeai pentru toate celulele (cu alte cuvinte,
lungimea celulei ).
Faptul c celulele tabloului sunt dispuse contiguu nseamn c dac o celul este regsit
la adresa , atunci urmtoarea va fi regsit la adresa + . Astfel, celulele succesive ale
tabloului vor fi regsite la adresele , + , + 2, + 3,... .

celula 0
celula 1
celula 2
celula 3
obiect 0
obiect 1
obiect 2
obiect 3

+
+ 2
+ 3
Celulele tabloului sunt pregtite pentru a fi stocate n ele obiecte similare iar numrul
maxim al celulelor trebuie s fie declarat la construirea tabloului i nu mai poate fi modificat
ulterior. Celulele sunt identificate, evident, cu ajutorul unui index care ia valorile 0, 1, 2, 3,
i aa mai departe.

Principalele metode ale unei clase Array sunt cele de stocare n celule i regsire de
obiecte din celule, prin intermediul indexului. Aceste metode sunt identificate de obicei
astfel:
void setElement(int index,Object value)
Object getElement(int index)

De obicei se implementeaz i alte metode, cum ar fi:


int findIndex(Object object)

aceasta returneaz indexul primei celule n care se afl stocat obiectul object. (Eventual
returneaz 1 dac n tablou nu exist stocat un asemenea obiect.)
boolean find(Object object)

aceasta returneaz true dac i numai dac obiectul object este gsit ntro celul a
tabloului.
boolean insert(Object object)

insereaz obiectul object n prima celul liber a tabloului (dac aceasta nu exist,
returneaz false; n caz contrar, returneaz true).
boolean delete(Object object)

dac exist obiectul object ntro celul a tabloului, l elimin i returneaz true.
Coninutul celulelor urmtoare este deplasat, ca n figura urmtoare.
213

object

Pentru a regsi un obiect depus ntro celul a tabloului nu avem alt posibilitate dect cea
de a explora, una dup alta, celulele tabloului. Avem ansa s regsim obiectul n chiar prima
celul, ns avem i ansa de a-l regsim exact n ultima! n medie, regsirea unui obiect
n +1
oarecare necesit
comparri, unde n este umrul de celule ocupate ale tabloului.
2
S facem observaia c obiectele ce sunt stocate n celulele tabloului sunt secvene de bii.
Toate pot fi considerate de aceeai lungime, adic avnd acelai numr de bii. Ordinea
lexicografic ne asigur c oricare dou asemenea obiecte (considerate ca secvene de bii)
pot fi comparate ntre ele. Ar fi foarte economic ca obiectele din celulele tabloului s nu fi
fost stocate n dezordine, ci n ordine cresctoare. ntro asemenea situaie regsirea unui
obiect se va putea face prin cutare binar, care va necesita doar log 2 n + 1 comparri.
(Pentru tabele de circa 2000 de celule ocupate, va fi nevoie de doar 11 comparri, i nu de
1000. Iar pentru tabele n care sunt circa 1 milion de celule ocupate, n doar 20-21 de
comparri vom regsi obiectul.)
Aadar, pentru a asigura o regsire eficace a datelor stocate n tabele, ele trebuie depuse n
ordine. Din pcate, nu ntotdeauna depunerea datelor poate fi fcut ordonat.
O alt aspect destul de important, care restricioneaz folosirea tablourilor, este faptul c
dimensiunea lor este fixat din momentul crerii. n caz c tabloul se va dovedi supradimensionat, vom rezerva degeaba o cantitate de memorie care nu va fi folosit. Iar n caz c
dimensiunea estimat iniial se va dovedi insuficient, va aprea un blocaj care nu va putea fi
deblocat dect prin declararea altui tablou, de dimensiune mai mare, urmat de transferul
datelor.
Spre deosebire de tablou, structura de list este mult mai flexibil. Lista nlnuit poate fi
utilizat ca substitut al tabloului, oferind mecanisme extrem de eficiente.
Componentele unei liste nlnuite nu mai sunt celule (contigue) avnd aceeai lungime;
dimpotriv, sunt elemente mai complexe, numite noduri. Un nod poate fi definit simplu, ca
pereche format dintrun obiect-coninut i un pointer (indicator). Pointerul indic spre
adresa ncepnd de la care este stocat nodul urmtor al listei.

content
Valorile pointerilor sunt aadar adrese (cu o singur excepie, valoarea special null).
Descrierea formal a unei liste:
Class List
{ Node first;
List()
{ first = null;
}
...
}

se bazeaz pe urmtoarea descriere formal a unui nod:


Class Node
{ Object content;
Node next;
...
}

n locul celor trei puncte vor trebui plasate metodele clasei.


214

Ca pentru orice clas, va trebui s precizm cel puin o metod-constructor, care s


serveasc la construirea obiectelor din clas. Un exemplu:
Node(Object newContent)
{ content = newContent;
next = null;
}

Pentru a construi o list nu este nevoie dect de folosirea metodei-constructor List() i


de inserarea nodurilor componente, ncepnd cu primul. Pentru inserarea unui nod naintea
celor deja existente n list se va folosi o metod special
void insertFirstElement(Object content)
{ Node newNode = new Node(content);
newNode.next = first;
first = newNode;
}

Operatorul new este implementat n aa fel nct se exploreaz mai nti memoria
neocupat, n cutarea unui spaiu de memorare suficient. Odat acesta gsit, acolo se va
plasa noul nod.
nod nou
coninut

componente existente

Se poate observa c aceast metod este bazat pe metoda displayNode() a clasei


Node, despre care se presupune c a fost programat pentru afiarea coninutului unui nod.
Se poate urmri cu uurin modul de funcionare al metodei displayList(): se
parcurge lista, exploatndu-se un nod current care iniial este exact first. Apoi, dup
afiarea coninutului su se trece, cu ajutorul pointerului, la urmtorul nod din list (dac
acesta exist). Nu exist limitri, n afara celor date de memoria disponibil, pentru numrul
componentelor unei liste.
Inserarea unor noduri noi ntro list este o operaiune rapid. Extragerea informaiei
dintrun nod, ca de asemenea i eliminarea unui nod, necesit ns parcurgerea listei pn la
gsirea nodului n cauz. Aceasta nseamn, n medie, un numr de

n +1
cutri, ceea ce
2

nseamn c aceste dou operaiuni sunt lente, neeficiente. Aadar, listele au avantajul c
exploateaz eficient memoria i permit inserarea rapid de noi elemente. Dezavantajele sunt
ns majore: regsirea datelor din liste, precum i eliminarea de noduri devenite inutile, sunt
operaiuni lente.
n listele definite anterior ca obiecte ale clasei List nu apare nici o restricie privind
ordinea de stocare/reinere a datelor (mai precis, datele sunt memorate n ordinea
temporal a apariiei lor). ns, n multe situaii este extrem de util ca datele s fie reinute
ntro ordine specificat.
n listele sortate componentele sunt plasate n ordinea cresctoare a valorilor unei chei.
Aceasta face ca eliminarea celei mai mici componente s fie foarte rapid. Inserarea unei
componente noi devine neeficient, ntruct trebuie s i se caute poziia.
Mai eficient este o soluie de compromis, ce const n folosirea unei liste sortate doar ca
auxiliar, n care se preiau componentele unui tablou nesortat i din care componentele se
depun, sortate, ntrun alt tablou.
O alt structur de date des utilizat este cea de list dublu nlnuit. Nodurile ei au, n
plus, un pointer suplimentar a crui valoare este adresa la care este depus nodul anterior.
Astfel, trecerea de la un nod la altul se poate face n ambele direcii.
215

12.2. Structuri de date: arbori i tabele de dispersie

Pentru a combina avantajele oferite de tablouri cu cele oferite de liste au fost imaginate
alte tipuri de structuri de date. Dintre acestea, vom prezenta arborii binari, care prezint
avantajul inserrii rapide, dar i pe cel al cutrii rapide.
Arborii binari sunt alctuii i ei din noduri. De data aceasta un nod nu mai este o pereche,
ci o triplet (coninut, pointer spre nodul fiu stng, pointer spre nodul fiu drept).
Evident, nodul n cauz este printe pentru cele dou noduri fiu.

Ca i n cazul listelor, pointerii au ca valori adrese, cu singura excepie a valorii speciale


null. Un nod pentru care ambii pointeri au valoarea null poart numele de nod frunz.
Formal, nodurile arborilor binari sunt obiecte ale urmtoarei clase:
Class Node
{ Object content;
Node left;
Node right;

Descrierea formal a arborilor binari este schiat n urmtoarea clas:


Class BinaryTree
{ Node root;
BinaryTree()
{ root = null;
}
void insertNode()

Construcia efectiv a unui arbore binar ncepe prin utilizarea unei metode-constructor, de
exemplu astfel:
BinaryTree tree = new BinaryTree();

Aceasta nu nseamn altceva dect declararea unui nod rdcin (deocamdat fr nici
un fiu).
Cea mai important operaiune ce se poate efectua asupra unui arbore binar este cea de
traversare. Ea const n vizitarea sistematic a nodurilor, efectundu-se cu aceast ocazie
aciuni asupra coninuturilor.
Exist mai multe feluri de traversare, depinznd de ordinea n care sunt procesate
elementele componente ale tripletei unui nod vizitat. Iat dou dintre acestea:
1) acioneaz asupra coninutului,
viziteaz fiul din stnga,
viziteaz fiul din dreapta;
2) viziteaz fiul din stnga,
acioneaz asupra coninutului,
viziteaz fiul din dreapta.
216

Arborii sunt eficieni n aciunile de cutare/regsire a datelor stocate, cu condiia ca ei s


fie echilibrai.
Tabelele de dispersie (hash tables) ofer posibilitatea inserrii i cutrii extrem de
rapide a datelor stocate, indiferent de numrul de nregistrri depuse n ele. Trebuie
precizat c sunt mai eficace dect arborii. Sunt folosite n programe de tipul celui care
verific ortografia corect a cuvintelor din documente, sau de tipul bazelor de date ale
medicamentelor, ale angajailor unei firme mari . a. m. d. Un tabel de dispersie se
construiete pe baza unui tablou de dimensiune mare, care va fi umplut doar parial cu
date. (Rapiditatea regsirii datelor este mai important dect risipa de memorie.)
Performana tabelului de dispersie scade ns odat cu umplerea tabloului peste un anumit
prag. Dat fiind c tablourile, odat create, nu mai pot fi redimensionate, estimarea pragului
de eficacitate trebuie fcut ct mai corect posibil. Fiecare celul a tabloului este identificat
printrun index (o cheie), iar n spatele fiecrei celule a tabloului se poate afla o mic
list cu nregistrri.
Cutarea unei informaii se face dup cheie, care se obine n urma unui calcul
efectuat, dup reguli bine stabilite, asupra secvenei de caractere cutate.
S considerm de exemplu cuvintele statistica i informatica. Ele sunt formate din 10,
respectiv 11 caractere. nsumnd codurile ASCII ale caracterelor componente, vom obine:
pentru statistica 115+116+97+116+105+115+116+105+99+97 = 1079
pentru informatica 105+110+102+111+114+109+97+116+105+99+97 = 1165
S admitem c aceste sume trebuie considerate modulo 1009, pentru a se obine cheile
corespunztoare (ceea ce nseamn c tabloul a fost dimensionat la 1009 celule). Ca urmare,
calculul va da rezultatul 70 pentru statistica si 156 pentru informatica. Cele dou
secvene de caractere vor fi plasate i ulterior regsite cu uurin n poziiile 70 respectiv
156 ale tabelului de dispersie.
70

statistica

156

informatica

514

medic

Alte cteva structuri de date: stiva (stack), coada (queue), movila (heap), arborele bicolor.
12.3. Arbori de decizie

Medicii fac parte dintre acei oameni care iau un numr mare de decizii, iar deciziile pe
care le iau, ca urmare a consultrii pacienilor, sunt uneori foarte rapide i nu ntotdeauna au
justificri evidente, solid fundamentate. n alte profesii umane procesele de luare a
deciziilor au fost analizate i formalizate, iar alegerea deciziei optime ntro situaie dat a
fost implementat n soft. n domeniul medical situaiile ntlnite sunt mult mai complexe,
nc suntem departe de a spune c dispunem de soft care ofer decizia optim; deocamdat
ne aflm n faza de analizare a deciziilor.
Atunci cnd urmrim s lum o decizie optim trebuie s ne punem problema identificrii
criteriului de optimizare. n economie situaiile par simple: minimizm costuri de producie,
cheltuieli de transport sau de stocare, maximizm profitul etc. Folosirea simultan a mai
multor criterii de optimizare conduce la complicaii matematice considerabile, de aceea este
de preferat identificarea unui singur criteriu de optimizare.
217

Care s fie acesta, n medicin? Evident, el depinde de nivelul la care se afl decidentul.
Un medic ce ocup funcia de director de spital va alege un alt criteriu de optimizare dect
medicul aflat n gard
Poate c este cazul s privim situaia din punctul de vedere al pacientului. La sfritul
tratamentului la care a fost supus, ca urmare a relaiei sale cu domeniul medical reprezentat
de unul sau mai muli medici dup ce toate deciziile medicale au fost luate, pacientul se va
afla ntro anumit stare de sntate. Evident, ar fi de dorit ca starea sa de sntate s fie
catalogat drept bun i pacientul s fie vindecat complet. tim ns c situaia nu este
ntotdeauna aa, c pot aprea complicaii mai mult sau mai puin grave, c exist ansa unor
tratamente ineficace sau chiar duntoare.
Rezultatele posibile ale tratamentului, anume vindecare complet, vindecare parial,
, deces sunt evident discrete. Teoria deciziei necesit ns ca variabila ce servete drept
criteriu de optimizare s ia valori continue, de aceea se impune adoptarea unei variabile
continue care s reflecte rezultatul posibil al tratamentului aplicat asupra unui pacient.
Utilitatea poate fi considerat a fi o asemenea variabil continu. Cu toate c, instinctiv,
ne dm seama despre ce este vorba, definiia ei nu este ns evident!
Teoria deciziei are ca instrument principal de lucru arborele de decizie. Un arbore de
decizie este un graf special, cunoscut sub numele de arbore orientat bicolor. De fapt, ntrun
arbore de decizie distingem noduri de trei tipuri:
a) noduri de decizie , care reprezint posibilitile decidentului (n cazul pacientului,
diversele examinri sau tratamente pe care le prescrie medicul);
b) noduri ale hazardului , care reprezint diversele evenimente aleatoare, ce nu se afl
sub controlul decidentului (n cazul pacientului, rezultatele examinrilor, efectul terapiilor);
c) noduri rezultat, care reprezint diversele situaii finale, crora li se asociaz cte o
utilitate (apreciat aprioric de ctre un pacient generic).
ntrun arbore de decizie, pe fiecare drum posibil nodurile de decizie i cele ale hazardului
alterneaz, iar nodurile rezultat sunt exact nodurile terminale, adic frunzele. Ct despre
muchiile-sgei, ele reprezint consecinele n timp. Cele care ies din nodurile hazardului
corespund realizrii evenimentelor aleatoare (i sunt nsoite de probabilitile respective),
iar cele care ies din nodurile de decizie corespund deciziilor ce pot fi luate.
S considerm, pentru ilustrarea conceptelor, dou exemple simple de arbori de decizie.
1) Prima problem pe care o vom aborda din punctul de vedere al pacientului este
urmtoarea: trebuie s tratm sau nu o grip obinuit cu antibiotice i, n caz afirmativ,
trebuie s o tratm imediat ce se declaneaz sau dup dou zile din momentul declanrii?
Arborele de decizie este prezentat n figura urmtoare.
Rdcina arborelui este un nod de decizie, pacientul putnd decide s trateze imediat
gripa, s atepte dou zile, sau s neglijeze tratamentul. Fiecare decizie posibil a sa este
urmat de un nod al hazardului; n majoritate situaiile posibile sunt vindecare i
complicaii, iar n arbore sunt trecute i probabilitile estimate ale acestor situaii. Decizia
de ateptare 2 zile este urmat de alternativa vindecare/nu, iar a doua posibilitate este
urmat de un alt nod de decizie, pacientul putnd decide s trateze sau s neglijeze gripa.
Arborele are un numr de 9 frunze, fiecreia corespunzndu-i cte o utilitate. S
observm c pacientul nostru apreciaz vindecarea spontan prin neglijarea tratamentului
ca avnd utilitatea maxim, iar utilitatea minimal (negativ!) corespunde situaiei
complicaii dup tratarea imediat.
Fiecrui eveniment aleator i se ataeaz probabilitatea sa; mai precis, este vorba despre
probabilitatea evenimentului, condiionat de situaia concret n care se afl pacientul.
Probabilitile se estimeaz conform metodelor standard de estimare; de exemplu, se tie
c procentul de vindecri spontane dup dou zile de la declanarea gripei este de circa 30%,
iar dup un tratament se ridic la 95%.
218

Arborele de decizie pentru situaia tratrii gripei

2) Al doilea exemplu este urmtorul. S presupunem c un medic este pus n faa


urmtoarei situaii: un brbat de 68 de ani, diabetic, a fost rnit la piciorul stng, iar rana s-a
infectat i exist pericolul cangrenrii.
Sunt posibile dou soluii terapeutice:
a) amputarea imediat (sub genunchi), sau
b) tratarea pacientului cu medicamente anti-inflamatorii.
Prima soluie poate cauza decesul pe masa de operaie. Cea de-a doua soluie poate
vindeca infecia, dar la fel de bine, dac medicamentele nu se dovedesc eficace, poate
conduce la o amputare mai sever (deasupra genunchiului) sau chiar la deces.
i aceast situaie tipic de decizie poate fi reprezentat printrun arbore de decizie:

Evident, decizia luat de medic depinde de civa parametri:


1) probabilitatea decesului n timpul operaiei
2) probabilitatea extinderii infeciei
3) utilitatea fiecrui rezultat final posibil.
Primii doi parametri sunt evident de tip probabilist. Aceste probabiliti trebuie
estimate. n estimare este implicat o evaluare de credibilitate, bazat pe cunotinele pe care
le-a dobndit i pe experiena personal, mai degrab dect pe un calcul clasic de
frecvene.
219

Medicul va putea lua acele decizii care conduc la utilitatea maxim. S considerm
probabilitile i utilitile trecute n figur:

Pentru fiecare nod intern, de la care pleac dou ramuri de probabiliti p1 respectiv p2
spre noduri avnd utilitile U1 resp. U2, utilitatea U se va calcula ca medie ponderat:
U = p1 U1 + p2 U2
Calculele arat c a doua alternativ are o utilitate mai mare.
Deseori ns nu este recomandat folosirea utilitii medii, ci strategii de maximizare a
utilitii combinate cu minimizarea riscurilor.
12.4. Reprezentarea cunotinelor

Este dificil s definim ce nseamn cunotinele. O ntreag ramur a tiinei, epistemologia, are ca obiect de studiu natura, structura, originea cunotinelor.
Reprezentarea cunotinelor din diversele domenii de activitate uman constituie obiectul
mai multor tiine, att clasice ct i moderne. Dezvoltarea informaticii a impus aceast
activitate ca parte principal a Inteligenei Artificiale.
Cea mai mare parte a cunotinelor medicale sunt de tip a posteriori, adic sunt deduse
cu ajutorul simurilor noastre; gradul lor de adevr poate fi stabilit sau modificat ca urmare a
experienei personale.
Noiunea de cunotin poate fi neleas n contextul umtoarei ierarhii de termeni:
1. Variaii de stare (ale unui obiect)
2. Date
3. Informaii
4. Cunotine
5. Meta-cunotine.
Ca exemplu, s considerm un cablu n care variaz parametrii unui curent electric iar
variaiile sunt convertite la o extremitate n secvena de cifre binare 00001101 01010100
01000001 01010011 00100000 00111001 00110000 00101011 00000000 00001111. Am
trecut astfel de la nivelul 1 la nivelul 2. S presupunem acum c dispunem de urmtoarea
cunotin: trebuie s grupm cifrele cte opt, s interpretm grupele ca semne (caractere)
conform alfabetului ASCII. Aceast cunotin ne permite s interpretm datele i s
extragem din ele esena TAS 90+, care prin interpretare devine informaia: tensiunea
arterial sistolic este peste 90. Am trecut astfel de la nivelul 2 la nivelul 3.
n general, se consider c datele i informaiile sunt fapte.
Oamenii posed cunotine care le permit s separe, n variaiile de stare ale corpurilor,
datele eseniale de zgomot. Informaiile sunt date interpretate. Cunotinele sunt dobndite
(n mod experimental, sau prin transmitere). Unele cunotine speciale ne permit s
transformm datele n informaii.
220

Meta-cunotinele nu sunt altceva dect cunotine despre cunotinele ce trebuie


utilizate ntrun context dat.
Reprezentarea informatic adecvat a cunotinelor medicale
a) este necesar n toate sistemele de suport a deciziei medicale,
b) este impus evident de crearea vocabularelor medicale (aa-numitele tezaure de
termeni medicali),
dar trebuie s inem seama de ea i
n activitile de codificare a datelor medicale pentru stocarea lor pe termen lung sau
pentru transmiterea lor la distan,
n crearea protocoalelor, i
n proiectarea bazelor de date avnd ca finalitate dosarul informatizat al pacientului.
n continuare analizm moduri de prezentare a cunotinelor medicale.
Sintagma a poseda cunotine nseamn de obicei nu doar existena unei simple
acumulri de cunotine, ci mai degrab nelegerea unui subiect sau a unui domeniu (de
cunotine, evident). Experii sunt oameni care posed ndeajuns de multe cunotine dintrun
domeniu particular, care au dobndit de asemenea o experien practic n acel domeniu i
pot face ceea ce alii nu sunt capabili s fac.
Experii sunt capabili de obicei s exprime cunotinele lor sub forma unor reguli. Iar dac
o doresc, ei pot nva i pe alii s foloseasc sau s respecte aceste reguli. Regulile de
producie au forma:
IF

antecedent
premis
condiie

THEN

consecin
concluzie
aciune

(n logic)
(n practic)

Antecedentul poate fi multiplu, adic format din mai multe elemente conectate ntre ele
prin AND sau OR. Consecina poate fi, de asemenea, multipl. Elementele componente
sunt de obicei fapte.
Structura unui fapt este foarte simpl: n el intervine o variabil (ce reprezint o
caracteristic a unui obiect oarecare), o valoare posibil a acestei variabile i un operator ce
leag variabila de valoarea ei.
Toate acestea pot fi exprimate formal cu ajutorul predicatelor, astfel
operator(variabil, valoare)
sau ntro form uman astfel
variabil operator valoare.
Marea majoritate a variabilelor folosite n medicin au valori vagi (NALT, RIDICAT,
ANORMAL). Exist destule probleme n a programa un calculator n aa fel nct s opereze
cu valori vagi, dar aceasta nu este deloc imposibil!
Despre operatorii ce leag variabilele de valori putem spune c sunt de tip matematic
=, <, etc.
sau de tip lingvistic
este, are etc.
Regulile de producie pot exprima: simple relaii, recomandri de urmat, ordine de
executat, strategii de cutare, euristici dobndite ca urmare a experienei din trecut.
Regulile de producie pot avea, aa cum am precizat anterior, exprimri destul de
complexe. Iat dou exemple:
Atunci cnd pacientul are concentraia troponinei crescut semnificativ i are electrocardiograma anormal, este probabil ca s fi suferit un infarct miocardic.
221

Dac pacientul are durere n piept i/sau angin stabil, dar concentraiile troponinei,
creatin-fosfazei i CK-MB sunt normale, este probabil ca s nu fi suferit un infarct
miocardic.
Ar trebui s le recunoatem datorit apariiei cuvintelor dac, atunci (eventual
subnelese).
Primele sisteme expert medicale, create acum mai bine de trei decenii este cazul s
menionm ca exemplu MYCIN au utilizat ca limbaj de reprezentare a cunotinelor
regulile de producie. Orice regul de producie din MYCIN are forma
dac (condiii), atunci (concluzie) cu credibilitatea (sau factorul de certitudine)
Factorul de certitudine ine locul probabilitii din exemplele de mai sus.
Se pare, dup experiena acumulat pn n prezent, c principalul dezavantaj al
sistemelor de reguli de producie (sisteme expert sau sisteme de suport a deciziei
medicale), ca limbaje de reprezentare a cunotinelor, este lipsa de eficien in tratarea
cunotinelor incerte i/sau imprecise.
Un alt tip de reprezentare a cunotinelor l constituie reelele semantice. Reelele
semantice sunt fundamentate pe intuiia c memoria uman const dintrun numr mare de
conexiuni i asociaii ntre diverse informaii pariale nmagazinate n interior. De fapt, din
punct de vedere strict matematic, reelele semantice nu sunt altceva dect grafuri
orientate (i etichetate). Nodurile unui astfel de graf reprezint obiecte, reale sau abstracte.
Arcele (sgeile, legturile) sunt utilizate pentru a exprima relaii ntre obiecte.
Cele mai des folosite legturi n reelele semantice sunt exprimate prin sintagmele:
este_un, nsemnnd este o instan a, adic apartenena la o clas, i
este_un_fel_de, nsemnnd subordonarea ntre o clas i o super-clas.
Ca exemplu tipic, virus H5N1, grip aviar, sindrom sunt noduri (clase), iar
poate_cauza este un arc ce pleac din virus H5N1 i ajunge n grip aviar (eventual
n sindrom). Interpretrile uzuale ale arcelor sunt urmtoarele: este_o_parte_a,
este_proprietate_a, trateaz, determin etc. De obicei arcele apar n perechi, de
exemplu trateaz i este_tratat_de, determin i este_determinat_de.
Utilizarea n medicin a limbajelor care se bazeaz pe reele semantice este obstrucionat
de complexitatea enorm a reprezentrilor grafice legate de situaiile reale.
Atunci cnd ntlnesc o situaie complet nou, pentru a o reprezenta oamenii adapteaz
cea mai apropiat schem pe care o gsesc n memoria lor. Adaptarea are loc prin
comparare cu prototipurile existente, iar descrierea unui univers de cunotine se precizez
pe msur ce crete experiena pe care o avem n acest univers. Pentru reprezentarea
cunotinelor umane Minsky a propus utilizarea cadrelor (frames), adic a unor abstracii
prin care obiectele sunt clasificate dup proprietile lor generale, cele mai importante
proprieti fiind luate n considerare cu prioritate. Cadrele constituie una dintre modalitile
de implementare a prototipurilor. Dac utilizm cadre putem raiona fr s ne mpiedicm
de detalii irelevante.
Pentru a da o definiie general, vom admite c un cadru este un grup de fante (slots) i
de valori care umplu aceste fante (fillers). Fiecare fant are propriul su tip. Tipurile
sunt extrem de diverse, ntre tipul clasic boolean pn la tipul cadru nsui.
Trebuie subliniat faptul c fiecare fant este umplut, nc de la crearea unui cadru, cu o
valoare implicit (default value). Fantele pot fi umplute oricnd, eventual n ordinea
importanei sau relevanei, prin nlocuirea valorii implicite cu una semnificativ. Este
posibil de asemenea ca valoarea s fie motenit de la un alt cadru.
Utilizarea cadrelor n scopul reprezentrii cunotinelor necesit funcionarea a dou
procese: primul, ghidat de problem, permite modificarea valorii unei fante-atribut; cel de-al
doilea proces este ghidat de ctre datele concrete i efectueaz activitile cerute de aceste
date.

222

Ataarea la o fant-atribut a unei proceduri ce este declanat dup evaluarea valorii


atributului este o caracteristic important a cadrelor. Putem distinge dou clase de
proceduri:
1) de tip servant, care sunt declanate doar n urma unei comenzi speciale,
2) de tip demon, care sunt activate automat imediat ce o anumit valoare umple o fant.
Cea mai important structur de tip cadru este cea standardizat n sintaxa Arden. Aici
fantele sunt grupate n trei categorii: de ntreinere, de indexare i de nregistrare a
cunotinelor.
n interiorul fiecrei fante se poate utiliza un formalism propriu: fie reguli de producie,
fie descrieri detaliate, fie coduri (programe de calculator).
Subliniem faptul c toate limbajele de reprezentare a cunotinelor trebuie s fie
implementate pe calculator. De aceea n fantele de ntreinere se trec date privind
versiunea, autorul, data crerii.
n fantele de indexare se nregistreaz scopul, cuvintele cheie pentru crearea indexrilor,
explicaii detaliate i eventual legturi spre alte informaii.
n sfrit, n fantele de nregistrare a cunotinelor se plaseaz tipul de date, logica dar i
aciunea propriu-zis (ca program de calculator, eventual n pseudo-cod).
12.5. Sisteme expert (de suport pentru decizia medical)

S precizm c sistemele expert sunt programe de calculator dedicate rezolvrii


problemelor complexe dintrun domeniu de activitate uman, la nivelul unui expert n
domeniu.
ntruct experii umani i adapteaz continuu cunotinele lor, este clar c un sistem
expert va fi acceptat doar dac:
a) baza sa de cunotine va putea fi adaptat sau corectat cu uurin, i
b) sistemul va putea justifica pe deplin concluziile la care ajunge.
Rezult de aici c un sistem expert este capabil s funcioneze chiar dac baza sa de
cunotine este incomplet. De obicei, procesul de nvare n urma cruia baza de cunotine
este pus la punct la un nivel acceptabil este foarte lung i costisitor, doar atunci cnd baza
de cunotine conine cteva mii de reguli putem spune c sistemul este operaional.
Un schelet de sistem expert este un sistem expert lipsit de cunotinele specifice ale unui
domeniu oarecare, n care sunt implementate doar regulile de raionament.
Pentru calculatoarele personale este posibil astzi dezvoltarea unui sistem expert,
plecnd de la un schelet, de ctre o singur persoan, cu condiia ca aceasta s posede
expertiza n domeniu. Dar, evident, nu putem avea pretenii privind calitatea!
n medicin majoritatea sistemelor expert (ncepnd chiar cu MYCIN, construit n anii
1970 pentru a alege o terapie anti-bacterian pentru pacieni suferind de o infecie grav) au
motoare de inferen ce utilizeaz diverse combinaii de raionament cu reguli de
producie.
S prezentm, din raiuni istorice, o regul de producie simpl care provine din
terapeutica medical:
IF
Rule 579

THEN

The infection that requires therapy is meningitis

AND

The patients chest X-ray is abnormal

AND

Active-tb is one of the diseases that the patients chest


X-ray suggests
there is strongly suggestive evidence that Mycobacterium-tb is one of the organisms (other than those
seen on cultures or smears) that might be causing the
infection

223

i iat cum apare concret o regul asemntoare n limbajul primitiv, ne-evoluat, n care a
fost creat MYCIN:
($AND (SAME CNTXT GRAM GRAMPOS)
(SAME CNTXT MORPH COCCUS)
(SAME CNTXT CONFORM CLUMPS))
(CONCLUDE CNTXT TALLY STAPHYLOCOCCUS TALLY 700)
i s ncheiem prin a preciza c n limbajele actuale descrierea regulilor este mult mai
comod.
Specificul cunotinelor medicale este gradul de incertitudine (certainty factor) ce
nsoete faptele, cunotinele, ba chiar i regulile de raionament, iar n implementarea
raionamentelor este necesar i implementarea unor reguli de calcul cu aceste grade de
incertitudine. Un exemplu istoric este dat de aa-numita algebr Stanford care a fost
implementat pentru prima dat n MYCIN.

224

Anexa 1. Teoria informaiei

Informaia medical, caracterizat prin extrem complexitate i incertitudine, se


deosebete fundamental de informaia cu care se opereaz n alte domenii ale tiinei. Totui,
n tratarea ei sunt exploatate principii i metode generale ale teoriei informaiei.
n acest curs prezentm principalele idei i metode ale teoriei a informaiei care se
refer la prelucrarea datelor generale mpreun cu cteva aplicaii. Printre acestea,
arhivarea prin compresie i transmisia criptat.
Coninutul acestei anexe este urmtorul:
A1.1. Mesaje i cantitatea de informaie ................................................................... 226
A1.2. Entropia informaional ................................................................................... 228
A1.3. Codificarea Huffman ....................................................................................... 229
A1.4. Alte metode de compresie a datelor ................................................................. 231
A1.5. Transmisia sigur a datelor .......................................................................... 232

Adrese web utile:


en.wikipedia.org/wiki/Huffman_coding
michael.dipperstein.com/huffman/index.html
(/rle/index.html, /lzw/index.html)
en.wikipedia.org/wiki/Public-key_cryptography

225

A1.1. Mesaje i cantitatea de informaie

Teoria informaiei este o ramur a teoriei probabilitilor i statisticii matematice, care


preia ns o serie de concepte din termodinamic i din mecanica statistic, anume cele
folosite pentru exprimarea dezordinii.
n teoria informaiei, fundamentat de ctre Claude Shannon ntro serie de articole
ncepnd cu A Mathematical Theory of Communication aprut n 1948 n Bell Systems
Technical Journal se ncearc s se stabileasc o msur a surprizei pe care o resimim
atunci cnd aflm rezultatul unui experiment aleatoriu. Aplicaiile sale n domeniul
Tehnologiei Informaiei i Comunicaiilor sunt larg utilizate astzi att n stocarea datelor,
ct i n transmiterea lor la distan.
Reamintim c rezultatele posibile ale unui experiment aleatoriu sunt numite evenimente,
iar principalul nostru interes este estimarea probabilitilor lor de apariie (viitoare). Notnd
cu E1 , E2 ,... evenimentele unei familii complete (a se vedea seciunea 3.1 din cursul 3) i cu
p1 , p 2 ,... probabilitile respective, informaia de care dispunem cu privire la rezultatul unui
experiment viitor poate fi rezumat ntrun tabel cu dou linii
E1

p1

E2
p2

...

...

n acest experiment, E1 E2 ... este sigur, iar p1 + p 2 + ... = 1 . Ultima relaie


exprim faptul c toate ansele sunt epuizate de evenimentele elementare considerate.
Principala problem a teoriei informaiei const n asocierea la schema de mai sus a unei
msuri a incertitudinii rezultatului.
Pentru aceasta, s considerm un eveniment (viitor) E a crui probabilitate de apariie
P( E ) o estimm (acum) la valoarea p. Ulterior vom primi un mesaj care ne va anuna c E
a aprut (vezi figura urmtoare). Ce putem spune despre cantitatea de informaie existent
n acest mesaj?

Conform lui Shannon, aceast cantitate de informaie va reflecta surpriza pe care o vom
resimi la primirea mesajului. Intuitiv, dac am estimat a priori c apariia evenimentului E
este aproape sigur, cu alte cuvinte am estimat c P( E ) este apropiat de 1, nu vom fi prea
surprini de coninutul mesajului. Dimpotriv, dac am estimat o valoare mic, apropiat de
0, a lui P( E ) , atunci surpriza noastr la apariia mesajului va fi mare, i cu att mai mare cu
ct valoarea p = P( E ) a fost mai mic.
S notm cu J ( E ) cantitatea de informaie existent n mesajul
a aprut evenimentul E
i s admitem c surpriza pe care o resimim la primirea mesajului nu depinde de coninut,
ci numai de probabilitatea a priori P( E ) . Aceasta nseamn c putem echivala
J ( E ) = I ( p) = I (P( E ))

unde I este o funcie real [0, 1] [0, ) .


226

Cazul cel mai simplu este cel al unui experiment de tip alternativ echiprobabil
(reprezentat de aruncarea unei monede subiri, perfect omogene i simetrice). Rezultatul
experimentului este rezumat n tabelul
H T
1 1 .

2 2
Cantitatea de informaie J ( H ) existent n mesajul
n urma aruncrii monedei a aprut deasupra faa H
poate fi aleas ca unitate de msur pentru cantitile de informaie. Notaia uzual pentru
aceast unitate de msur este de bit.
Aadar,
J (H ) = I

( ) = 1 (bit).
1
2

Condiia fundamental pe care trebuie s o ndeplineasc funcia I este obinut n felul


urmtor. S considerm dou evenimente E, F independente ntre ele i s analizm mesajul
ce va anuna c ambele au avut loc.
Estimrile a priori ale probabilitilor evenimentelor sunt p = P( E ) , q = P( F ) . Faptul c
evenimentele sunt independente se traduce n urmtoarea relaie:
P( E F ) = P( E ) P( F ) = p q .
Cantitatea de informaie coninut n mesajul
a aprut evenimentul E F
este evident J ( E F ) , adic I ( p q) . Pe de alt parte, este destul de evident c mesajul este
format din dou mesaje:
a aprut evenimentul E i a aprut evenimentul F.
Aadar, n coninutul mesajului se cumuleaz dou cantiti de informaie, J ( E ) = I ( p)
respectiv J ( F ) = I (q) . Cu alte cuvinte, vom avea
J (E F ) = J (E) + J (F )
care se traduce n condiia
I ( p q ) = I ( p) + I (q) pentru orice p, q [0, 1] .
Aceast condiie indic faptul c I ar trebui s fie o funcie logaritmic. innd seam i
de condiia de normare I

( ) = 1 , suntem condui la alegerea lui Shannon:


1
2

1
p
n figura urmtoare prezentm graficul funciei lui Shannon.
I ( p) = log 2

227

A1.2. Entropia informaional

S considerm acum toate mesajele ce sunt posibile a aprea, care s ne anune rezultatul
unui experiment viitor. Cantitatea de informaie coninut n mesajul
a aprut evenimentul Ei
1
, unde pi este estimarea fcut acum
este, conform celor stabilite anterior, I ( pi ) = log 2
pi
asupra probabiltii de apariie a evenimentului Ei .
Ce se poate spune acum despre ansamblul acestor mesaje? Care este cantitatea de
informaie coninut n mesajul care ne va anuna rezultatul experimentului? Evident, aceasta
este rezumat n tabelul cu dou linii
1
1

log 2
...
log 2
p1
p2

p
...
1
2

Cu alte cuvinte, cantitatea de informaie care ne va anuna rezultatul experimentului


este o variabil aleatoare discret (vezi seciunea 3.6 din cursul 3).
S considerm o particularizare a situaiei anterioare. Mai precis, s admitem c la
destinatar se recepioneaz mesaje transmise de o surs emitoare (fr ca acestea s
sufere modificri pe canalul de comunicaie). Sursa genereaz aleatoriu simboluri din
alfabetul A = {a1 , a 2 ,..., a K } iar pi este probabilitatea ca sursa s genereze simbolul ai .
Mesajul a aprut evenimentul Ei nu nseamn altceva dect c sursa a generat simbolul
ai . n aceast situaie, cantitatea de informaie asociat cu recepionarea simbolului (sau cu
1
, iar cantitatea de informaie asociat recepionrii
emiterea simbolului) ai este log 2
pi
(emiterii) unui simbol este variabila aleatoare
1
1
1

log 2
... log 2

log 2
p1
p2
pK

p
p2
pK
...
1

Media acestei variabile aleatoare poart numele de entropia informaional asociat


recepionrii (sau emiterii) unui simbol oarecare.
Este notat prin tradiie cu:
1
1
1
H ( p1 , p 2 ,..., p K ) = p1 log 2
+ p2 log 2
+ ... + p K log 2
p1
p2
pK
i are ca valoare maxim
H max = log 2 K
1
de a fi
maxim atins n situaia n care simbolurile au toate aceeai probabilitate pi =
K
emise.
Dac sursa emite un mesaj format din N simboluri consecutive (fr a-i schimba
regulile pe parcurs)
M = s1s 2 ...s N
atunci entropia informaional asociat emiterii semnalului M este
N H ( p1 , p 2 ,..., p K )
iar valoarea maxim este
N H max .
228

Compresia datelor este posibil deoarece datele obinute din lumea real sunt
redundante. Redundana R a unui mesaj este definit, n teoria informaiei, ca abatere a
entropiei sale fa de entropia maxim
R = N log 2 K N H ( p1 , p 2 ,..., p K ) .
Este evident c transmisia unui mesaj cu redundan mic cu toate c pare economic
nu este recomandat: orice perturbaie care afecteaz transmisia mesajului pe canalul de
comunicaie ar putea provoca imposibilitatea nelegerii sale de ctre destinatar.
Acelai argument este valabil i n ceea ce privete stocarea datelor pe termen lung.
Este motivul principal pentru care, de exemplu, stocarea unui bit de date pe suprafaa unui
disc compact se efectueaz destul de redundant, pe 3 poziii consecutive i nu pe una!
A1.3. Codificarea Huffman

Codificarea Huffman este o metod de reprezentare a literelor unui alfabet obinuit prin
cuvinte de lungime diferit formate cu bii.
Aceast metod poate fi folosit pentru compresia unui mesaj exprimat ca o secven de
litere ale alfabetului. Metoda exploateaz puternic frecvenele de apariie ale literelor n
mesaj sau, n lipsa acestora, estimri ale lor.
Este binecunoscut faptul c n limbile naturale exist diferene mari ntre frecvenele de
apariie ale diverselor litere. Astfel, de exemplu, n toate limbile europene vorbite cea mai
frecvent este litera [e]; ea este folosit cu o frecven de aproximativ 13%. Instinctul ne
spune c, pentru a economisi spaiu de stocare i/sau de timp de transmisie, litera [e] ar
trebui s fie codificat printro secven scurt de bii.
Aceasta este ideea care st la baza codificrii Huffman. Pentru a o preciza, s considerm
c dorim s transmitem un mesaj lung
M = l1l 2 ...l N
format din litere ale alfabetului A, alfabet care are K litere
A = {a1 , a 2 ,..., a K }
i c tim frecvenele de apariie ale acestor litere n mesaj, fie acestea respectiv
F1 , F2 ,..., FK .
Evident, F1 + F2 + ... + FK = N deoarece nu folosim alte litere!
S presupunem c vom codifica fiecare liter ak din alfabet printro secven specific de
exact Lk bii, dup care vom folosi aceasta pentru a codifica mesajul M ca o secven de
bii. Numrul acestor bii, adic lungimea mesajului codificat C, se obine cu uurin
F1 L1 + F2 L2 + ... + FK LK .
Se pune problema alegerii unei codificri care s asigure o lungime minim a mesajului
codificat C i s permit, de asemenea, o decodificare lipsit de orice posibil eroare sau
confuzie.
Huffman a demonstrat c lungimea minim nu poate fi mai mic dect entropia
mesajului, dat de
F
F
N F2
N
N
H = 1 log 2
+
log 2
+ ... + K log 2
.
N
F1 N
F2
N
FK
n esen, metoda lui Huffman ncearc s creeze un arbore binar, ale crui noduri
frunze, nemarcate, sunt exact literele alfabetului A, mpreun cu frecvenele lor. La fiecare
nou etap cele dou noduri nemarcate care au frecvenele minime vor fi marcate i unite
ntrun nod nou nemarcat, a crui frecven se va obine prin nsumare. Construcia se oprete
229

odat cu crearea nodului rdcin. Arborele creat permite recodificarea fiecrei litere prin
drumul urmat de la rdcin pn la acea liter. Convenional, ramificaiile spre stnga pot fi
codificare cu 0, iar cele spre dreapta cu 1.
S considerm, de exemplu, mesajul
prepararea_raportului
Un calcul al frecvenelor de apariie a literelor arat urmtoarele date iniiale:
Litera
Frecvena

e
2

i
1

l
1

_
1

o
1

p
3

r
5

t
1

u
2

a
4

Arborele binar, construit de la aceste frunze, va fi urmtorul:


i
1

l
1

e
2

_
1

o
1

t
1

u
2

p
3

a
4

r
5

12

21
Folosind acest arbore vom recodifica fiecare liter dup ramificaiile drumului de la
rdcin:
i

l
0

_
1

o
0

u
0

p
0

a
0

r
0

0
root

Aadar, codificarea literelor este urmtoarea:


230

Litera
Codul
Litera
Codul
a
111
p
011
e
000
r
10
i
0010
t
1100
l
0011
u
1101
o
0101
_
0100
iar mesajul va fi codificat, ca secven de bii, astfel:
01110000011111101111000011101001011101101011011001101001111010010
Pentru a-l decodifica, s folosim tabloul invers de coduri:
Codul
Litera
Codul
Litera
000
e
011
p
0010
i
10
r
0011
l
1100
t
0100
_
1101
u
0101
o
111
a
i s observm c 011 identific fr dubii pe p, apoi 10 identific pe r .a.m.d.
S facem observaia c orice modificare a vreunui bit este catastrofal pentru
decodificare, fcnd imposibil recuperarea mesajului iniial.
A1.4. Alte metode de compresie a datelor

Vom trece n revist cteva metode de compresie a datelor. S ncepem cu metoda RLE
(iniialele de la run-length encoding), care este poate cea mai simpl procedur de compresie
de date. Ea poate fi folosit cu succes atunci cnd gradul de repetabilitate al datelor (adic
redundana) este mare, aa cum este cazul imaginilor n alb-negru.
De exemplu, secvena de 30 de bii
000001111000000011100001111111
poate fi recodificat n secvena de 24 de bii
101010011110011110001111
care trebuie interpretat astfel: 5 bii consecutivi 0, urmai de 4 bii consecutivi 1, apoi de 7
bii consecutivi 0 .a.m.d.:
101 0 100 1 111 0 011 1 100 0 111 1
(5)
(4)
(7)
(3)
(4)
(7)
O variant a acestei metode este folosit n crearea coninutului fiierelor grafice PCX n
care se stocheaz imagini standard alb-negru.
Pentru a da un exemplu, s considerm doar rnduri consecutive ale unei imagini, cu
pixelii organizai n octei. n mod normal, al doilea rnd prezint puine modificri fa de
primul. Prin recodificarea sa, primul octet va indica prin valori 1 care octei din rndul al
doilea au suferit modificri fa de octeii corespunztori din rndul anterior. (n exemplul de
mai jos acetia sunt octeii 2, 3 i 7.) Dup el urmeaz imediat cei 3 octei care au suferit
modificri .a.m.d..
1

10

11

...

Rndul 1
Rndul 2
original
Rndul 2
recodificat

01100010

10100000

231

Ca observaie general, este posibil ca n urma aplicrii metodelor de tip RLE, n anumite
situaii s nu obinem o micorare a spaiului de memorare ocupat, ci dimpotriv!
Metoda LZW (iniialele numelor autorilor, Lempel Abraham, Ziv Jacob, Welch Terry)
este o procedur uzual de compresie a textelor, dar i imaginilor digitale.
Principiul metodei este simplu: se trateaz coninutul original ca o secven de simboluri
(de obicei de 12 bii) ncercndu-se codificarea subsecvenelor pe msur ce ele sunt
identificate (de obicei n semne de 8 bii) Alfabetul de semne se extinde prin introducerea de
noi semne care reprezint subsecvenele nou ntlnite, crendu-se o tabel de compresie, care
se completeaz n etape. La fiecare nou etap se preia prima subsecven care nu se
regsete n tabel; ea trebuie s fie de forma
Ss
unde S este o subsecven ce se regsete deja n tabel, iar s este simbolul urmtor. Aceast
subsecven Ss va fi nlocuit prin semnul urmtor al alfabetului, iar nlocuirea va fi
nregistrat n tabela de compresie.
Ca exemplu, s aplicm algoritmul LZW secvenei de 21 de simboluri (atenie, spaiul
alb este i el unul, l vom nota prin _ !)
prepararea_raportului
ntocmim, n etape succesive, tabela de conversie urmtoare:
Etapa
subsecvena
semnul
Etapa
subsecvena
semnul
1
p
8
_
A
H
2
r
9
B
Ep (rap)
I
3
e
10
o
C
J
4
11
Aa (pa)
D
Bt (rt)
K
5
12
u
Ba (ra)
E
L
6
13
l
Be (re)
F
M
7
a
14
G
Li (ui)
N
Ca urmare a recodificrii, vom obine secvena de 14 semne:
AB C D E FG H I J K L MN
(p)(r)(e)(pa)(ra)(re)(a)(_)(rap)(o)(rt)(u)(l)(ui)
(Atenie, exemplul anterior este artificial i incorect: algoritmul se aplic unor simboluri
care nu sunt caractere pe 8 bii!)
Implementri ale metodei sunt folosite n crearea coninutului fiierelor-imagine GIF,
precum i a fiierelor-document portabil create cu aplicaia Acrobat a firmei Adobe.
A1.5. Transmisia sigur a datelor

S presupunem c dispunem de o informaie i dorim s-o mprtim n exclusivitate unui


prieten. Evident, vom folosi un canal de comunicaie pe care vom trimite un mesaj. Ce
metod am putea folosi care s ne asigure c oricine va intercepta mesajul cu excepia
prietenului nu va fi capabil s-l neleag?
Evident, am putea ncerca criptarea informaiei I cu ajutorul unei chei K, transmind de
exemplu mesajul M = I xor K .
(Operaia binar xor este descris, la nivel de bit, prin tabela urmtoare:
a
a xor b
0
1
0
0
1
b
1
1
0
i are proprietatea c (a xor b) xor b = a .)
232

Odat ce cheia K este cunoscut de ctre prietenul nostru, el va putea recupera informaia
originar efectund aceeai operaiune, cci M xor K = I . (Cu alte cuvinte, decriptarea se
efectueaz cu exact aceeai procedur ca i criptarea.)
Din nefericire, vom fi nevoii s-i comunicm prietenului, anterior trimiterii mesajului,
cheia K. n codiiile n care comunicaiile ne-au fost interceptate, este clar c decriptarea
mesajului este la ndemna celor ce ne supravegheaz comunicaiile.
Ar exista oare posibilitatea ca s trimitem prietenului, n clar, suficiente informaii pentru
ca s putem comunica ulterior fr a ne teme de succesul interceptrii? Rspunsul este
afirmativ, iar una dintre posibiliti poart numele de criptarea cu chei publice. S-i facem
o prezentare, la ndemna oricui are cunotine despre operaiile aritmetice modulo p.
Metoda criptrii cu chei publice se bazeaz pe o proprietate elementar a numerelor prime
p: exist numere g cu proprietatea c puterile g , g 2 , g 3 , g 4 ,..., g p 1 sunt toate diferite ntre
ele modulo p. Cu alte cuvinte, primele p 1 puteri ale generatorului p acoper (modulo p)
toate numerele ntre 1 i p 1 (inclusiv).
De exemplu, pentru p = 7 numrul g = 3 este generator, ntruct
g = 3, g 2 2, g 3 6, g 4 4, g 5 5 i g 6 1 (mod 7) ,

iar pentru p = 11 chiar g = 2 este generator.


S presupunem c dorim s comunicm n siguran cu prietenul nostru, chiar dac
mesajele schimbate sunt interceptate. Vom alege un numr prim p i un generator g (modulo
p), pe care i comunicm prietenului. Odat cu aceste numere, o s-i comunicm i cheia
public A = g a (mod p) pe care am calculat-o dup ce ne-am ales un numr a (pe care-l
vom pstra secret). l vom ndemna s aleag i el un numr b (pe care s-l pstreze secret),
s calculeze cheia sa public B = g b (mod p) , pe care s ne-o trimit.
Aadar, prietenul nostru i odat cu el oricine altcineva intercepteaz comunicaiile
noastre va afla numerele p, g i A. La rndul nostru, vom afla cheia public B a prietenului
(la fel ca i interceptorul).
n acest moment, mpreun cu prietenul nostru dispunem de o informaie pe care nu o
cunoate interceptorul, i anume dispunem de cheia de criptare K = B a (mod p) . Aceeai
cheie de criptare este obinut de prietenul nostru prin operaiunea Ab (mod p) .
ntruct numerele a i b nu-i sunt cunoscute interceptorului, el nu va avea acces direct la
cheia de criptare K. Tot ceea ce poate face este s ncerce rnd pe rnd toate posibilitile,
adic toate numerele ntre 1 i p 1 inclusiv.
La prima vedere pare o sarcin uoar! n realitate, pentru numere prime p cu cteva sute
de cifre, ea se dovedete practic imposibil. (Pentru comparaie, numrul atomilor din
universul cunoscut este estimat a avea 81 de cifre!)
Aadar, o criptare simpl cu o cheie de cteva sute de bii cunoscut doar de noi i de
prietenul nostru, este suficient pentru o transmisie n siguran a informaiei.
Cele de mai sus constituie fundamentul metodei Diffie-Hellman-Merkle.
Atenie, metoda nu este deloc sigur! Cel ce intercepteaz comunicaiile poate s ne
nlocuiasc n relaia cu prietenul nostru, i simultan s ne declare c el este de fapt prietenul
nostru! Pentru a combate aceste substituiri imposibil de verificat, se folosesc:
1) proceduri de autentificare a emitorilor, bazate pe semnturi digitale, i
2) chei formate din dou pri, una public, cealalt privat.

233

Anexa2. Inteligena artificial


Adaptarea la un mediu n continu schimbare nu mai este astzi apanajul doar al fiinelor
vii. n cazul calculatoarelor, n prezent cele mai utilizate mecanisme de adaptare sunt reelele
neurale i algoritmii genetici. Vom prezenta n cele ce urmeaz modul n care sunt abordate
aceste mecanisme n cadrul a ceea ce numim inteligen artificial, domeniu al crui
nceputuri se leag de crearea limbajelor de programare.
Coninutul acestei anexe este urmtorul:
A2.1. Reele neurale artificiale (neural networks) ....................................................
A2.2. Activitatea unui element de prelucrare ...........................................................
A2.3. Perceptroni multi-strat .....................................................................................
A2.4. Algoritmi genetici ...........................................................................................
A2.5. Reele neurale cu auto-organizare ...................................................................
A2.6. Memorii asociative bi-direcionale .................................................................

Adrese web utile:


www.statsoft.com/textbook/stneunet.html
www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html
(/tcw2/report.html)
www.rennard.org/alife/english/gavintrgb.html

234

235
236
240
243
244
246

A2.1. Reele neurale artificiale (neural networks)

Experiena jocurilor, cum este cel de ah, arat c performana uman apare dup o
perioad, mai lung sau mai scurt, de nvare. Pentru a putea aciona uman la nivel
performant, calculatoarele trebuie s fie capabile i ele s nvee. Se poate nva din
experien personal, prin exemple, prin analogie. n general, procesele de nvare includ
mecanisme simple de adaptare, iar aceste mecanisme constituie fundamentul sistemelor
adaptive mai complexe. n cazul calculatoarelor, n prezent cele mai utilizate mecanisme de
adaptare sunt reelele neurale i algoritmii genetici. Vom aborda n cele ce urmeaz doar
reelele neurale.
O reea neural poate fi definit, evident, ca model de raionament abstract bazat pe
ceea ce tim despre creierul uman. Se tie c acesta const din celule nervoase (neuroni)
interconectate. Numrul acestor celule este imens, de circa 10 miliarde; de asemenea,
numrul conexiunilor (sinapselor) este de peste 50 de mii de miliarde, iar unele celule
nervoase au chiar n jur de o sut de mii de conexiuni cu alte celule.
Fiecare neuron n parte are o structur anatomic destul de simpl: un corp central
(soma), un numr de fire (dendrite) ce converg spre soma, un unic fir lung (axonul) conectat
prin sinapse la dendritele altor neuroni. Funciunea principal a neuronului este cea de
colectare, prelucrare i diseminare de semnale electrice.
Funcionarea creierului uman se bazeaz pe semnalele electrice care se propag de la un
neuron la altul prin reacii electrochimice complexe ce au loc n vecintatea sinapselor.
Reaciile electrochimice produc schimbri n potenialul electric al celulei nervoase, iar
atunci cnd este depit un anumit prag, este produs i se transmite de-a lungul axonului un
puls ce modific starea electric a sinapselor.
Se tie de asemenea c neuronii pot forma conexiuni noi, i c ntregi sub-reele de
neuroni pot migra. Toate acestea constituie fundamentul proceselor de nvare ce au loc n
creierul uman. Ca o concluzie general, creierul uman poate fi considerat ca un sistem
(neliniar) de prelucrare paralel a informaiei, avnd o nalt complexitate.
Prin analogie, n reelele neurale informaia va fi distribuit n ntreaga reea i va fi
prelucrat n paralel. Conexiunile ntre componentele reelei au ponderi ce variaz n timp;
cele ce conduc spre rspunsul corect se vor ntri, iar cele care conduc spre rspunsuri
greite se vor atrofia. n acest fel reelele neurale dobndesc capacitatea de a nva prin
experiene.
Cele mai cunoscute aplicaii ale reelelor neurale se regsesc n problemele de
recunoatere a formelor: identificarea scrisului de mn, recunoaterea cuvintelor n acustica
digital etc. Astzi ele sunt folosite n extragerea informaiei tipice din cantiti mari de date
(data mining) dovedindu-se uneori mai bune dect experii umani.
O reea neural const dintrun numr (relativ mare, dar foarte mic comparativ cu cel al
celulelor nervoase din creierul uman) de elemente de procesare simple, ns puternic interconectate ntre ele. Legturile ntre elementele de prelucrare sunt uni-direcionale i
ponderate, ele permind transmiterea ponderat a semnalelor de la un element de prelucrare
la altul. Fiecare element de prelucrare primete un numr (mare) de semnale de intrare prin
conexiunile sale. El nu produce dect un singur semnal de ieire, care este dirijat spre
exterior prin axon; totui, acesta din urm se separ n multe ramuri prin care semnalul
(unic) de ieire este direcionat spre alte elemente de prelucrare. n tabelul urmtor se
prezint analogia ntre reelele neuronale biologice i reelele neurale artificiale:
Reele
biologice:
Reele
artificiale:

Neuron

Soma

Dendrit

Axon

Sinaps

Element de
prelucrare

Neuron

Intrare
(input)

Ieire
(output)

Pondere
235

iar n figura urmtoare este reprezentat o reea neural simpl, ale crei elemente de
prelucrare sunt plasate pe trei straturi:

Este destul de uor de explicat modul n care nva o reea neural. Am precizat
anterior c fiecrei conexiuni (orientate) ntre dou elemente de prelucrare (se prefer
aceast denumire celei de neuron, pentru a nu se face confuzii cu creierele animalelor) i se
ataeaz o pondere numeric, a crei valoare exprim importana semnalului ce circul pe
acea conexiune. O reea neural va nva prin modificarea repetat a ponderilor
conexiunilor. Informaia se stocheaz de fapt n ponderile conexiunilor dintre elementele
de prelucrare. O reprezentare adecvat a informaiei stocate ntro reea neural este
urmtoarea (n care intensitile ponderilor sunt prezentate prin culori):

A2.2. Activitatea unui element de prelucrare

Vom presupune c fiecare element de prelucrare are posibilitatea de a-i determina,


moment cu moment, nivelul su de activare ca funcie de semnalele de intrare recepionate i
de ponderile conexiunilor. Apoi, pe baza nivelului de activare, va fi obinut semnalul de
ieire care fie va fi soluia problemei (pe care trebuie s o rezolve elementul de prelucrare),
fie va constitui un semnal de intrare pentru ali neuroni. Pentru simplificare vom considera
c ponderile conexiunilor pot fi modificate doar din exterior, n procesul de nvare.
n figura urmtoare reprezentm un element de prelucrare tipic.

Exist o diversitate de modele privind felul n care elementul de prelucrare i calculeaz


nivelul de activare i i stabilete semnalul de ieire. Din punct de vedere istoric, primul
model a fost propus n anul 1943 de ctre McCulloch i Pitts. Cu toate c este cel mai simplu
(sau poate exact din acest motiv) modelul McCulloch-Pitts constituie i astzi fundamentul
pentru multe reele neurale artificiale.
236

Pe scurt, elementul de prelucrare calculeaz, drept nivel de activare, suma ponderat a


semnalele de intrare. Acest nivel este comparat cu un prag . n caz c nivelul de activare a
este mai mic dect pragul , semnalul de ieire Y va avea valoarea 0, ceea ce corespunde
lipsei de activare. Dimpotriv, n caz c nivelul de activare a este cel puin egal cu pragul ,
atunci semnalul de ieire va avea valoarea 1, ceea ce corespunde activrii. n formul
matematic,
n

1
pentru

wi xi

i =1
Y =
n
0 pentru w x <

i i

i =1

sau

Y = step wi xi
i =1

funcia real pas (step, vezi figura urmtoare) fiind descris n mod evident de formula
1 pentru x 0
.
step( x) =
0 pentru x < 0

Nu este deloc natural presupunerea c semnalul de ieire este sau nul sau constant.
Dimpotriv, experimentele efectuate cu celule nervoase reale arat c rspunsul crete odat
cu valoarea de activare, dar pn la un nivel de blocare. Un model matematic simplu al
acestei comportri este funcia sigmoidal (numit i funcia logistic), avnd expresia

Y = sigmoid(a) =

1
1 + exp(a)

al crei grafic este prezentat n figura urmtoare.

Reprezentarea unui element de prelucrare cu dou intrri, n limbajul grafic al


ciberneticii, este prezentat n figura urmtoare.
Se poate observa c valoarea-prag d posibilitatea controlului din exterior asupra
funcionrii elementului de prelucrare.
237

S presupunem c sarcina acestui element de prelucrare este cea de a separa punctele din
clasa A de punctele din clasa B (din planul x1x2 vezi figura urmtoare).

tim c
w1 x1 + w2 x 2 = 0
este ecuaia unei drepte n plan, iar parametrii w1 , w2 i determin aceast dreapt.
Dreapta separ planul n dou semiplane; pentru unul dintre acestea, de exemplu pentru cel
haurat din figur, vom avea
w1 x1 + w2 x 2 < 0
ceea ce corespunde unei valori de ieire Y = 0.
Dimpotriv, pentru toate punctele (x1, x2) din cellalt semiplan vom avea
w1 x1 + w2 x 2 0
ceea ce corespunde unei valori de ieire Y = 1. (Am admis implicit c limitarea este dat de
funcia step.)
Elementul de prelucrare ar putea s separe clasele A i B dac valoarea de ieire ar fi 1
pentru toate punctele clasei A i 0 pentru toate punctele clasei B, ceea ce nu este cazul n
figur! Dar prin modificarea parametrilor w1 i w2 se pot obine diverse modificri ale
orientrii dreptei. Este evident c elementul de prelucrare i va ndeplini sarcina n caz c
dreapta de separare va avea o poziie ca i cea din figura urmtoare.

Aadar, nu ne rmne altceva dect s corectm corespunztor valorile parametrilor w1


i w2. Dar cum depistm faptul c este necesar corectarea parametrilor i cum se efectueaz
aceast corectare?
238

Rspunsul este simplu. Dac vom considera punctele claselor A i B, atunci vom constata
c pentru fiecare punct P = (x1, x2) avem o valoare dorit de ieire Yd(P) egal cu 1 dac
punctul P aparine clasei A, respectiv egal cu 0 dac punctul P aparine clasei B.
Pe de alt parte, pentru valorile date ale parametrilor w1 i w2, putem calcula rspunsul
Y(P) al elementului de prelucrare:
Y (P) = step( w1 x1 + w2 x 2 ) .
n caz c valoarea calculat Y(P) coincide cu valoarea dorit Yd(P), elementul de
prelucrare funcioneaz perfect i nu avem motive s efectum vreo corecie. n caz contrar,
s exprimm eroarea de funcionare
e(P) = Yd (P) Y (P) .
Dac aceast eroare este pozitiv, se impune creterea valorii de ieire Y(P). Aceasta are
loc prin modificarea ponderilor, dup o regul propus de ctre Rosenblatt (n 1960), numit
regula delta:
winou = wivechi + xi e(P) .
unde este o constant pozitiv subunitar, numit rata de nvare.
S exprimm algoritmul de nvare pentru elementele de prelucrare ce au ca sarcin
clasificri:
Pasul 1 (iniializarea). Se alege constanta (de exemplu, 0.5). Se alege pragul . Se
stabilesc, prin tragere la sori n intervalul [0.5, 0.5], ponderile iniiale w1, w2.
Pasul 2 (calculul nivelului de activare i al semnalului de ieire). Se alege un punct
P = (x1, x2) i, pentru acesta, se calculeaz valoarea de ieire corespunztoare
Y (P) = step( w1 x1 + w2 x 2 )
apoi eroarea corespunztoare
e(P) = Yd (P) Y (P) .
n caz c pentru toate punctele de control P s-a obinut e(P) = 0, algoritmul se ncheie (i
odat cu el etapa de nvare). n caz contrar, se continu cu:
Pasul 3 (modificarea ponderilor). Se calculeaz coreciile ponderilor, cu formula
wi = xi e(P)
apoi ponderile wi sunt nlocuite cu wi + wi . Se reia cu pasul 2.
Se poate stabili cu uurin c un element de prelucrare simplu, cu dou intrri, poate fi
antrenat rapid pentru a emula rspunsul funciilor logice AND i OR descrise de:
x1
x2
x1 AND x2
x1 OR x2
0
0
0
0
0
1
0
1
1
0
0
1
1
1
1
1
fundamentale pentru logica clasic. n general, se poate stabili c datorit formulei liniare de
calcul a nivelului de activare, un element de prelucrare poate fi antrenat pentru a efectua o
activitate de clasificare doar n cazul n care punctele celor dou clase sunt separate liniar.
Nu va putea fi antrenat niciodat pentru a separa clase de tipul celor din figura urmtoare.
Doar reelele cu mai muli neuroni vor putea face acest lucru.

239

A2.3. Perceptroni multi-strat

Prin definiie, un perceptron multi-strat este o reea neural n care conexiunile nu


formeaz nici un circuit, ns exist cel puin un strat intermediar (ascuns) de elemente de
prelucrare. n figura urmtoare prezentm schema unui perceptron cu dou straturi
ascunse.

Fiecare strat dintrun perceptron multi-strat i are rolul su. Stratul de intrare este format
din elemente de prelucrare de tip senzor care doar accept semnale de intrare dinspre
exterior i le redistribuie tuturor neuronilor de pe primul strat intermediar. (Cu alte
cuvinte, neuronii de pe stratul de intrare nu efectueaz nici un fel de calcule cu semnalele
de intrare; de aceea reprezentarea lor grafic difer de a celorlali.)
De fapt, neuronii de pe straturile intermediare detecteaz trsturile caracteristice ale
semnalului de intrare. Aceste trsturi caracteristice vor fi exploatate de neuronii de pe
stratul de ieire pentru a determina clasarea semnalului. Neuronii de pe straturile
intermediare sunt numii ascuni deoarece rspunsul lor nu poate fi detectat prin studierea
comportrii reelei fa de intrri i ieiri.
Cel mai cunoscut algoritm de nvare pentru perceptroni multi-strat este metoda cu
propagarea spre napoi a erorilor (error back-propagation). Principiul de baz al nvrii
este acelai: perceptronului multi-strat i se prezint un ansamblu de antrenament, constnd
dintrun numr de semnale de intrare clasificate. Perceptronul calculeaz, pentru fiecare
semnal de intrare din setul de antrenament, cte un semnal de ieire care este comparat cu
clasificarea dorit; n cazul apariiei unor erori de clasificare vor fi ajustate ponderile, n
scopul reducerii erorii totale de clasificare.
Erorile de clasificare sunt constatate analiznd rezultatele neuronilor de pe stratul de
ieire. Prin metoda propagrii spre napoi, din acestea se vor deduce i erorile de funcionare
ale neuronilor de pe stratul intermediar. i acestea din urm vor fi folosite n formulele de
ajustare a ponderilor.
S precizm formulele de calcul pentru un caz simplu, anume cel n care exist doar un
singur strat intermediar, presupunnd c funcia de activare este sigmoidal.
S presupunem c neuronii de pe stratul de intrare sunt identificai prin numerele 1, 2,
i, , I, cei de pe stratul de ieire sunt identificai prin 1, 2, , o, , O, iar cei de pe stratul
intermediar sunt identificai prin 1, 2, , h, , H.
Dup cum am precizat anterior, semnalele de intrare X1, X2, , Xi, , XI constituie exact
ieirile neuronilor din stratul de intrare. Notm cu wih(1) ponderea legturii dintre neuronul i
de pe stratul de intrare i neuronul h de pe stratul intermediar.
La intrarea n neuronul h de pe stratul intermediar se prezint semnalul Xi provenit de la
neuronul i de pe stratul de intrare. Acest semnal va fi nmulit cu ponderea wih(1) . Prin urmare,
neuronul h va calcula mai nti activarea
I

Ah = wih X i h
(1)

i =1

apoi va determina valoarea semnalului de ieire


240

Z h = sigmoid( Ah ) .

Cunoatem aadar semnalele de ieire Z1, Z2, , Zh, , ZH cale neuronilor de pe stratul
intermediar. La intrarea n neuronul o de pe stratul de ieire se prezint semnalul Zh provenit
( 2)
. Prin
de la neuronul h de pe stratul intermediar. Acest semnal va fi nmulit cu ponderea who
urmare, neuronul o va calcula mai nti activarea
H

(2)
Ao = who
Zh o
h =1

apoi va determina valoarea semnalului de ieire


Yo = sigmoid( Ao ) .
Presupunnd c tim care ar trebui s fie valoarea semnalului de ieire To pentru neuronul
o (n cazul funcionrii corecte a perceptronului) vom putea spune c eroarea activitii
neuronului o este
eo = To Yo .
Pentru corectarea activitii perceptronului (prin modificarea ponderilor, n etapa de
nvare) aceast eroare absolut trebuie luat n considerare innd seam i de nivelul
activitii neuronului o, precum i de nivelul semnalului de intrare Zh.
A fost propus formula:
(2)- nou
(2)- vechi
who
= who
+ Z h eo dersigmoid( Ao )

n care dersigmoid este derivata funciei sigmoidale.


Acest lucru nu este suficient. i ponderile legturilor dintre neuronii din stratul de intrare
i cei din stratul intermediar trebuie corectate. Formula propus este asemntoare:
wih(1)-nou = wih(1)-vechi + X i eh dersigmoid( Ah )

n care eroarea de activare a neuronului ascuns h este dat de formula:


O

e h = who eo dersigmoid( Ao ) .
(2)

o =1

S rezumm algoritmul de nvare pentru perceptronul multi-strat.


Pasul 1 (iniializarea). Se alege constanta (= 0.5). Se alege pragul specific fiecrui
( 2)
neuron n parte. Se stabilesc, prin tragere la sori, toate ponderile iniiale wih(1) i who
.
Pasul 2 (calculul nivelului de activare i al semnalului de ieire). Se alege un set de date
de antrenament. Pentru acesta se calculeaz mai nti rspunsurile neuronilor ascuni Zh, apoi
valorile de ieire corespunztoare Yo, apoi erorile eo.
n caz c pentru toate seturile de date de antrenament s-au obinut toate erorile eo foarte
mici, algoritmul se ncheie (i odat cu el etapa de nvare). n caz contrar, se continu cu:
( 2)
Pasul 3 (modificarea ponderilor). Se calculeaz coreciile ponderilor wih(1) i who
cu
formulele de mai sus, apoi ponderile vechi sunt nlocuite cu cele noi. Se reia cu pasul 2.

241

Reamintim c dorim ca perceptronul s nvee s clasifice corect seturi de date de


antrenament. n mod ideal, aceasta nseamn ca, prin prelucrarea datelor de intrare ale unui
set de antrenament oarecare, neuronii de pe stratul de ieire ar trebui s produc drept
semnale de ieire exact datele de ieire ale setului de antrenament. Evident, acest ideal este
imposibil de atins, dar nu este deloc necesar s fie atins. Vom putea s ne declarm
mulumii de activitatea perceptronului chiar dac el va face erori, ns nu prea mari. De fapt,
fiecare neuron o de pe stratul de ieire va produce un rezultat Yo care se va abate de la inta
To, iar anterior am notat cu eo eroarea de funcionare:
eo = To Yo .
Avem nevoie de un indicator global al erorii de funcionare a perceptronului, lund n
considerare rezultatele tuturor neuronilor de pe stratul de ieire. Un asemenea indicator
global al performanei perceptronului este suma ptratelor erorilor individuale eo, mai
precis
O

(T
o =1

Yo ) 2 .

Formulele de modificare a ponderilor, prezentate mai sus, au acel aspect tocmai datorit
unor raionamente matematice care au ca scop minimizarea acestei erori globale de
funcionare.
Pentru a fi precii pn la capt, s admitem c dorim ca perceptronul s clasifice ct mai
corect un numr de S seturi de antrenament, fiecare constnd dintrun ansamblu de semnale
de intrare i un ansamblu de semnale-int de ieire
X 1s , X 2s ,..., X is ,..., X Is , T1s , T2s ,..., Tos ,..., TOs (s {1, 2,. , S})
Etapa de nvare a perceptronului va consta din mai multe epoci, n fiecare epoc fiind
tratate toate cele S seturi de antrenament evident, prin modificarea ponderilor conform
formulelor de mai sus urmrindu-se minimizarea erorii globale
S

s =1

o =1

E = ( (Tos Yos ) 2 )

unde Y este rezultatul produs de neuronul de ieire o atunci cnd perceptronului i se


prezint setul de antrenament s.
s
o

n figura de mai sus este prezentat, n scar logaritmic, evoluia tipic a erorii globale
de antrenare a unui perceptron, ca funcie de numrul de epoci parcurse.
Etapa de nvare poate fi considerat ncheiat atunci cnd eroarea global a sczut sub
un nivel acceptat ca foarte mic.
La pasul 1 al algoritmului de mai sus se specific faptul c valorile iniiale ale ponderilor
sunt alese n mod aleator. Aceasta determin faptul c, n urma etapei de nvare, pot fi
obinute valori diverse ale ponderilor. n general exist muli perceptroni care rezolv
problema de clasificare dorit!
242

Metoda propagrii spre napoi a erorilor, pe care am prezentat-o n cadrul algoritmului de


mai sus, nu se regsete n lumea neuronilor reali din creierul uman. Ea nu emuleaz
procesele de nvare uman, este doar o creaie artificial obinut prin raionament logic,
uor implementabil n programele de calculator.
A2.4. Algoritmi genetici

Reelele neurale de tip perceptron multi-strat sunt folosite pentru clasificri automate, fr
intervenia omului. Ele sunt nvate s clasifice pe baza unui set de antrenament; n etapa
preliminar, anterioar funcionrii efective, sunt antrenate s clasifice corect un numr dat
de configuraii.
Reamintim c nvarea const n modificri iterative ale valorilor ponderilor legturilor
dintre elementele de prelucrare, urmrindu-se micorarea erorii globale de rspuns, pe ct
posibil sub un nivel de toleran admis.
Dar ce se intmpl dac n urma unui numr foarte mare de iteraii efectuate eroarea
global nu scade deloc sub nivelul de toleran? Evident, un perceptron reglat n acest fel nu
este capabil s clasifice corect nici mcar configuraiile din setul de antrenament; el este
inutilizabil.
Ce soluii se ntrevd n asemenea situaii? Un rspuns ne este dat de teoria evoluiei
speciilor.
Mai precis, perceptronul va fi considerat ca un individ al speciei perceptronilor,
identificat de un genotip particular. I se va ataa un indicator de performan legat de
eroarea global de rspuns asociat. n cadrul unui aa-numit algoritm genetic, vor fi creai,
n generaii succesive, perceptroni din ce n ce mai performani, care vor nocui pe cei mai
puin performani.
Figura urmtoare arat cum se creaz genotipul unui perceptron: se iau n considerare, n
ordine, legturile dintre elementele de prelucrare, iar ponderile lor se codific binar.

ponderi n ordine: 0.4 0.8 0.7 0.3 0.2 0.3


genotip
0100 1000 0111 0011 0010 0011
Indivizi din generaia urmtoare se obin fie prin mutaie, fie prin ncruciare (cross-over).
Este simplu s descriem aceste operaiuni. S admitem c un individ din vechea generaie
are genotipul a1 a 2 ...a p 1 a p a p +1 ...a n , unde ai sunt bii. O mutaie n poziia p va produce
individul al crui genotip este format din aceeai secven de bii, cu excepia bitului a p ,
care este nlocuit de complementul su a p . Aadar, noul individ va avea genotipul
a1 a 2 ...a p 1 a p a p +1 ...a n .

S admitem c doi indivizi din vechea generaie au genotipul a1 a 2 ...a p 1 a p a p +1 ...a n ,


respectiv b1b2 ...b p 1b p b p +1 ...bn . Prin ncruciare n poziia p ei vor produce doi indivizi noi,
avnd genotipul a1 a 2 ...a p 1b p b p +1 ...bn , respectiv b1b2 ...b p 1 a p a p +1 ...a n
S observm c operaiunile de creare de indivizi noi depind de poziia p. Este nevoie i
de un generator aleator al acestei poziii, care ar trebui s funcioneze similar cu funcia
RANDOM() din Excel.
Odat precizate toate aceste amnunte, este uor de descris un algoritm genetic:
243

Pasul 1. Se genereaz aleator generaia iniial P(0) i se iniializeaz etapa = 0.


Pasul 2. Pn la epuizarea resurselor de timp alocate, sau pn se obine un individ
corespunztor din generaia P(etapa),
a) se evalueaz indicatorul de performan al fiecrui individ din generaia P(etapa);
b) se selecteaz un numr de indivizi din generaie, asupra crora se efectueaz mutaii
(pe poziii generate aleator);
c) se selecteaz un numr de perechi de indivizi din generaia P(etapa), din care se obin
prin ncruciare alte perechi de indivizi.
Indivizii nou creai vor nlocui indivizii cei mai puin performani din vechea generaie.
mpreun cu cei rmai, vor forma noua generaie P(etapa+1). Se incrementeaz etapa i se
continu cu pasul 2.
Algoritmii genetici sunt foarte flexibili, n genotipul individului putnd fi incluse, alturi
de ponderile legturilor dintre elementele de prelucrare, i elemente privind posibilele
schimbri n topologia perceptronului, de asemenea i bii care s identifice posibile reguli
de nvare. Fiind programe de calculator, simularea a sute de mii de generaii este o
problem de secunde, astfel c ansele de a obine soluii convenabile cu ajutorul lor sunt
considerabile.
A2.5. Reele neurale cu auto-organizare

Principala proprietate a unei reele neurale este capacitatea de a-i mbunti performana
prin nvare, Pn acum am considerat doar cazuri de reele care nva din seturi de
antrenament, ceea ce corespunde nvrii umane sub supravegherea unui profesor.
Vom prezenta n continuare cazuri de reele neurale care, pentru a nva s funcioneze
corect, nu au nevoie de un profesor extern. n timpul etapei de nvare reelele neurale cu
auto-organizare analizeaz seturile de date pe care le primesc, descoper trsturile
principale ale acestor date, nva cum s clasifice datele n grupe (clase) coerente. Acest tip
de nvare tinde s reproduc modul n care funcioneaz creierul uman.
Reelele neurale cu auto-nvare sunt foarte eficiente atunci cnd au de-a face cu date
care se schimb brusc sau neateptat.
Vom considera dou tipuri de asemenea reele, anume cele care folosesc nvarea
hebbian i cele care folosesc nvarea competitiv, aa-numitele reele Kohonen.
Una dintre metodele fundamentale folosite n nvarea biologic a fost propus n anul
1949 de ctre Hebb i este cunoscut sub numele de legea lui Hebb:
dac neuronul i este capabil s excite neuronul j i dac particip n mod repetat la activarea
acestuia, atunci legtura sinaptic ntre cei doi neuroni este ntrit, iar neuronul j devine mai
senzitiv la stimulii venii dinspre neuronul i.
Legea lui Hebb ofer fundamentul pentru nvarea hebbian fr profesor. Anume,
dac Xi este valoarea de ieire a neuronului i iar Yj este valoarea de ieire a neuronului j,
atunci modificarea ponderii wij a legturii ntre neuronul i i neuronul j are loc dup o
formul:
wij = F (Y j , X i )
unde F este o funcie de activitile pre-sinaptice i post-sinaptice.
Cea mai simpl expresie a acestei funcii este regula produsului activrilor
wij = Y j X i
n care este o constant pozitiv ce exprim rata de nvare a reelei.
Exist i alte expresii utilizate n ncercrile de construire de reele concrete, de exemplu
urmtoarea, n care se ine seam de un coeficient de uitare (care exprim rata de
uitare a reelei)

wij = Y j X i Y j wij .
244

O alt metod de nvare ne-supervizat (fr profesor) a fost imaginat de ctre


Kohonen (1990); este vorba despre aa-numita nvare competitiv.
Ideea lui Kohonen se bazeaz pe observaia c un creier uman are ca parte dominant
cortexul, care nu este nici uniform, nici omogen, i include zone responsabile pentru
diversele activiti umane (motorii, vizuale, auditive etc.) care sunt asociate cu diversele
inputuri senzoriale. Fiecare input senzorial este asociat cu o zon corespunztoare n cortex.
Kohonen a formulat principiul formrii hrii topografice:
poziia spaial a unui neuron de ieire ntro zon topografic corespunde unei trsturi
specifice a configuraiilor de intrare.
Cel mai simplu model Kohonen de reea neural presupune existena a dou straturi de
neuroni. Fiecrei configuraii de intrare (mai precis fiecrei configuraii de nivele de activare
a neuronilor din stratul de intrare) i corespunde o configuraie de ieire. n figura urmtoare
stratul de ieire este format din 16 neuroni, fiecare legat de cei doi neuroni din stratul de
intrare, de asemenea de vecinii si din stratul de ieire. Prin nuane de gri sunt reprezentate
nivelele de activare ale neuronilor din stratul de ieire, corespunztoare configuraiei 1-0
de nivele de activare ale celor doi neuroni din stratul de intrare.

Se poate observa c un neuron de pe stratul de ieire are nivelul maxim de activare; el este
aa-numitul neuron ctigtor. Neuronii din vecintatea sa au nivele de activare ce depind de
distana pn la el. Aceast situaie este general n reelele Kohonen.
n general, nvarea unei reele Kohonen ncepe prin considerarea unei vecinti destul
de ntinse a neuronului ctigtor. Pe msur ce se desfoar procesul de nvare, aceast
vecintate se restrnge.
ntro reea Kohonen general exist, aa cum am specificat mai sus n cazul particular
prezentat n figur, dou tipuri de conexiuni:
a) spre nainte, ce leag neuronii stratului de intrare de toi neuronii stratului de ieire,
b) laterale, ce leag neuroni din stratul de ieire.
n figura urmtoare prezentm un exemplu simplu, cu doar patru neuroni pe stratul de
ieire.

Conexiunile laterale au rolul de a permite competiia dintre neuroni. Atunci cnd o


configuraie de semnale apare la intrarea reelei, fiecare neuron de pe stratul de ieire va
primi o copie a acestei configuraii, modificat ns innd seam de ponderile legturilor.
Neuronul care realizeaz cel mai nalt nivel de activare (dintre neuronii de pe stratul de
ieire) devine ctigtor i el va produce un semnal de ieire. Prin intermediul conexiunilor
laterale, activitatea tuturor celorlali neuroni va fi inhibat sau chiar suprimat.
245

Regula de nvare competitiv a lui Haykin (1994) definete variaia ponderii legturii
sinaptice ntre neuronul i i neuronul ctigtor k prin formula
wik = ( X i wik ) .
Restul ponderilor rmn nemodificate. Evident, rata de nvare este un parametru cu
valori ntre 0 i 1.
nvarea ntro reea Kohonen const aadar n trecerea unor conexiuni laterale din stare
inactiv (cu pondere nul) n stare activ (cu pondere nenul). Modificrile de ponderi au loc
de regul doar pentru neuronii i aflai ntro vecintate a neuronului ctigtor k.
Reelele Kohonen sunt adecvate reprezentrii unui numr mare de seturi de date de
intrare, prin reprezentani care s acopere uniform regiunile din care provin datele.
Reelele Kohonen s-au dovedit instrumente foarte interesante pentru clasificri n timp
real ale unor semnale extrem de complexe, cum sunt cele acustice. Ele au fost folosite n
sisteme de recunoatere a vocii umane.
A2.6. Memorii asociative bi-direcionale

Modelul unei memorii asociative bi-direcionale a fost propus de ctre Kosko n anul
1987. n principiu, o astfel de memorie asociaz elemente dintro mulime A cu elemente din
alt mulime B, asocierea putndu-se face n ambele direcii. Ele pot funciona i n cazul
unor date de intrare corupte sau incomplete.
O memorie asociativ bi-direcional este de fapt o reea neural cu dou straturi de
neuroni, avnd legturi bi-direcionale ntre neuronii unui strat i neuronii celuilalt strat.
n figura urmtoare prezentm dou etape succesive de funcionare ale unei asemenea
reele. n prima etap, din valorile de intrare X se vor obine valorile de ieire Y; n a doua
etap, valorile de ieire Y vor deveni valori de intrare iar pe baza lor reeaua va calcula noi
valori X'.
Evident, n procesele de calcul intervin ponderile wio ale legturilor ntre neuronii i i
neuronii o. Aceste procese de calcul sunt repetate pn cnd ansamblurile de valori X i Y se
stabilizeaz.
Ideea fundamental a folosirii unei memorii asociative bi-direcionale este urmtoarea:
vom stoca perechi de clase (A, B) n aa fel nct atunci cnd un X aparinnd clasei A este
prezentat reelei ca set de valori de intrare, reeaua va identifica (i va aminti) setul de
valori Y aparinnd clasei B. De asemenea, atunci cnd Y va fi prezentat reelei ca set de
valori de intrare (dar neuronilor din cel de-al doilea strat), reeaua va identifica setul de
valori X.

S presupunem c vrem s stocm ntro asemenea reea un numr de perechi (Xp, Yp) cu
p{1, 2, , P}. Ponderile legturilor se calculeaz simplu:
P

W = X p Y pT .
p =1

Odat reeaua nvat, s-i prezentm un set X de valori de intrare (care nu coincide
neaprat cu vreun Xp). Care va fi setul Yp indicat de reea ca asociat cu X? Rspunsul este
simplu:
Pasul 1. Calculm valorile Y cu formula Y ' = sign (W T X ) .
246

Pasul 2. Recalculm valorile de intrare, cu formula X ' = sign (WY ) .

n caz c X' este una dintre valorile stocate Xp, setul de valori Y anterior trebuie s fie
exact Yp, iar reeaua a gsit setul asociat. n caz contrar, relum pasul 1 cu X' ca nou set de
valori de intrare.

247

Anexa 3. Data Mining


Data mining este un nume generic dat descoperirii cunotinelor n baze de date mari,
instrument ce poate fi folosit pentru extragerea unor informaii utile dar nc necunoscute.
Este de fapt o prelungire a ceea ce nu demult se numea Analiza datelor, domeniu ce a aprut,
poate nu ntmpltor, odat cu calculatoarele personale.
Aceast anex este dedicat prezentrii sumare a principalelor subdomenii ale Analizei
datelor.

Coninutul acestei anexe este urmtorul:


A3.1. Data Mining ....................................................................................................
A3.2. Analiza Componentelor Principale i Analiza Factorial ...............................
A3.3. Analiza clasificrii (Cluster Analysis) ............................................................
A3.4. Regresia Liniar Multipl i Regresia Logistic Binar .................................
A3.5. Analiza de Discriminant .................................................................................
A3.6. Analiza supravieuirii .....................................................................................

Adrese web utile:


www.statsoft.com/textbook/stfacan.html
(/stcluan.html, /stdiscan.html, /stgrm.html, /stsurvan.html)
www.ats.ucla.edu/stat/

248

249
250
252
254
256
257

A3.1. Data Mining

Data mining, cunoscut i ca descoperirea cunotinelor n baze de date mari este un


instrument modern i puternic al TI&C (Tehnologia Informaiei i Comunicaiilor),
instrument ce poate fi folosit pentru extragerea unor informaii utile dar nc necunoscute.
Acest instrument automatizeaz procesul de descoperire a unor relaii i combinaii n datele
brute, iar rezultatele gsite ar putea fi ncadrate ntrun sistem automat de suport a deciziei.
Data mining a fost folosit pn acum n afaceri de ctre organizaii comerciale de succes
n scopul de a obine avantaje critice n competiia lor. Se bnuiete c n viitorul apropiat
acest instrument va fi folosit pentru prelucrarea bazelor de date uriae, ca de exemplu
dosarele computerizate ale pacienilor, la nivel naional. De fapt, chiar i n prezent, prin
identificarea procedurilor medicale ce au tendina de a se grupa, prin data mining putem
prezice care pacieni vor folosi noile strategii de ngrijire a sntii, putem defini modele de
comportare ale pacienilor de risc, putem identifica fraudele.
Metodele data mining provin din calculul statistic clasic, din administrarea bazelor de
date i din inteligena artificial. Ele nu nlocuiesc metodele tradiionale ale statisticii, ci sunt
considerate a fi extinderi ale tehnicilor grafice i statistice. Deoarece softului i lipsete
intuiia uman (pentru a face recunoaterea a ceea ce este relevant de ceea ce nu este),
rezultatele metodelor data mining vor trebui supuse n mod sistematic unei supravegheri
umane.
Structura tipic de date potrivit pentru data mining conine observaiile (cazurile, de
exemplu referitoare la pacieni) plasate pe linii iar variabilele plasate pe coloane. Domeniile
sau intervalele de valori pentru fiecare variabil vor trebui s fie definite precis, evitndu-se
ct mai mult posibil exprimrile vagi. Formatul cu linii (ce corespund observaiilor sau
cazurilor) i coloane (ce corespund variabilelor), similar cu cel al unui fiier spreadsheet,
este obligatoriu pentru data mining.
Pregtirea datelor pentru a le fi aplicate instrumentele din data mining const n:
a) Preprocesare eliminarea datelor care nu sunt necesare,
verificarea consistenei (unitilor de msur),
detectarea datelor eronate i eliminarea lor,
eliminarea valorilor extreme (outliers);
b) Integrarea datelor combinarea unor variabile;
c) Transformarea variabilelor prin standardizare,
prin trecere la scala logaritmic;
d) Separarea bazei de date n trei categorii de date:
1) Categoria pentru antrenament,
2) Categoria pentru validare,
3) Categoria pentru testare.
e) Folosirea statisticilor descriptive clasice simple: media, mediana, amplitudinea,
abaterea standard, cuartilele;
f) Folosirea diagramelor simple: histograme ale frecvenelor, box plot-uri, diagrame cu
bare, diagrame radiale (rozet).

S ne reamintim c:
Histogramele frecvenelor prezint distribuia valorilor variabilelor continue;
Box plot-urile sumarizeaz (vizual) mai multe aspecte importante ale unei variabile
continue (mediana, cuartilele, extremele);
Diagramele cu bare prezint diferenele ntre diversele grupuri, pentru variabile
categoriale, calitative;
Diagramele radiale compar ntre ele nivelurile claselor unei variabile calitative.
249

Metodele data mining de nvare pot fi grupate n dou categorii: cele nesupervizate,
respectiv cele supervizate.
Metodele de nvare nesupervizate includ urmtoarele:
1) Analiza Componentelor Principale (Principal Component Analysis). Scopul su este
cel de a reduce dimensionalitatea datelor multi-variate prin integrarea variabilelor corelate,
transformnd liniar variabilele iniiale n variabile necorelate ntre ele.
2) Analiza Factorial (Factor Analysis). Scopul su este cel de a extrage un numr mic
de factori ascuni care explic cea mai mare parte a variabilitii comune i determin
corelaiile observate ntre datele iniiale.
3) Analiza Clasificrii (Cluster Analysis). Scopul su este cel de a grupa cazurile
(observaiile) n clustere (grupuri, categorii).
Principalele metode de nvare supervizat sunt urmtoarele:
1) Regresia Liniar Multipl. Scopul su este cel de a descrie asociaiile ntre dou seturi
de variabile, prin intermediul unor formule liniare. Aceste formule sunt folosite ulterior
pentru a prezice valorile unor variabile continue de rspuns odat ce sunt cunoscute
valorile tuturor variabilelor predictor.
2) Regresia Logistic. n acest tip de regresie rspunsul este o variabil binar sau
ordinal (nu una continu).
3) Reelele Neurale (prezentate n anexa anterioar). Sunt folosite de obicei pentru
clasificare. Totui, o reea neural conine de obicei mult mai muli parametri dect un model
statistic clasic, este nevoie de mult mai mult timp de antrenare, iar rezultatele obinute nu pot
fi interpretate cu uurin.
4) Analiza Funciilor Discriminante (sau Analiza Discriminrii). Aceast metod este
folosit pentru a determina care dintre variabilele predictor discrimineaz cel mai bine ntre
mai multe grupuri care sunt formate natural.
Modelele identificate de o metod de data mining vor putea fi transformate n cunotine,
ns dup o validare corespunztoare; apoi, cunotinele vor putea fi folosite ulterior pentru a
fundamenta luarea deciziilor.
n continuare va fi prezentat esena principalelor metode de data mining, ncepnd cu
cele nesupervizate.
A3.2. Analiza Componentelor Principale i Analiza Factorial

Din cauza dificultii evidente a vizualizrii spaiilor multi-dimensionale avnd


dimensiuni p 4, Analiza Componentelor Principale este folosit cel mai mult pentru a
reduce pe ct posibil dimensionalitatea a p variabile la doar dou sau trei dimensiuni.
Aceast metod sumarizeaz variabilitatea iniial a datelor privind cele p variabile iniiale n
cteva componente necorelate ntre ele, numite componentele principale. Fiecare component principal este extras ca o combinaie liniar de variabilele iniiale. Metoda const n
extragerea celui mai mic numr de componente care preiau cea mai mare parte a varianei
datelor iniiale, adic n sumarizarea datelor iniiale cu o pierdere minim de informaie.
Prima component principal extras este acea combinaie liniar de variabile care preia
maximul posibil din variana datelor iniiale. Cea de-a doua component principal preia mai
puin varian, i aa mai departe. Dac primele cteva componente principale preiau 80%
sau mai mult din variana datelor iniiale, atunci scopul reducerii dimensionalitii este atins.
Calculele sunt fcute prin algoritmi ai algebrei liniare, aplicai fie matricei
dreptunghiulare a datelor originale, fie matricei ptratice a coeficienilor de corelaie. n
teoria matematic ce fundamenteaz aceti algoritmi se folosete termenul de valoare
proprie (eigenvalue) a unei matrice. Valorile proprii msoar cantitatea de varian
explicat de fiecare component principal. Ele descresc odat cu indexul componentei,
250

prima component principal avnd valoarea proprie maxim. Pe de alt parte, suma
valorilor proprii este egal cu p (numrul variabilelor iniiale). De obicei sunt reinute doar
componentelor principale ce au valorile proprii mai mari dect 1. Valorile proprii exprim
importana componentelor principale.
O diagram n care valorile proprii sunt prezentate ca linii verticale sau ca puncte
deasupra numerelor naturale (care reprezint componentelor) este numit n coborre
(scree plot). Exemple sunt prezentate n figura urmtoare.
Exemple de scree plot (Statistica, respectiv SPSS)

Noiunea de scor (al unei observaii) poate fi neleas dac interpretm observaiile ca
vectori ntrun spaiu p-dimensional al variabilelor. n Analiza Componentelor Principale
acest spaiu este nlocuit cu un altul, cel al componentelor principale. Scorurile sunt exact
vectorii ce reprezint observaiile n acest nou spaiu.
n sfrit, ncrcrile (loadings) sunt coeficienii de corelaie ntre coloanele-scor i
variabilele originale.
Extrem de important este studiul coeficienilor de corelaie (loadings) dintre variabilele
iniiale i primele dou componente principale. Coeficieni puternici arat c variabilele
corespunztoare pot fi considerate responsabile pentru variaia datelor. Din contra, dac o
variabil nu se coreleaz cu nici o component principal, sau se coreleaz cu componentele
ce au valori proprii mici, aceasta sugereaz c variabila n cauz are o contribuie minor la
variana setului de date. Astfel de variabile neimportante vor fi eliminate, n scopul de a
simplifica analiza de ansamblu.
n unele situaii avem motive s credem c variabilele msurate sunt corelate ntre ele
deoarece ele sunt influenate de unul sau mai muli factori necunoscui, numii factori
ascuni. Analiza Factorial este o tehnic al crui scop este extragerea unui numr mic de
factori ascuni care sunt responsabili pentru corelaiile ntre variabile. Principalul rezultat al
acestei tehnici, aplicat fie plecnd de la matricea datelor, fie plecnd de la matricea de
corelaie, const n gruparea variabilelor n aa fel nct variabilele influenate de un anumit
factor sunt corelate mai puternic ntre ele dect cu variabilele influenate de ali factori.
Iniial se accept c toate variabilele msurate ar putea fi asociate cu orice factor ascuns.
Dup aplicarea tehnicii, fiecare variabil msurat va fi exprimat ca o combinaie liniar
(ponderat) de civa factori ascuni.
n implementarea metodei Analizei Factoriale se ntlnete termenul de comunalitate
(communality). Comunalitatea unei variabile msurate este exact proporia din variana ei
ce poate fi atribuit factorilor ascuni. Evident, comunalitatea este un numr ntre 0 i 1, iar
valorile apropiate de 1 indic faptul c variabila noastr este bine explicat de factorii
ascuni.
ncrcrile factorilor (factor loadings) sunt coeficienii de corelaie ntre variabilele
msurate i factorii ascuni. ncrcri mai mari dect 0.7 n valoare absolut sunt considerate
semnificative. ncrcrile semnificative pentru un factor ascuns dat ar putea fi folosite pentru
a obine o interpretare a acelui factor.
251

Rezultat de Analiz Factorial obinut cu Statistica

Pentru determinarea numrului de factori ascuni se poate folosi un scree plot, sau poate
fi ales un prag pentru comunaliti, la fel ca n metoda componentelor principale.
Cteodat, pentru a putea obine factori care nu au multe ncrcri mici
(nesemnificative) prin urmare pentru a simplifica interpretarea factorilor este efectuat o
rotaie; aceasta este cunoscut sub numele de metoda Varimax.
S prezentm, n figura de mai sus, un rezultat tipic al tehnicii Analizei Factoriale. n
stnga este o diagram planar n care variabilele msurate AA, BB, CC, W1, V1, ..., Yield
sunt nlocuite prin puncte din interiorul cercului unitate. Cei doi factori ascuni sunt nlocuii
prin punctele identificate ca Factor1 i Factor2. Rezultatele numerice, dup efectuarea unui
Varimax, sunt prezentai n tabele; dar mai interesant este reprezentarea prin puncte n
diagram. Destul de multe variabile (ntre care este vizibil CC) pot fi grupate ntrun grup i
reprezentate de factorul F1; pe diagram este clar c variabila AA este slab (negativ) corelat
cu F1. Astfel Factor 1 reprezint ceva ce variabilele CC ... au n comun dar opus lui AA.
Variabilele V1 este corelat cu F2. Pe de alt parte, variabilele S1 i X1 sunt neutre n
raport cu ambii factori. Factorului 1 i se atribuie mai mult de 50% din variana total, iar
ambilor factori li se atribuie mai mult de 50+11 = 61% din variana total.
Analiza Factorial este similar cu Analiza Componentelor Principale, ambele avnd ca
scop reducerea numrului (mare de) variabile msurate ntrun numr mai mic de factori
ascuni respectiv componente principale. Ele difer totui ca utilitate. n Analiza Factorial
numrul (mic) de factori este identificat n aa fel nct s explice de ce variabilele msurate
sunt corelate ntre ele. Din contra, n Analiza Componentelor Principale componentele
principale sunt identificate n aa fel nct s preia ct mai mult din variana prezent n
datele msurate.
A3.3. Analiza clasificrii (Cluster Analysis)

Aceast metod statistic este folosit pentru a grupa date multi-dimensionale (adic
puncte ce reprezint cazuri sau observaii) n grupe (clusters) definite algoritmic. Aceast
metod este util pentru sumarizarea unor cantiti mari de informaie, fiecare grup
reprezentnd mai multe puncte avnd caracteristici similare. Clusterele distincte nu se
suprapun (adic sunt disjuncte).
De fapt, analiza clasificrii const dintro colecie de algoritmi ce exploateaz mai multe
euristici fundamentate n principal pe experiena noastr vizual n gruparea punctelor n
nori de puncte.
n general, pentru a putea folosi un algoritm de clasificare, este nevoie de precizarea:
a) Unei distane ntre punctele unui spaiu multidimensional. Cele mai cunoscute
distane ntre punctele A = (a1 , a 2 ,...) i B = (b1 , b2 ,...) sunt (a se vedea figura urmtoare):
252

Euclidian
d E ( A, B) = (a1 b1 ) 2 + (a 2 b2 ) 2 + ... ;

Manhattan
d M ( A, B ) =| a1 b1 | + | a 2 b2 | +... ;

Pearson
d P ( A, B ) = valoarea absolut a coeficientului de corelaie dintre A i B.

Distanele ca lungimi

b) O strategie de alegere a punctului reprezentativ (adic a centrului) pentru orice


grupare de puncte. Cei mai muli oameni au tendina de a alege media aritmetic (adic
centrul de greutate).
c) O distan ntre dou grupe de puncte. Cele mai folosite asemenea distane iau n
considerare distana ntre puncte aleas anterior; acestea sunt (a se vedea figura de mai jos):
Distana ntre centre (n algoritmul Ward);
Distana ntre cei mai apropiai vecini (opiune cunoscut ca single linkage);
Distana ntre cei mai deprtai vecini (opiune cunoscut sub numele de complete
linkage).
Distane ntre grupe (clusters)

Odat ce au fost efectuate alegerile, un algoritm ierarhic de clasificare va funciona n


felul urmtor:
Pasul 1. Fiecare punct este considerat ca grup separat (de 1 punct).
Pasul 2. Cele mai apropiate dou grupe sunt amalgamate ntro grupare mai mare. Acest
pas este repetat pn cnd toate punctele au fost grupate ntro grupare final (care conine
totul). Schema de amalgamare este reprezentat diagramatic printro dendrogram
(hierarchical tree plot) a se vedea figura de mai jos pentru un exemplu).
Pasul 3. Se aplic o procedur de tiere asupra dendrogramei; n acest fel se identific
numrul obiectiv de grupe (clusters), apoi componena fiecreia.
(Aflai detalii despre algoritmul lui Ward i despre metoda poligonului lui Newton, ca
procedur de tiere.)
Exemplu de dendrogram obinut prin Statistica

253

S facem observaia c n clasificarea ierarhic nu se permite nici un fel de alt


suprapunere a dou grupe ce excepia incluziunii unei grupe n cealalt. n plus, din cauza
numrului mare de distane care ar trebui calculate, aceti algoritmi nu sunt adecvai pentru
seturi mari de puncte.
Prin contrast, n clasificarea disjunct numrul de grupe va trebui ales dinainte. Apoi:
Pasul 1. Toate punctele sunt asignate arbitrar unor grupe.
Pasul 2. Unul dintre puncte este reasignat altei grupe, lund n considerare similaritatea sa
cu punctele acelei grupe. Acest pas este repetat pn cnd toate punctele sunt asignate
optim.
Algoritmii de clasificare sunt mai eficieni pentru seturi mari de puncte. (Dar s ne
aducem aminte c au i un neajuns: numrul de grupe este ales arbitrar!)
Cel mai cunoscut algoritm de clasificare disjunct este cel al k-mediilor (k-means). n
acesta reprezentantul fiecrei grupe este obinut din media punctelor (cazuri, observaii) care
sunt asignate acelei grupe. Iniial este selectat un set de puncte, numite seminele grupelor
(cluster seeds) ca o prim alegere a centrelor grupelor. Apoi, la fiecare pas, se execut
maximizarea distanei globale ntre grupele distincte, n aa fel nct s se reduc variana
din cadrul grupelor, iar centrele s se deplaseze spre o poziie stabil. Algoritmul se oprete
atunci cnd nu se mai detecteaz nici o modificare n poziia centrelor.
S facem observaia c varianele variabilelor au o influen puternic asupra distanelor,
n special asupra celor Euclidiene. De exemplu, atunci cnd se calculeaz distane, datele n
domeniul 100-1000 sunt practic decisive comparativ cu cele din domeniul 0.01-0.1.

A3.4. Regresia Liniar Multipl i Regresia Logistic Binar


Aceast metod de nvare supervizat este cea mai larg folosit astzi. Este utilizat
pentru a studia asocierea dintre dou seturi de variabile: primul set { X 1 , X 2 ,...} conine
variabilele predictor (numite i independente sau explicative), cellalt set {Y1 , Y2 ,...}
conine variabilele rspuns (numite i dependente). Asocierea dintre cele dou seturi este
descris prin formulele liniare
Y j = b j 0 + b jk X k
k

n care b j 0 , b jk sunt parametrii de regresie.


Dac aceast formul este suficient de bun, ea va putea fi folosit pentru a prezice
valorile y j ale variabilelor Y j odat ce sunt cunoscute valorile x k ale variabilelor
independente X k .
Parametrii de regresie ce apar n formula de mai sus sunt estimai lund n considerare
datele de antrenament cunoscute ( x1( i ) , x 2(i ) ,..., y1(i ) , y 2(i ) ,...) , prin folosirea criteriului celor mai
mici ptrate:
min ( y (ji ) b j 0 b jk x k( i ) ) 2
(i )

adic prin minimizarea sumei ptratelor diferenelor dintre valorile observate y ale
variabilelor rspuns i valorile corespunztoare ale variabilelor predictor.
S considerm cazul particular al unei singure variabile-rspuns Y.
Primul obiectiv al metodei regresiei liniare multiple l constituie obinerea unui hiperplan
care se potrivete optimal norului de puncte format de datele de antrenament; acest scop
este atins prin calcularea estimaiilor 0 , k pentru parametrii b0 , bk . Formula de calcul
final este
Y = 0 + k X k
k

n care 0 este numit interceptul, iar k sunt numii coeficienii de regresie.


254

(De obicei estimaiile k sunt notate bk , cciula avnd exact nelesul de estimaie.)
Numerele k exprim cu ct se modific rspunsul Y atunci cnd predictorul X k suport
o modificare de o unitate, iar ceilali predictori nu-i modific valoarea.
(Atenie, are sens s comparm ntre ei doi coeficieni de regresie k i l doar dac
predictorii corespunztori X k i X l sunt msurai cu aceeai unitate de msur!)
O noiune important n folosirea metodei RLM este cea de reziduu. Reziduurile sunt
exact diferenele dintre valorile y observate i valorile-rspuns y ce corespund valorilor
predictor x k observate. Aceste diferene sunt calculate folosindu-se estimaiile 0 , k , mai
precis astfel
r ( i ) = y ( i ) b0 bk x k( i )
k

unde i numr observaiile din setul de date de antrenament.


n aplicarea concret a metodei regresiei liniare multiple se fac urmtoarele presupuneri
(considerate implicit ca adevrate):
1) Reziduurile r ( i ) obinute din regresie sunt realizri ale unor variabile aleatoare
normale de medie 0 i aceeai varian, variabile care sunt i independente ntre ele;
2) Nu este prezent multi-colinearitatea, adic nici o variabil predictor nu este o
combinaie liniar de celelalte variabile predictor.
n figura urmtoare sunt prezentate dou exemple de reziduuri care nu valideaz metoda
RLM. n asemenea situaii, o abordare posibil ar consta n corectarea neliniar a
variabilelor.
Exemple de reziduuri care nu valideaz RLM

Defectul major al RLM const n faptul c nu putem fi siguri asupra mecanismului relaiei
cauzale dintre predictori i rspunsuri. Chiar i relaiile de regresie foarte semnificative nu
implic (logic) deloc existena unor relaii cauz-efect! Cu toate acestea, metoda RLM este
des folosit, iar formulelor semnificative de regresie sunt creditate ca adevrate n activitile
de predicie.
Rezultatul unei RLM obinut prin folosirea setului de date de antrenament, cu alte cuvinte
formula de calcul, ar putea fi validat n urma aplicrii formulei asupra altui set de date i
constatrii potrivirii ei. Pentru validare, graficele obinute din setul de antrenament i din
setul de validare ar trebui s prezinte trsturi similare.
S ne reamintim c metoda regresiei liniare presupune c variabilele att cele predictor
ct i cele rspuns sunt de tip continuu. Prin contrast, Regresia Logistic permite tratarea
altor tipuri de variabile. Metoda Regresiei Logistice Binare se aplic atunci cnd variabila de
rspuns este de tip Boolean (adic are doar dou valori: adevrat/fals, sau da/nu, sau 0/1).
Funcia pas, definit de formula urmtoare, transform numerele reale n valori Booleene:
1 pentru x 0
step( x) =
0 pentru x < 0
255

A3.5. Analiza de Discriminant


ntro situaie tipic, un medic curant ar putea lua n considerare o serie de date privind
trecutul pacientului, date pe care el le consider importante pentru c ele indic dac
pacientul are anse de a se vindeca complet, sau doar parial, sau deloc. Scopul su iniial
este de fapt de a construi un model predictiv de discriminare ntre grupuri, bazat pe variabile
predictor.
Un asemenea model ar putea fi folosit pentru:
Investigarea diferenelor dintre categoriile de observaii,
Discriminarea efectiv ntre categorii,
Identificarea acelor variabile predictor care sunt discriminatoare.
ntro alt situaie tipic, un specialist ar putea cuta de exemplu criterii de discriminare
ntre tipurile de celule canceroase.
n ambele situaii de mai sus datele iniiale sunt grupate natural n cteva categorii (trei n
primul caz). Metodele Analizei de discriminant presupun c toate variabilele predictor sunt
continue; din contra, se presupune c variabila de rspuns indic gruparea, categoria creia i
va aparine un nou caz.
O prim metod este cea numit analiza de discriminant progresiv n pai (forward
stepwise discriminant analysis). Pe scurt, aceasta const n urmtoarele: iniial nici o
variabil predictor nu este inclus n model. Apoi, la fiecare pas, sunt examinate toate
variabilele predictive rmase, iar cea care contribuie cel mai mult la discriminarea ntre
grupuri va fi selectat i inclus n model.
n metoda dual, aa-numita analiza de discriminant regresiv n pai (backward stepwise
discriminant analysis), procedura este urmtoarea: iniial toate variabilele predictor sunt
incluse n model iar apoi, la fiecare pas, aceea care contribuie cel mai puin la predicia
apartenenei corecte la grupare este eliminat. n model vor rmne n final doar variabilele
importante, acelea care contribuie cel mai mult la discriminarea ntre grupe.
n ambele metode de selecie a variabilelor, prezentate mai sus, procedura pas cu pas este
ghidat de o valoare care este calculat pentru fiecare variabil predictor. Aceasta, cunoscut
ca valoarea F, indic semnificaia statistic a acelei variabile pentru discriminarea ntre
grupe.
La fiecare pas se ia n considerare i semnificaia predictorului anterior introdus n model.
Variabila care contribuie cel mai puin la puterea discriminatorie a modelului este
eliminat, iar apoi variabila care nu este n model i contribuie cel mai mult la discriminare
va fi introdus n model. Atunci cnd toate variabilele din model nu vor mai suferi
modificri, procedura pas cu pas este oprit. Pentru a fora oprirea procedurii, pot fi fixate
dinainte praguri pentru valoarea F (identificate ca F-to-enter i F-to-remove n figura
urmtoare).
Exemplu de utilizare a Analizei de Discriminant n Statistica

256

n cazul cel mai simplu (doar dou categorii-grupe), Analiza de Discriminant este practic
echivalent cu Analiza de regresie multipl, modelul constnd n acest caz dintro singur
formul liniar
Category = 0 + k X k
k

n care k sunt coeficienii de regresie.


Trebuie s fim contieni de faptul c indicele celui mai mare coeficient de regresie (n
valoare absolut) identific acea variabil care contribuie cel mai mult la predicia
apartenenei la categoria-grup. Formula de mai sus descrie funcia de discriminare.
n cazul existenei mai multor categorii, vor fi obinute mai mult de o funcie de
discriminare. De exemplu, n cazul existenei a trei categorii, o prim funcie de discriminare
ar putea discrimina ntre categoria 1 i categoriile 2-3 combinate, iar a doua funcie de
discriminare va discrimina ntre categoria a 2-a i 3-a.
Modelele de discriminare ntre categorii vor trebui validate pe baza unor date noi, altele
dect cele pe baza crora au fost construite.
Metodele de selecie n pai nu dau ntotdeauna cele mai bune rezultate. Unele motive ar
fi: a) n procesul de selecie nu sunt luate n considerare relaiile ntre variabilele care nc nau fost selectate; b) nu se iau n considerare diferenele ntre mrimea grupelor. (Aceast
mrime a grupelor influeneaz probabilitile a priori, cu alte cuvinte probabilitatea ca un
caz nou s aparin unei grupe particulare.)
Datorit creterii influenei Tehnologiei Informaiei i Comunicaiilor n lumea modern,
recent au fost imaginate metode noi n Data Mining. Printre aceste metode, aprute n lumea
finanelor, se afl:
Aplicaiile depozitului de date (data warehousing), i
Analiza asocierilor din coul de pia (market basket association analysis).
n aplicaiile depozitului de date obiectivele sunt: utilizarea complet a surselor de date,
extragerea datelor din diferite locaii, integrarea datelor n baze de date (multi-dimensionale)
de nalt calitate, optimizarea stocrii datelor. n acest context s prezentm doar o idee
specific, anume cea de metadat. O metadat conine, pe lng datele ca atare, i informaii
despre acestea: sursa lor, transformrile la care au fost supuse, intervalul de timp etc.
Obiectivul principal al analizei asocierilor din coul de pia const n identificarea
produselor i serviciilor pe care clienii (de exemplu ai unui supermarket) le achiziioneaz
mpreun. Cunoaterea asocierilor ntre produsele i serviciile asociate ajut managerii n
luarea unor decizii bune n tacticile de marketing i vnzare.
Este evident c aceste metode noi ar putea fi aplicate pentru a mbunti calitatea
sistemului de sntate, cel puin la nivelul spitalului. (Imaginai-v beneficiile unei analize a
asocierilor din coul de pia, efectuate pe datele medicale la nivel naional.)

A3.6. Analiza supravieuirii


Eficacitatea a dou tratamente poate fi comparat urmrind efectele n timp ale acestor
tratamente aplicate pacienilor (din loturi diferite). Comparaia se poate face i prin
analizarea curbelor de supravieuire.
O curb de supravieuire nu este altceva dect reprezentarea ntro diagram cu linii a
evoluiei ratei de supravieuire, care se calculeaz cu formula
V (t )
rata (t ) =
V (0)
unde V (t ) este numrul celor care au supravieuit dup t ani (sptmni, zile), iar V (0) este,
evident, numrul celor supui interveniei.
257

Dou curbe de supravieuire, obinute cu Statistica, sunt reprezentate n figura urmtoare.


Se poate observa cu uurin c tratamentul B are o rat de supravieuire mai bun pe
termen scurt (1-3 ani), dar pe termen lung acest avantaj tinde s dispar. (Evident, pentru
a compara corect ar trebui s lum n calcul nu duratele de supravieuire, ci mai degrab
evaluri ale calitii vieii supravieuitorilor.)

ntocmirea curbelor de supravieuire presupune urmrirea n timp ndelungat a multor


pacieni, mult dup momentul interveniei (tratamentului), ceea ce presupune o supraveghere
sistematic a lor. Din diverse motive, o asemenea supraveghere este imposibil practic
pentru toi pacienii. Trebuie s admitem c, dup un timp de la intervenie, este posibil ca
unii pacieni s fie pierdui din vedere, i astfel s nu mai putem ti dac ei sunt
supravieuitori sau au decedat ntre timp.

258

Anexa 4. Legislaia n domeniul TI&C


Societatea informaional ofer n prezent o multitudine de servicii, ca de exemplu:
1) transmisia de faxuri;
2) transmisia de texte scrise prin reelele de telefonie mobil (SMS);
3) transmisia de mesaje electronice prin intermediul Internetului;
4) descrcarea (download) de documente hipertext prin intermediul Web-ului.
Aceste servicii pot fi parazitate n diverse forme, ca de exemplu:
3) prin primirea de mesaje electronice nedorite (spam);
4) prin instalarea unor programe care transmit, fr voia utilizatorului, date privind
calculatorul, softul utilizat sau preferinele utilizatorului (spyware).
n prezent funcioneaz n cteva ri (S.U.A., Australia, Germania,) sisteme de
monitorizare a cardiacilor, care alerteaz automat serviciile de ambulan inclusiv asupra
locului n care se afl pacientul.
Odat cu sporirea vitezei de transmisie a datelor se prefigureaz o folosire a Internetului
mult mai extins, muli medici apreciind c va fi un mijloc de comunicare direct ntre
pacient, medici i casele de asigurri.
Odat cu sporirea cantitilor de memorie disponibile la calculator (i la telefoanele
mobile) se prefigureaz implementarea din ce n ce mai extins n spitale a sistemelor de
arhivare i comunicare de imagini.
Exist ntotdeauna riscul ca datele transmise prin intermediul unei reele de comunicaii
s fie accesate ilicit de ctre teri. De asemenea, exist ntotdeauna riscul ca datele stocate
n memoria unui calculator s fie capturate ilicit de ctre persoane neautorizate, ca
activitile utilizatorilor s fie supravegheate neautorizat, ca datele sau programele s fie
distruse intenionat.
Folosirea calculatorului n sistemele de sntate trebuie s aib un nalt grad de
siguran, iar asigurarea acestuia este fundamentat de legea 506/2004.
Aceast lege transpune n fapt o directiv a CE privind prelucrarea datelor cu caracter
personal i protecia vieii private n domeniul comunicaiilor electronice. Prin ea se
urmrete:
a) garantarea proteciei drepturilor fundamentale i libertilor persoanelor fizice;
b) consolidarea ncrederii publicului n noile tehnologii de comunicaie;
c) ncurajarea utilizrii mijloacelor de comunicare electronice.
Legea 506 interzice explicit comunicrile automate adic fcute fr intervenia
vreunui operator uman nesolicitate, cum este spam-ul. De asemenea, legea interzice, n
anumite situaii, ascunderea sau deghizarea identitii expeditorului.
Odat cu dezvoltarea a ceea ce se cheam e-commerce a aprut necesitatea certificrii
contractelor on-line, att din punctul de vedere al coninutului, ct i din cel al datei de
ntocmire. Evident, dac avem n vedere examinri on-line n cadrul universitilor, va fi
nevoie de un sistem asemntor de certificare. Reglementarea problemelor de acest fel este
asigurat de legea 451/2004 privind marcarea temporal a documentelor.
Marca temporal, n contextul acestei legi, este eliberat de un furnizor de servicii
certificat. Ea este o colecie de date n form electronic, care se ataeaz n mod unic unui
document electronic, n scopul de a certifica faptul c documentul a fost prezentat
furnizorului de servicii la un anumit moment de timp.
259

O marc temporal este format din:


documentul n form electronic, creat de ctre emitent;

amprenta ataat documentului (care permite identificarea unic a documen-tului,

fr a da acces la coninutul acestuia);


momentul de timp asociat, n codificare digital, atribuit de furnizorul de servicii;

semntura electronic a furnizorului de servicii de marcare temporal (creat cu

respectarea legii 455/2001 privind semnarea electronic), nsoit de identificatorul


algoritmului folost pentru generarea amprentei).
Marca temporal poate fi folosit pentru certificarea faptului c un document a fost creat
nainte de momentul atribuit de furnizorul de servicii. Caracteristicile semnturii electronice
au fost stabilite n cadrul legii 455/2001, n aa fel nct actele semnate electronic s aib
aceeai valoare juridic probatorie ca i cele semnate clasic.
Infraciunile mpotriva:
integritii i disponibilitii datelor i sistemelor informatice;

confidenialitii;

proprietii intelectuale i drepturilor legate de aceasta

precum i dreptul de percheziie i sechestrare a datelor informatice stocate pe suport


magnetic/optic constituie obiectul legii 64/2004, care preia direct normele europene privind
combaterea criminalitii informatice.
Legea privind arhivarea electronic a documentelor va fi util i n domeniul ngrijirii
sntii. Ea impune formarea unei arhive electronice proprii a spitalului (i d dreptul
fiecrei persoane fizice de a-i depune spre pstrare documente n arhiva electronic). n
cadrul unei arhive electronice, fiecare document electronic (copie a unui document clasic)
depus va fi nsoit de:
a) momentul crerii conversiei electronice a documentului;
b) cuvintele-cheie necesare identificrii rapide a documentului;
c) elementele de localizare a originalului;
d) elementele de localizare a suportului fizic pe care este depus copia electronic;
e) nivelul de clasificare, ce limiteaz drepturile de acces.

Adrese web utile:


www.legi-internet.ro/index.php?id=4
info.organic.ro/standard/legislatie/lege455

260

S-ar putea să vă placă și