Documente Academic
Documente Profesional
Documente Cultură
225
234
248
259
1.1. Introducere
Termenul PC deriv din personal computer, despre care se presupune c este folosit
de ctre un singur utilizator, n opoziie cu mainframe computer folosit simultan de multe
(sute, chiar mii) de persoane.
Astzi un PC poate fi folosit pentru a efectua o sumedenie de operaiuni, mai simple cum
ar fi scrierea de scrisori sau chiar cri, inerea evidenei afacerilor, jocuri, dar i mai
complexe cum ar fi auxiliare ale medicilor n activitile lor specifice.
S specificm unii termeni utilizai n activitile computerizate.
Orice PC are o memorie permanent; aadar orice dat introdus n computer poate fi
stocat aici pentru exploatare ulterioar. Spunem c salvm datele n acea memorie.
Evident, dac datele au fost stocate anterior, utilizatorul poate s le regseasc i s le
proceseze. Datele regsite pot fi editate, adic modificate sau chiar distruse.
Deoarece fiecare PC are un monitor, rezultatele procesrii datelor fie c sunt
intermediare, sau sunt finale/definitive pot fi monitorizate/afiate pe ecran.
n caz c la PC este conectat o imprimant, rezultatul final poate fi imprimat pe hrtie.
Iar dac PC-ul este ataat unei reele, datele din memoria sa pot fi transferate n memoria
altui PC (conectat).
Succesul impresionant al calculatoarelor personale a condus la o cretere exponenial a
industriei softului, prin perfecionarea continu a programelor de prelucrare de cuvinte, a
instrumentelor grafice, a programelor de distracie i educaionale, a realitii virtuale.
Tendina spre miniaturizare i compacitate a condus la invenia computerelor handheld
cum sunt organizatoarele, notebook-urile, comunicatoarele de e-mail.
Structura lor permite pe de o parte accesul wireless (fr fir) la Internet, iar pe de alt
parte recunoaterea scrisului de mn.
O alt tendin actual este cea de convergen a telefoanelor mobile i calculatoarelor .
de calculatoare IBM a lansat IBM-PC. Dar, la timpul respectiv preurile erau mari, memoria
de lucru era redus, iar dotarea lor era foarte srac, primele calculatoare nedispunnd nici
mcar de un hard disc pentru stocarea datelor; n privina aplicaiilor ce puteau fi rulate pe
aceste sisteme de calcul, ele nu existau. Fr programe, calculatoarele sunt inutilizabile.
Programul cu cea mai mare importan, ce n mod obligatoriu trebuie rulat (executat) pe
un calculator, este sistemul de operare, el constituind limbajul comun de dialog ntre om i
calculator. Mergnd pe ideea c PC-urile nu vor cunoate niciodat un volum mare de
vnzri, firma IBM nu s-a preocupat s proiecteze un sistem de operare pentru acestea i a
cedat aceast sarcin unei companii tinere i necunoscute la momentul respectiv. Compania
se numea Microsoft i astzi sistemele sale de operare ruleaz pe majoritatea calculatoarelor
personale din ntreaga lume.
Privind un calculator personal clasic, putem distinge ca principal component hardware
unitatea de sistem, gzduit ntro carcas. Pe scurt, carcasa conine n interior placa de
baz, pe care se afl unitatea central de prelucrare i memoria (RAM), precum i alte plci
de extensie i cel puin un disc fix, de asemenea conine i dispozitive pentru
citirea/scrierea discurilor compacte/optice.
Pe panoul frontal al carcasei se afl un buton POWER (pentru controlul alimentrii cu
curent electric) eventual i alte butoane i LED-uri. Pe panoul din spatele carcasei se gsesc
porturi seriale (COM, USB), porturi paralele (LPT) i alte conectoare pentru dispozitive
externe (monitor, tastatur, maus).
Insistm asupra faptului c n interiorul carcasei se afl placa de baz (motherboard), pe
care se afl n mod uzual unitatea central de prelucrare i de care se leag toate celelalte
componente interne sau externe ale sistemului de calcul.
Iniial unitatea central de prelucrare a fost proiectat i lansat de firma Intel, care a
rmas n continuare un nume cunoscut i apreciat. UCP mai este denumit i
(micro)procesor. Dar, odat cu sporirea popularitii calculatoarelor personale, au aprut
alte firme concurente, ce au lansat pe pia procesoare compatibile cu cele produse de Intel la
un pre redus; AMD este doar unul dintre cele mai cunoscute nume de productori de
procesoare destinate calculatoarelor personale.
Caracteristicile de baz pentru o unitate central de prelucrare sunt:
tipul procesorului (exemple istorice: 8088, 80286, 386, 486, Pentium, Pentium 4 etc.).
Astzi ntlnim Pentium Dual Core, Celeron, Core 2 Duo sau Core 2 Quad produse de Intel,
Athlon 64 X2 produs de AMD, etc.;
frecvena maxim a ceasului (clock rate), msurat n megaHertzi (exemple istorice:
4.77 MHz la microprocesoarele 80286, 100 MHz la primele procesoare Pentium, 233 MHz,
400 MHz, 1000 MHz = 1 GHz, 3 GHz la procesoarele Pentium 4).
S menionm c un procesor, indiferent de mrimea i tipul su, conine unitatea
aritmetic-logic (UAL), care este un ansamblu de circuite electronice capabil s efectueze
operaiile de calcul, precum i o memorie ultrarapid sub forma unor regitri. Regitrii au
rolul de a conine numerele nainte de a fi adunate sau nmulite, pot conine adrese ale
unor celule de memorie, etc.
Transferul de date ntre componentele unitii centrale de prelucrare i celelalte
componente se realizeaz prin magistral (bus). Magistrala este compus din mai multe
tronsoane, de limi de 8, 16, 32 sau 64 de bii. n general, n momentul de fa
calculatoarele sunt echipate cu procesoare pe 64 de bii, dar pentru a-i exploata capacitatea
de prelucrare pe 64 de bii este necesar ca i tronsoanele magistralei s aib limi
corespunztoare, este necesar de asemenea ca programele care funcioneaz pe calculator s
fie proiectate corespunztor.
n figura urmtoare prezentm exteriorul unui procesor i organizarea sa intern.
10
Calitatea unei imagini colorate este considerat bun n caz c rezoluia este de cel
puin 1024 (coloane) 768 (linii), frecvena de remprosptare este de cel puin 60 Hz, iar
placa video este capabil de a controla cel puin 16 milioane de nuane de culoare pentru
fiecare pixel n parte. Este necesar o memorie de cel puin 4 MB pentru a satisface aceste
cerine de calitate. Astzi ntlnim curent monitoare cu rezoluii de 1280 1024 pixeli.
S subliniem faptul c placa video mai precis procesorul grafic de pe ea comand
imaginea afiat pe ecran prin controlarea la frecvena de remprosptare coninutului
unei memorii speciale plasat de obicei pe placa video. Aceast memorie, numit video
RAM, are o capacitate suficient (n jur de 256 MB).
S precizm i faptul c putem ajusta strlucirea, contrastul, dimensiunile i centrarea
imaginii pe ecran prin intermediul unor controale speciale ale monitorului.
Sistemele de operare actuale (cum este Windows XP sau Vista se bazeaz pe un indicatorcursor pe ecran pentru selectarea i executarea comenzilor afiate pe ecran. Pentru controlul
poziiei acestui indicator-cursor se utilizeaz un dispozitiv special, mausul.
Mausul clasic este conectat prin cablu la un port dedicat sau la un port serial standard
de pe placa de baz. (n prezent sunt din ce n ce mai des folosite porturile USB pentru
conectare, iar tendina este de conectare fr cablu, prin infraroii.) Mausul are deasupra
dou sau trei butoane (cel stng, cel drept, posibil i cel din mijloc) i eventual o rozet, iar
dedesubt se afl o bil de cauciuc ce se poate roti liber, sau un dispozitiv optic de detecie a
micrii. Micrile bilei pe o suprafa plan, respectiv micrile rozetei sau cele ale
mausului optic, sunt detectate i transformate n micri ale indicatorului-cursor pe ecran.
Un clic cu mausul nseamn de obicei apsarea butonului din stnga urmat (imediat) de
eliberarea sa. Evident, putem efectua un clic cu orice alt buton. Un clic urmat imediat de al
doilea clic (pe acelai buton) este numit dublu-clic. Iar aciunea de apsare a unui buton i
pstrare apsat a sa, n timp ce bila se mic, este numit tragere a mausului.
Unele calculatoare personale, ca de exemplu cele de tip laptop sau notebook, pot avea alte
dispozitive pentru controlul indicatorului-cursor pe ecran, cum sunt aa-numitele trackball i
touchpad.
Tastatura este dispozitivul de intrare clasic pentru calculatoarele personale. Se
conecteaz la placa de baz prin cablu (la port dedicat sau la port USB) sau, mai recent, prin
infraroii.
Tastatura standard conine peste 100 de taste i trei LED-uri. Aceste LED-uri (denumite
NumLock, CapsLock, and ScrollLock) sunt controlate prin trei taste dedicate (denumite
corespunztor); starea lor determin regimul de lucru al tastaturii.
Celelalte taste pot fi grupate n patru grupuri:
1) Cel mai mare grup este cel al tastelor alfanumerice. n acest grup sunt plasate taste ce
corespund tuturor tastelor unei maini de scris clasice, aadar cifrelor, literelor, semnelor
aritmetice i gramaticale, dar i o tast [Tab], dou [Shift], una [Enter]; n plus, avem n
aceast grup o tast [BackSpace], dou [Ctrl] i dou [Alt];
2) Grupul numeric este localizat n partea dreapt a tastaturii. Sunt reproduse aici
tastele ce apar pe vechile maini electrice de calculat;
3) Cele 12 taste funcionale [F1]-[F12] sunt plasate deasupra grupului alfanumeric;
4) Grupul tastelor de deplasare conine patru taste sgei i alte ase, inscripionate
[Insert], [Delete], [Home], [End], [Page Up], i [Page Down].
Pe orice tastatur se afl taste suplimentare, inscripionate [Esc(ape)], [Pr(in)t Scr(een)],
i [Pause/Break]. n prezent, pe unele tastaturi se afl taste speciale, avnd funcionaliti
speciale n Windows sau n Internet. Cele mai des ntlnite sunt tasta Win logo [] ce
deschide meniul Start i tasta Menu [] ce deschide acelai meniu ca i apsarea
butonului din dreapta al mausului.
Tastaturile laptop-urilor i notebook-urilor sunt ntructva diferite. Pe acestea se afl taste
pentru controlul monitorului.
12
Facilitatea utilizrii porturilor seriale universale (USB) face ca n prezent acestea s fie
preferate att pentru conectarea imprimantelor, ct i pentru conectarea dispozitivelor de
stocare extern de tip flash memory. n imaginile urmtoare apar porturile unui PC precum i
un dispozitiv extern de memorare (un memory stick) ce poate fi conectat la un port USB.
(R) a b, b ab.
n aceste condiii, limbajul L generat de litera a este urmtorul
L = {a, b, ab, bab, abbab, bababbab, abbabbababbab, bababbababbabbababbab, }
Interpretarea cuvintelor limbajului ar putea fi legat de procese de cretere biologic.
Un alt exemplu interesant este urmtorul: alfabetul este A = {s, d, i}, iar gramatica este
format din regula
(R) s s, d d, i isidisi
Limbajul L generat de cuvntul ididi este legat de aa-numiii fractali. Ne dm seama uor
de acest lucru dac interpretm litera s ca o rotaie spre stnga cu 60, litera d ca o rotaie
spre dreapta cu 120, iar i ca un pas nainte. n aceast interpretare ididi va descrie un
triunghi echilateral! Capacitatea de interpretare corect este un atribut al inteligenei!
Alfabetele informaticii sunt formate din caractere. Iniial caracterele (ASCII) erau n
numr de 128 = 27, ele reprezentnd nu doar literele mici/mari ale alfabetului englez i
cifrele arabe, dar i semnele de punctuaie, cteva semne matematice, o serie de litere
greceti sau ale altor alfabete.
Fiecare caracter ASCII (extins) poate fi reprezentat unic printro secven de 8 bii (octet).
Exemple:
litera A 0100 0001
litera a
0110 0001
semnul ! 0010 0001
cifra 0
0011 0001
n prezent caracterele folosite (UNICODE) sunt n numr de 65536 = 216, ceea ce este
suficient pentru reprezentarea semnelor tuturor alfabetelor naturale, precum i a diverselor
simboluri.
Fiecare caracter UNICODE ar putea fi stocat ntro memorie de 16 Bii = 2 Bytes (adic ar
putea fi codificat printrun cuvnt format din 16 cifre binare, sau printrun numr cuprins ntre
0 i 65535 inclusiv). ns reprezentarea caracterelor UNICODE n secvene de bii nu este
att de simpl. Caracterele avnd codurile ntre 1 i 127 sunt reprezentate printrun singur
octet, al crui prim bit este 0:
0 b6 b5 b4 b3 b2 b1 b0
Caracterul NUL (cu codul 0) precum i caracterele avnd codurile ntre 128 i 2047 sunt
reprezentate prin doi octei, primul ncepnd cu 110, al doilea cu 10:
110 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
n sfrit, caracterele avnd codurile ntre 2048 i 65535 sunt reprezentate prin trei octei,
primul ncepnd cu 1110, al doilea i al treilea cu 10:
1110 b15 b14 b13 b12 10 b11 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
Exemple:
litera A (cod 65)
0100 0001
litera (cod 131)
1100 0010 1000 0011
Nu trebuie s confundm ns caracterele (UNICODE sau chiar ASCII) cu semnele
grafice care sunt afiate pe ecrane sau imprimate pe hrtie. Aceste semne grafice sunt
interpretri ale caracterelor, este posibil ca acelai caracter s aib interpretri diverse.
Trebuie s reinem noiunea de font, ca ansamblu de descrieri (semne) grafice asociate
tuturor caracterelor alfabetului. De exemplu, caracterele 36 i 68 sunt descrise astfel:
Fontul
caracterul
36
68
Symbol
Arial
Wingdings
'
15
Prin tradiie, caracterele cu coduri ntre 32 i 127 sunt numite caractere text sau
printabile, n fonturile de litere acestora le corespund semnele aflate pe taste. Despre
caracterele 32 (space = blanc), 9 (tab), 10 (line feed) i 13 (carriage return) se spune c sunt
albe.
Exerciii. 1) Imprimantele ataate calculatoarelor personale pot fi controlate prin
comenzi date n diverse limbaje. Aflai amnunte asupra ctorva limbaje de comand pentru
imprimante (Postscript, PCL, ...).
2) ntlnim uneori expresiile caracter ANSI i caracter ASCII. n ce msur acestea
se refer la aceleai obiecte?
3) Identificai reprezentrile literelor romneti , , prin caractere UNICODE.
1.6. Funcionarea calculatorului
n continuare vom face cteva consideraii elementare privind modul n care funcioneaz
un calculator. Procesorul prelucreaz (execut) instruciuni exprimate binar n cod-main.
Iat un exemplu teoretic de instruciune n cod-main
1000110010100000
tradus n limbajul de asamblare prin
add A,B
i interpretat n limbajul natural astfel: adun coninutul registrului B peste coninutul
registrului A (rezultatul adunrii va fi plasat, evident, n registrul A), adic A A + B.
n aprecierea de ansamblu a activitii procesorului, trebuie s lum n considerare i:
a) capacitatea regitrilor; o sum-rezultat al adunrii ce depete capacitatea maxim a
registrului A ar trebui s declaneze un semnal de alarm de tip overflow;
b) durata de efectuare a adunrii. Aceasta este msurat printrun numr de uniti de
timp speciale.
Celelalte programe se submpart n dou grupe:
a) softul auxiliar, destinat programatorilor, ce include compilatoare i asambloare.
b) aplicaiile, destinate utilizatorilor obinuii, care nu au cunotine de programare.
Trebuie s menionm aici c exist dou tipuri de aplicaii:
b1) de uz general, destinate tuturor. Acest tip include editoarele de texte, aplicaiile
de calcul tabelar etc. Datorit numrului uria de persoane ce utilizeaz aplicaiile
de uz general, aceste aplicaii sunt relativ ieftine;
b2) specifice fiecrei activiti umane specializate. Fiecare meserie i are softul
specific, cu un numr de utilizatori redus i, de regul, costnd mult mai scump.
Exerciii. 1) n jargonul informaticii au aprut n deceniul trecut cuvintele applet i
cookie. Aflai nelesul acestor cuvinte.
2) Aflai informaii despre regitrii unui procesor i specificul utilizrii lor.
3) Programatorii, pentru a crea aplicaii independente, folosesc aa-numitele medii de
dezvoltare a aplicaiilor (rapid application development). Aflai amnunte despre coninutul
ctorva medii de dezvoltare aplicaiilor.
4) Odat cu extinderea Internetului au aprut noi limbaje de programare, specifice. Aflai
amnunte despre HTML, PHP i XML.
1.7. Forme geometrice i grafeme
Modelul geometric clasic pentru desenare este planul, iar noiunile de punct, segment de
dreapt, linie curb, zon, domeniu plan, dreptunghi/ptrat, elips/cerc, poli-linie (= linie
frnt) sunt bine cunoscute din coala elementar. ns att ecranul monitorului, ct i pagina
16
de hrtie aflat n imprimant nu pot fi tratate de ctre calculator conform cu aceste noiuni
clasice. Specificul activitilor calculatorului face ca s nu putem trata direct obiectele
ideale continue. Evident, n lucrul cu calculatorul toate obiectele ideale continue vor trebui
s fie aproximate prin obiecte discrete, i este de dorit ca aproximarea s fie att de bun
nct folosindu-ne de simurile noastre s nu percepem diferenele.
Aadar, punctul clasic lipsit de dimensiuni va fi aproximat printro mic zon, de obicei
ptrat (posibil ns i dreptunghiular, sau chiar exagonal). Segmentele de dreapt i alte
linii vor fi aproximate prin succesiuni de zone punctuale etc.
Redarea segmentului
Redarea segmentului
Segment ideal
ntro reea ptrat
ntro reea exagonal
Aadar, s reinem ideea c orice linie curb se obine prin (discretizarea unei)
juxtapuneri de segmente de dreapt i/sau segment de curb Bzier.
O form grafic se compune din dou informaii:
1) descrierea standard a unor curbe nchise,
2) informaia de colorare a interiorului.
17
1.8. Coduri
ASCII este prescurtarea sintagmei American Standard Code for Information Interchange.
Este un alfabet standardizat n S.U.A. cu mult timp nainte de apariia primului calculator
electronic.
Cele 128 de litere ale sale, numite caractere, reprezint semne clasice uzuale: litere,
cifre, semne de punctuaie, semne aritmetice, dar i anumite aciuni legate de folosirea
mainii de scris (precursoarea tastaturii) i a telegrafului (precursorul Internetului).
Caracterele alfabetului ASCII sunt identificate de ctre numerele naturale ntre 0 i 127
(inclusiv). S precizm c orice asemenea numr este reprezentabil printro secven distinct
de 7 cifre binare.
Cu meniunea c spaiul alb (folosit pentru a separa cuvintele ntre ele) este reprezentat
prin caracterul 32 (adic prin secvena de cifre binare 0100000), s listm n tabelul de mai
jos reprezentarea uzual a caracterelor ntre 32 i 126.
Dedesubtul reprezentrii, ntre paranteze, este trecut denumirea Postscript a
reprezentrii. (Postscript este denumirea generic a unui limbaj de comand utilizat de ctre
procesoarele unor imprimante.)
S precizm i interpretarea altor ctorva caractere (ce nu se regsesc n tabel):
9 (tab)
comand de salt spre dreapta la primul tabulator fixat la
maina de scris,
10 (carriage return)
comand de revenire a capului mainii de scris la captul din
stnga al rndului curent,
13 (line feed)
comand de avansare a unui rnd la maina de scris,
27 (escape)
comand de introducere a unei secvene speciale.
Caracterul
32
spaiul alb
(0100000) (space)
33
!
(exclam)
34
(quotedbl)
35
#
(octothorpe)
36
$
(dollar)
37
%
(percent)
38
&
(ampersand)
39
(quotesingle)
40
(
(parenleft)
18
Caracterul
47
48
(0110000)
49
/
(slash)
0
(zero)
1
(one)
...
57
58
59
60
61
Caracterul
90
91
92
93
9
(nine)
:
(colon)
;
(semicolon)
<
(less)
=
(equal)
94
95
96
97
(1100001)
98
Z
(Z)
[
(bracketleft)
\
(backslash)
]
(bracketright)
^
(asciicircum)
_
(underscore)
`
(grave)
a
(a)
b
(b)
41
42
43
44
45
46
)
(parenright)
*
(asterisk)
+
(plus)
,
(comma)
(hyphen)
.
(period)
62
63
64
65
(1000001)
66
...
>
(greater)
?
(question)
@
(at)
A
(A)
B
(B)
...
122
123
124
125
126
z
(z)
{
(braceleft)
|
(bar)
}
(braceright)
~
(asciitilde)
Este destul de evident c aceste 128 de caractere nu pot satisface ntreaga diversitate de
semne folosite de ctre diferitele societi umane. Nu sunt reprezentate prin caractere ASCII
literele , , , , (ca i multe altele). Chiar i n S.U.A. au fost adoptate alte alfabete
standard, mai cuprinztoare. Exemple:
1) alfabetul ANSI (iniialele de la American National Standards Institute) utilizat n
primele versiuni Windows, format din 256 de caractere, dintre care primele 128 identice cu
caracterele ASCII;
2) alfabetul ISO Latin-1, format i acesta din 256 de caractere, n mare msur similare
celor din alfabetul ANSI. n acesta sunt reprezentate multe litere cu diacritice, printre care
regsim i (datorit apariiei lor n textele franuzeti);
3) alfabetul (Microsoft) Unicode ce permite prin cele 65536 caractere ale sale s fie
reprezentate toate semnele utilizate n societile umane.
Pentru compatibilitate, i n acesta caracterele 32-126 sunt exact cele ASCII clasice (care
apar pe tastaturile standard). Gsim reprezentate aici toate cele 10 caractere cu diacritice
folosite n limba romn.
Fiecare caracter Unicode este reprezentabil unic prin 16 cifre binare (grupate n dou
grupe de cte 8 cifre binare fiecare):
b15 b14 b13 b12 b11 b10 b9 b8 b7 b6 b5 b4 b3 b2 b1 b0
Cifrele binare b0, , b15 au valori diferite, n funcie de poziia fiecreia. Dac b0 = 0 i
b0 = 1 au valoarea numerelor 0 respectiv 1, nu acelai lucru se poate spune despre celelalte.
Astfel, b1 = 1 are valoarea numrului 2, b2 = 1 are valoarea numrului 4, , b6 = 1 are
valoarea numrului 64, b15 = 1 are valoarea numrului 32768, iar ansamblul 00000000
11101110 are valoarea numrului 128+64+32+8+4+2 = 238 (numr care reprezint
caracterul-liter ).
Folosirea grupelor de 8 cifre binare nu trebuie s ne surprind. Prin tradiie, stocarea i
transmisia informaiei se face n octei.
Se observ c mrimea cifrelor binare crete pe msur ce ne deplasm de la dreapta
spre stnga. Observm c cifrele binare de valori mici sunt n grupa din dreapta (cea
terminal). Este situaia identificat ca Unicode big endian, specific calculatoarelor din
familia Macintosh.
Nu ntotdeauna ns cele dou grupe sunt poziionate n aceast ordine. Este posibil ca
grupele s fie inversate, informaia s apar astfel: 11101110 00000000, cifrele binare
de valori mici s se afle acum n grupa din stnga, iar n grupa terminal s se afle cifrele
binare de valori mari. Este situaia identificat ca Unicode little endian, specific
procesoarelor Intel Pentium i celor compatibile acestora.
Cele 16 cifre binare ale unui caracter Unicode pot fi distribuite i altfel, prin folosirea
unor transformri. UTF-8 este un nume dat exprimrii n octei a caracterelor Unicode,
conform regulilor urmtoare. (UTF provine de la Universal Character Set Transformation
Format.)
19
(Regula 1) Fiecare caracter Unicode va fi reprezentat prin 1, 2 sau 3 octei. Mai precis,
caracterele 1-127 sunt reprezentate printrun singur octet, n care prima cir binar este 0:
0 b6 b5 b4 b3 b2 b1 b0
(Regula 2) Caracterul NULL (0) i caracterele 128-2047 sunt reprezentate prin dou
grupuri de cte 8 cifre binare (n total 16 cifre binare); primul octet ncepe cu 110, iar cel deal doilea ncepe cu 10:
110 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
(Regula 3) Celelalte caractere, cuprinse ntre 2048 i 65535, sunt reprezentate prin trei
grupuri de cte 8 cifre binare (n total 24 de cifre binare); primul grup ncepe cu 1110, iar
celelalte ncep cu 10:
1110 b15 b14 b13 b12 10 b11 b10 b9 b8 b7 b6 10 b5 b4 b3 b2 b1 b0
Ca exemplu, n UTF-8 litera va fi reprezentat prin 11000011 10101110.
Toate consideraiile de mai sus arat rolul decisiv al interpretrii secvenelor de bii, iar
interpretarea unei secvene de bii stocat n memoria unui calculator depinde n mod
esenial de programul care o interpreteaz.
Exerciii. 1)
Identificai reprezentarea n bii a caracterelor ce reprezint semnele 1,
@, ~, A, a.
2) Patru bii consecutivi pot fi reprezentai unic printro cifr hexazecimal. Folosind
aceast posibilitate, reprezentai hexazecimal caracterele care reprezint literele A i .
3) Aflai reprezentrile caracterelor , i n UNICODE.
1.9. Fonturi
Odat cunoscute amnuntele de mai sus, putem trece la prezentarea mai detaliat a
noiunii de font.
S ne imaginm c am ales un alfabet, de exemplu ASCII, iar fiecrui caracter din acest
alfabet i-am asociat o descriere grafic (adic un grafem), nu neaprat legat de reprezentarea
caracterului n tabelul anterior. (Astfel, de exemplu, caracterului 65 i-am putea asocia
grafemul A, grafemul A, sau grafemul A, ori un altul, cum ar fi
.)
Ansamblul de asocieri caractergrafem constituie prima component a unui font. Pentru
a nelege corect noiunea de font, s considerm redarea cuvntului avion cu majuscule.
Exploatnd descrierile grafice ale caracterelor 65 (A) i 86 (V) i juxtapunndu-le, mrimea
spaiului alb intermediar las impresia unei separri, mai ales atunci cnd citim rapid. S-a
constatat nc din secolul al XVI-lea c percepia nelesului cuvintelor scrise este mult
uurat atunci cnd spaiile albe dintre grafemele consecutive sunt aproximativ de aceeai
mrime. Astfel, ar fi de dorit o apropiere a grafemului V de A, ceea ce se obine prin
procedura numit kerning.
Date dou grafeme, se recomand ca redarea lor unul dup altul mai ales la imprimant
s se fac prin aplicarea unei deplasri, conform regulilor de kerning. Dou exemple sunt
prezentate n figura urmtoare.
20
21
22
Discurile compacte, partiiile de disc fix i memory stick-urile sunt tratate similar, purtnd
numele generic de volume de date.
Orice fiier are nu doar un coninut; el are de asemenea un cap n care se afl plasate
datele necesare identificrii i accesrii coninutului. Capul include:
un nume, cunoscut ca numele fiierului;
eventual un alt nume, mai scurt, obinut printrun fel de trunchiere din numele
complet;
o lungime (= numrul caracterelor din coninut) limitat la 264B, ceea ce nseamn
numr de caractere practic nelimitat;
un indicator spre clusterul n care ncepe coninutul fiierului;
mai multe atribute ce servesc la restricionarea utilizrii fiierului. S dm pe Readonly ca exemplu de atribut al fiierului; activarea acestui atribut interzice modificarea
coninutului fiierului dar nu i modificarea numelui, nici distrugerea total a
fiierului;
eventual numele utilizatorului care a creat fiierul (adic proprietarul);
data crerii, eventual data celei mai recente modificri a coninutului.
Sistemul de operare are posibilitatea de a identifica locaia tuturor clusterelor n care este
depus coninutul, plecnd de la aceste date din cap.
Unele fiiere au coninutul foarte special, anume doar capete de alte fiiere; un
asemenea fiier-container este numit generic dosar (folder sau, cu un nume mai vechi,
directory).
Pentru aceste fiiere-container, i numai pentru ele, atributul Directory este activ. Un
dosar conine aadar (capete de) fiiere obinuite i/sau subdosare.
S menionm i faptul c n sistemele de operare Windows fiecare partiie de disc trebuie
s fie formatat nainte de prima utilizare. Prin formatarea partiiei se creeaz n ea un
dosar special, numit dosarul rdcin al partiiei. Acesta este, din punct de vedere logic,
rdcina aa-numitului arbore al dosarelor (directory tree). n acest arbore frunzele sunt
exact fiierele obinuite. Rdcina are o notaie special, anume caracterul \ (backslash).
n sistemele de operare UNIX (sau Linux) ntreaga memorie a calculatorului este
coninut ntrun singur dosar numit, evident, rdcina (root). Notaia sa aici este caracterul
/ (slash).
Meniul de context al unui folder (sunt listate metodele asociate)
tast apsat. Efectul poate depinde de starea tastelor [Shift], [Ctrl] i [Alt], de
asemenea de caracteristicile typematics ale tastaturii;
tast eliberat.
Exist multe alte evenimente posibile, legate de selectarea din meniuri, de modificrile de
locaie sau de mrime, de obinerea/pierderea focusului, de trecerea unui anumit timp fixat
dinainte etc. Programatorii construiesc aplicaiile prin asamblarea de controale; ei pot
programa aciuni asociate diferitelor perechi (control, eveniment) posibile. Toate aplicaiile
Windows sunt construite n acest fel.
Caseta de dialog Page Setup
Fontul dorit poate fi ales n caseta-list Font (vezi figura de mai jos), urmat de un tabel
n care sunt afiate grafemele, n ordinea caracterelor Unicode crora le sunt asociate.
Grafemele pot fi cutate cu uurin innd seam de gruparea caracterelor Unicode n
categorii speciale (semne de punctuaie, sgei, operatori matematici etc.), prin utilizarea
casetelor-list Character set i Group by, precum i a casetei-text Search for.
Cea de-a doua comand din acest meniu este de fapt o opiune, Word Wrap, care are ca
efect limitarea textului la zona vizibil. (Odat cu redimensionarea ferestrei, textul este
rearanjat aa nct s umple spaiul disponibil.) n caz c aceast opiune este dezactivat, n
partea inferioar va aprea o bar de defilare ce se activeaz automat atunci cnd un rnd de
text depete (ca lungime) zona vizibil.
Meniul View conine doar o comand, anume opiunea Status Bar, de activare/
dezactivare a barei de stare (vizibil n partea inferioar a ferestrei Notepad). Pe aceast bar
este afiat o singur informaie, anume poziia punctului de inserare.
Meniul File are o compoziie foarte simpl, comparativ cu alte aplicaii. Comenzile sale
sunt uor de neles, dac inem seam de faptul c Notepad creeaz documentele n
memoria volatil, imprimarea lor se efectueaz prin intermediul unei imprimante ataate
calculatorului, iar stocarea unui document pe suport magnetic are loc sub forma
coninutului unui fiier. Comenzile sunt grupate n trei grupuri:
comenzi de lucru cu documente i fiiere,
comenzi de control al paginrii i imprimantei,
comanda Exit de prsire a aplicaiei.
Evident, comanda New va avea ca efect deschiderea unui nou document, n memoria
intern. Acesta va fi identificat ca Untitled pe bara titlului ferestrei Notepad, vezi figura
de mai sus pn la salvarea sa pe suport magnetic. Pentru salvare putem folosi comanda
30
Save As, n execuia creia se va cere alegerea unui nume pentru fiierul al crui coninut va
deveni forma curent a documentului.
Odat salvat pe suport magnetic, apar dou versiuni ale documentului: cea salvat n
fiierul creat i cea din memoria intern. Atenie, numele care este afiat pe bara titlului
ferestrei Notepad se refer la versiunea salvat, iar coninutul afiat n fereastr este redat
conform cu versiunea din memoria intern! Folosirea comenzii Save elimin eventuala
neconcordan.
Diferena ntre efectul comenzilor Save As i Save const n posibilitatea de a alege un alt
nume pentru fiier (n primul caz); evident, atunci cnd documentul este salvat pentru prima
dat, efectul celor dou comenzi este identic.
Caseta de dialog Save As, prezentat n figura urmtoare, este foarte important i merit
studiat n detaliu.
n partea superioar, principalul obiect este o caset-list Save in n care va fi ales
folderul de depunere. Sub aceasta, n zona central, este prezentat coninutul acestui folder.
n partea inferioar, trei casete-list permit alegerea numelui fiierului, a tipului su i a
codificrii. Notepad permite crearea i lucrul cu documente n mai multe codificri: ANSI,
Unicode, UTF-8. (Implicit este folosit codificarea ANSI standard, iar tipul fiierului este
Text, ceea ce este corespunde extensiei .txt.)
Mai multe butoane n partea stng i n partea superioar ajut la navigarea n structura
destul de complex a folderelor existente i chiar la crearea unor noi foldere.
n sfrit, butoanele Save i Cancel servesc la confirmarea comenzii, respectiv la
renunarea la comanda de salvare.
Odat salvat ca fiier, un document oarecare poate fi deschis ulterior pentru a fi refolosit.
Evident, comanda de deschidere este Open, aflat i ea n meniul File. Alegerea acestei
comenzi conduce la caseta de dialog Open, asemntoare celei prezentate n figura de mai
sus. (Ca deosebiri minore, caseta-list Save in devine Look in, caseta-list Save as type
devine Files of type, iar butonul Save devine Open.)
31
32
Accesoriul Paint permite stocarea imaginilor i sub form de fiiere de tipul TIFF
(iniialele de la Tagged Image File Format). Acesta este un standard folosit deseori de
aparatele foto digitale pentru nregistrarea imaginilor de nalt calitate. Chiar dac se aplic o
procedur de comprimare, aceasta este fr a se pierde detaliile vizuale, ceea ce face ca acest
format s fie adecvat arhivrii imaginilor. Din pcate el nu este nc recunoscut de ctre
aplicaiile de navigare.
Figura anterioar prezint fereastra aplicaiei-accesoriu Paint. Zona central constituie
suprafaa de lucru. n stnga suprafeei de lucru se afl un set de butoane care reprezint
instrumentele de desenare, iar dedesubt se afl paleta de culori disponibile. La fel ca n cazul
ferestrei Notepad, i n fereastra Paint distingem o bar de stare n partea inferioar i o bar
a meniurilor n partea superioar. Pe bara de stare se afieaz coordonatele punctului (din
suprafaa de lucru) deasupra cruia se afl cursorul mausului. Bara meniurilor este una dintre
cele mai simple, doar dou meniuri fiind specifice: Image i Colors.
Dimensiunile suprafeei de lucru pot fi stabilite prin selectarea comenzii Attributes din
meniul Image. Un buton radio Units permite stabilirea acestor dimensiuni n oli (inches),
centimetri sau pixeli (vezi figura de pe pagina urmtoare). n aceeai caset de dialog
Attributes putem alege ntre imagini alb/negru i imagini color.
Caseta de dialog Attributes
35
nainte de a folosi un instrument de desenare trebuie s stabilim cele dou culori cu care
se va lucra, anume culoarea de prim plan (foreground color) i culoarea de fundal
(background color). Culorile care au fost alese sunt afiate n colul de stnga-jos, iar
nlocuirea uneia dintre ele cu o alt culoare din palet se face:
cu un clic-stnga (deasupra culorii dorite) pentru culoarea de prim plan,
cu un clic-dreapta pentru culoarea de fundal.
Pentru nlocuirea celor dou culori de lucru se poate proceda i altfel. Anume, dup
alegerea pipetei ca instrument, plasm cursorul mausului deasupra unui punct colorat n
culoarea dorit i cu un clic-stnga facem ca aceasta s devin culoarea de prim-plan, iar cu
un clic-dreapta culoarea de fundal.
Cel mai simplu meniu este acum Colors, cu singura comand Edit Colors, cu ajutorul
creia putem s schimbm culorile existente n paleta de culori cu altele, alese fie folosind
modelul RGB al celor trei culori fundamentale, fie folosind modelul HSL (vezi figura
urmtoare).
Meniul Image, despre care am amintit anterior, conine i comenzi prin care putem
efectua transformri asupra imaginii:
transformri geometrice simple, prin comenzile Flip/Rotate i Stretch/ Skew,
inversarea culorilor, prin comanda Invert Colors.
diferite), iar n cazul unor activiti grafice pretenioase se recomand folosirea unui soft
specializat, cum este Microsoft Photo Editor, CorelDraw! sau Adobe Photoshop.
(Pentru compararea complexitii, prezentm n figura urmtoare ferestrele aplicaiior
Paint i Adobe Photoshop.)
dimpotriv, pe ecran va aprea o caset de dialog n care va trebui s stabilim valorile mai
multor parametri care nsoesc comanda.
Utilizatorii neexperimentai pot folosi ntotdeauna ablonul Normal (stocat n fiierul
denumit Normal.dot).
Cteva cuvinte despre documentele Word. La crearea unui document este deschis o
structur complex n memoria volatil a calculatorului, structur identificat prin numele
DocumentN. Aceast structur conine, alturi de text i de caractere-comenzi de
formatare, anumite date de identificare: numele autorului, titlul i subiectul, cuvinte-cheie i
comentarii. Aceast structur este salvat de obicei ca fiier ntro memorie permanent.
Exist trei tipuri principale de fiiere-document ce pot fi create cu Word:
clasice (avnd extensia doc),
rich text format (avnd extensia rtf),
hipertext (avnd extensia html).
Coninutul unei fiier html va fi prezentat ulterior. Coninutul unui fiier rtf este relativ
simplu; este compus doar din caractere text (printabile), organizate ca secvene de entiti de
forma urmtoare
{\comand bloc_de_text}
n care comanda este aplicat blocului de text.
Prin contrast, n coninutul unul fiier doc poate aprea orice caracter (Unicode); unele
caractere, aflate n poziii speciale, pot reprezenta comenzi particulare cum sunt cele de
centrare a paragrafelor, subliniere a cuvintelor etc. De menionat i faptul c interpretarea
coninutului unui asemenea fiier-document depinde i de versiunea aplicaiei Word.
Meniul Fiier conine comenzi folosite pentru controlul fiierelor, comenzi grupate n mai
multe grupuri.
1. Trei comenzi, numite Nou, Deschidere i nchidere, formeaz primul grup. S
observm litera subliniat n fiecare nume de comand, cu aceast ocazie s evideniem alt
veche convenie n aplicaiile Windows: n absena mausului, apsarea tastei-liter subliniat
declaneaz comanda.
Comanda Deschidere este folosit, evident, pentru a deschide un document salvat, creat
nu neaprat cu Word! Evident, ntro asemenea situaie ne putem atepta s pierdem cea mai
mare parte a formatrii documentului, n caz c a fost realizat cu soft al altei firme (nu
Microsoft).
S observm c i numele comenzii Deschidere este urma de trei puncte; caseta de dialog
Deschidere este foarte important i nelegerea tuturor componentelor ei este obligatorie
pentru toi utilizatorii Word-ului!
Cu Word utilizatorul este capabil s controleze simultan mai multe documente. Comanda
nchidere este folosit, evident, pentru a nchide documentul curent.
Nou i Deschidere sunt dublate prin butoane specifice pe bara instrumentelor.
2. Al doilea grup conine comenzile Salvare, i Salvare ca. Aceste comenzi sunt
folosite pentru salvarea documentului curent. S observm c noua caset de dialog Salvare
ca este similar cu caseta de dialog Deschidere (ceea ce nu este de mirare, ntruct
ambele sunt destinate controlului unor fiiere).
Diferena ntre comenzile Salvare i Salvare ca const n posibilitatea de alegere a altui
nume pentru fiier (n cea de-a doua); evident, atunci cnd documentul este salvat pentru
ntia dat, efectul alegerii lui Salvare sau Salvare ca este acelai.
Un buton special pe bara instrumentelor (iconia dischet") dubleaz comanda Salvare.
3. n cel de-al treilea grup sunt grupate cteva comenzi ce controleaz realizarea paginii
pe suport concret (hrtia). Comanda Iniializare pagin controleaz, prin intermediul unei
casete de dialog multiple, apariia textului pe o pagin virtual, iar comanda Imprimare
controleaz, prin intermediul altei casete de dialog similare cu Deschidere", imprimarea
38
documentului curent. O a treia comand din acest grup, Examinare naintea imprimrii,
poate fi folosit pentru vizualizarea, pe ecran, a felului n care va arta pagina imprimat.
Comenzile Imprimare i Examinare naintea imprimrii, relativ des utilizate, sunt
dublate de obicei de butoane (cu iconiele imprimant i foaie cu lup pe bara instrumentelor).
4. Un alt grup conine comanda Proprieti, folosit pentru a controla (ntro caset de
dialog multipl) datele de identificare ale documentului curent.
5. Urmtorul grup are un numr variabil de componente; aici sunt prezentai
identificatorii celor mai recente fiiere-document pe care le-a prelucrat Word, ceea ce ne
permite regsirea rapid a unui asemenea document.
6. n sfrit, ultimul grup conine doar comanda Ieire, folosit atunci cnd dorim s
ncheiem activitatea cu Word. Efectul este similar celui pe care-l obinem prin nchiderea
ferestrei Word, cu alte cuvinte a folosirii comenzii Close din meniul de control al ferestrei.
7. n meniul Fiier ar putea s apar i alte comenzi, dintre care menionm doar
Scaneaz, n cazul n care este ataat un scanner, i Trimitere ctre.
S observm c principalele comenzi ce acioneaz asupra structurilor din memorie i
asupra fiierelor, adic Nou, Deschidere i nchidere, sunt ntlnite de regul n toate
aplicaiile Windows. i comanda Imprimare apare ntro form similar n toate aplicaiile
ce produc rezultate ce pot fi imprimate pe hrtie.
Atunci cnd deplasm indicatorul mausului deasupra paginii albe de pe ecran, este
posibil ca forma s i se schimbe. De obicei are forma asemntoare literei I, ceea ce ne
permite s efectum urmtoarele aciuni:
cu un singur clic (pe butonul stng) plasm un cursor clipitor (avnd forma unei bare
verticale) n poziia cea mai apropiat a textului. n jurul acestui cursor, numit punct de
inserare, putem insera sau distruge text folosindu-ne de taste.
Inserarea de caractere noi are loc ntotdeauna n stnga punctului de inserare. Dimpotriv,
eliminarea caracterelor poate fi fcut n ambele direcii, folosind tasta [BackSpace] nspre
stnga i tasta [Delete] nspre dreapta;
cu un dublu clic va fi selectat cuvntul de dedesubtul indicatorului mausului;
cu un triplu clic va fi selectat ntregul paragraf de sub indicator;
prin tragerea mausului ne este permis selectarea unui bloc de text arbitrar (o secven
contigu de cuvinte);
cu un singur clic (pe butonul drept) se va deschide meniul de context. Comenzile
acestuia ne permit de exemplu s alegem un sinonim al cuvntului de dedesubtul
indicatorului, sau s transformm acest cuvnt n hyperlink.
Coloana alb special din stnga zonei textului este numit bara de selectare (selection
bar). Aici indicatorul mausului devine o sgeat alb cu vrful spre dreapta. n aceast
situaie, un clic pe butonul stng conduce la selectarea rndului corespunztor n zona de
text, cu un dublu clic selectm ntregul paragraf, iar tragerea ne permite s selectm rnduri
contigue.
Odat ce a fost selectat un bloc de text, n interiorul su i n jurul marginilor sale
indicatorul mausului ia forma unei sgei albe cu vrful spre stnga. Putem trage acum
blocul selectat ntro nou poziie.
Aceasta este de fapt o operaiune de editare, de tipul Decupare-Lipire. Aciuni de editare
mai elaborate sunt permise prin intermediul comenzilor grupate n meniul Editare:
1. Un prin grup conine comenzile Anulare i Repetare/Refacere. Aceste comenzi
depind de context, mai precis de ultima aciune efectuat (tastare, tergere, etc.) i permit
corectarea facil a erorilor.
39
Ambele aceste comenzi pot fi sunt dublate de casete-list speciale pe bara instrumentelor,
avnd ca iconie sgei curbe, iar listele coninnd ultimele activiti efectuate.
2. Al doilea grup conine comenzile clasice de editare Decupare, Copiere i Lipire,
toate trei dublate de butoane pe bara instrumentelor. Dac nu este selectat niciun bloc de
text, numele Decupare i Copiere i butoanele respective sunt filtrate cu gri, ceea ce
nseamn c aceste comenzi sunt nepermise n contextul respectiv. Aceasta este o alt
convenie general valabil n toate aplicaiile Windows: numele sau controalele filtrate cu
gri corespund comenzilor sau opiunilor ce nu sunt permise n momentul respectiv. Evident,
dup o selectare de bloc de text, comenzile Decupare i Copiere vor fi permise.
Decuparea unui bloc de text nseamn de fapt mutarea sa n aa-numitul clipboard care,
reamintim, este o memorie special ntreinut de Windows pentru a se permite transferuri de
obiecte ntre aplicaii. Copierea nseamn plasarea n clipboard a unei cpii a blocului de
text selectat. Lipirea nseamn preluarea unei cpii a coninutului magaziei clipboard n
poziia curent a cursorului de editare.
Copierea unui bloc de text selectat poate fi fcut i printro scurttur, prin tastarea
combinaiei [Ctrl]+[C]. O scurttur similar, [Ctrl]+[V], poate fi folosit pentru a lipi din
clipboard.
n acest al doilea grup sunt incluse alte comenzi speciale de lipire, dintre care menionm
doar Lipire ca hyperlink.
3. Al treilea grup conine o comand important, Selectare total, folosit evident
pentru a selecta ntreg coninutul documentului ca bloc de text.
4. Al patrulea grup conine comenzi folosite pentru a regsi informaii particulare n
interiorul unui document i eventual a le nlocui automat cu alte informaii. Toate cele trei
comenzi Gsire, nlocuire i Salt la conduc la aceeai caset de dialog; aici cele mai
importante controale sunt dou casete combinate (text plus list) intitulate De cutat i
nlocuire cu.
Trebuie menionat c n toate casetele-text sunt aplicabile regulile de editare, n particular
copierea i lipirea folosind scurtturile obinuite [Ctrl]+[C], [Ctrl]+[V]!
S observm i iconia (binoclu) din stnga cuvntului Gsire. Aceasta ne spune c
putem avea comanda dublat de un buton pe bara instrumentelor. Dar, atenie, pot avea loc
modificri ale coninutului barei instrumentelor, n urma unei comenzi din meniul ce
urmeaz.
Meniul Vizualizare conine mai multe comenzi ce permit s controlm att modul n care
documentele sunt afiate pe ecran, ct i apariia altor auxiliare.
Primul grup de comenzi conine de fapt mai multe comenzi mutual exclusive (aadar un
buton radio de comenzi) prin care controlm ct de mult informaie este afiat pe ecran
mpreun cu textul documentului. De exemplu, alegnd Aspect pagin Web vom putea
vedea felul n care documentul nostru va aprea n fereastra unui navigator (browser pentru
World Wide Web).
De obicei, atunci cnd se tasteaz rapid fr formatare, se va folosi vizualizarea Normal;
dar, atunci cnd producem documente ce urmeaz a fi imprimate este recomandabil s
folosim vizualizarea Aspect pagin imprimat.
Alte comenzi din meniul Vizualizare evident, plasate n alte grupe ne permit s
controlm apariia antetului (header) i/sau a subsolului (footer), a notelor de subsol
(footnotes) i comentariilor,
controlm apariia riglelor (orizontal i vertical),
controlm apariia i coninutul diferitelor bare de instrumente,
mrim/micorm imaginea paginii pe ecran.
Meniul Inserare conine mai multe comenzi, ce permit utilizatorului s insereze n
document:
40
ntreruperi,
numerotri ale paginilor,
data i ora curent,
simboluri speciale pentru formule simple sau cu diacritice,
comentarii, note de subsol, semne de carte (bookmarks), referine ncruciate i
indexarea termenilor,
text automat,
imagini i chenare,
obiecte realizate cu soft auxiliar,
coninutul altor fiiere,
hiperlegturi (hyperlinks).
S menionm o excepie: pentru inserarea de tabele va trebui s folosim comanda
Inserare Tabel din meniul Tabel!
A formata un document nseamn a aciona pentru a-i mbunti aspectul, n scopul
micorrii timpilor de percepie a componentelor sale importante. Prin formatare se nelege
de obicei modificarea, pentru diverse blocuri de text, a urmtoarelor atribute:
fontul i mrimea literelor;
evidenierea prin nclinare (italic), ngroare (bold) i/sau subliniere;
coloane, borduri, texturi, culori etc.
Formatarea unui document poate fi fcut att n timpul tastrii textului, ct i ulterior
(dup ncheierea tastrii).
Din punct de vedere logic, un document clasic este organizat n seciuni, ca o succesiune
de paragrafe, fiecare paragraf este o succesiune de cuvinte, iar fiecare cuvnt este, evident, o
secven de caractere text. Pe de alt parte, dimensiunile suportului fizic (hrtia) impun
divizarea paragrafelor lungi pe mai multe rnduri. Tradiional se practic prezentarea pe
un numr de coloane (n cadrul seciunii) i sunt adoptate reguli de spaiere i repoziionare a
rndurilor unui paragraf ce nu ncap n ntregime pe coloan.
Se practic de asemenea plasarea pe pagin a unor chenare coninnd imagini sau texte
separate, cum ar fi notele de subsol; de asemenea, se practic plasarea unui antet i/sau unui
subsol coninnd informaii de identificare sau de numerotare a paginilor.
Evident, n realizarea informatizat a documentelor se ine seam de toate elementele
tradiionale.
Majoritatea comenzilor importante prin care se realizeaz formatarea unui document sunt
dublate prin casete derulante i butoane plasate pe o bar special, numit bara de
formatare i afiat de obicei sub bara standard a instrumentelor. Aceste comenzi sunt
grupate n meniul Format.
De obicei n stnga barei de formatare se afl caseta derulant prin care se controleaz
stilul paragrafului curent. Stilul este, prin definiie, ansamblul valorilor atributelor de
formatare pentru un paragraf, considerat ca bloc de text. Cu ajutorul casetei derulante se
poate alege, pentru paragraful curent, unul dintre stilurile gata pregtite (aflate n galeria de
stiluri a ablonului folosit). Galeria de stiluri poate fi explorat printro comand (Stil) uor
identificabil n meniul Format, iar crearea unui stil nou sau modificarea unuia existent se
poate face apelnd la aceeai comand.
De obicei, paragrafele obinuite sunt realizate n stilul Normal al ablonului implicit
Document necompletat, iar pentru paragrafele de titlu sunt prevzute diverse stiluri
adecvate.
Alte dou casete derulante controleaz fontul (de fapt familia de fonturi) i mrimea
literelor pentru blocul de text selectat sau, n lipsa seleciei, pentru caracterul ce urmeaz a fi
tastat.
41
Alinierea rndurilor unui paragraf se face, n mod obinuit, fa de marginile stngdreapt ale coloanei curente. Aceast practic se poate modifica prin schimbarea indentrii,
folosind dou butoane de pe bara de formatare dedicate acestui scop. De asemenea, prin
tradiie se obinuiete s se retrag primul rnd al unui paragraf fa de marginea din stnga,
ceea ce se numete indentare special. A doua posibilitate grafic de a modifica cele dou
margini ale paragrafului, precum i indentarea special, o constituie repoziionarea unor
indicatori aflai pe bara orizontal a riglei. Acelai efect va fi obinut i prin comenzi;
acestea sunt plasate ca opiuni n caseta de dialog Paragraf asociat comenzii Paragraf din
meniul Format.
Alinierea unui rnd fa de marginile stng-dreapt (stabilite pentru paragraf) poate fi
fcut n patru feluri: doar la stnga, doar la dreapta, sau fa de ambele margini (aceast
aliniere se obine prin dilatarea corespunztoare a tuturor spaiilor albe ce separ cuvintele de
pe rndul respectiv); a patra posibilitate este cea de a centra. Cele patru modaliti de
aliniere pot fi alese rapid, prin apsarea butoanelor corespunztoare de pe bara de formatare.
Exist foarte multe posibiliti de evideniere a unui bloc de text, odat ce a fost selectat.
Aceste posibiliti sunt controlate prin patru comenzi din meniul Format:
o Font,
o Paragraf,
o Marcatori i numerotare,
o Borduri i umbrire.
Toate conduc la casete de dialog multiple, a cror utilizare este ns simpl datorit
posibilitii de a controla, prin imagini sugestive afiate instantaneu, efectul alegerii fiecrei
opiuni.
Meniul Format conine i alte comenzi, dintre care menionm comanda Coloane ce
poate fi folosit pentru stabilirea numrului de coloane pentru blocul selectat sau pentru o
seciune a documentului. Se recomand ca stabilirea numrului de coloane s se fac n
interiorul unei seciuni; reamintim c o seciune nou se obine apelnd la comanda
ntrerupere din meniul Inserare, opiunea Continuu (din butonul radio Tipuri de sfrit
de seciune).
De asemenea, comanda Tabulatori poate fi folosit pentru fixarea poziiei i
proprietilor tabulatorilor. Menionm c parametrii de control al tabulrii pot fi schimbai
pentru fiecare paragraf n parte; n mod obinuit ei sunt preluai de la un paragraf la cel
urmtor, aa cum se ntmpl de regul cu toi parametrii paragrafului.
Foarte multe aciuni de formatare pot fi realizate i prin combinaii de taste, de obicei
bazate pe tasta [Ctrl]. Astfel, de exemplu, prin combinaia [Ctrl]+[L] se realizeaz alinierea
paragrafului curent fa de marginea stng (stabilit n acel moment).
Menionm c i inserarea de simboluri speciale sau de alte obiecte n cadrul
documentului este considerat operaie de formatare, dar aciunile corespunztoare sunt
obinute prin comenzi din meniul Inserare.
Un alt meniu foarte amplu este cel denumit Instrumente. Vom insista doar asupra a patru
comenzi ale sale: AutoCorecie, Corectare ortografic i gramatical, Limb i Opiuni.
Evident, un corector gramatical este extrem de util, semnalndu-ne eventualele construcii
greite de propoziii. Folosirea unui asemenea corector gramatical se bazeaz n primul rnd
pe un lexicon de cuvinte n limba respectiv, apoi pe un set de reguli gramaticale clare.
Aceste instrumente sunt implementate n fiiere cu extensia lex i existena acestor fiiere
condiioneaz evident posibilitatea folosirea comenzilor.
Alegerea limbii n care redactm documentul este evident efectuat prin comanda Limb.
S facem observaia c denumirea comenzii este nsoit, n dreapta, de un triunghi negru; n
general, apariia acestui triunghi alturi de denumirea unei comenzi are rolul de a ne avertiza
c aceast comand nu este complet, ci urmeaz s alegem ntre cteva subcomenzi. n
cazul nostru subcomenzile importante sunt dou: Stabilire limb i Desprire n silabe.
42
deseori situaii n care aranjarea tabelar a datelor prezint avantaje considerabile, i aceasta
nu doar n gestiunea spitalului sau a cabinetului medical.
Pentru activitile umane n care sunt folosite tabele au fost create de ctre diverse firme
creatoare de soft aa-numitele aplicaii de calcul tabelar. Cele mai cunoscute sunt Excel,
Lotus 1-2-3, Quattro Pro. n cele ce urmeaz ne vom referi de regul la aplicaia Excel
(creat de firma Microsoft), cu meniunea c deosebirile fa de alte aplicaii similare sunt
minore.
n afara rapiditii cu care sunt executate calculele, n general aplicaiile de calcul tabelar
prezint i alte avantaje:
recalculare automat (i instantanee") a tuturor rezultatelor, imediat ce o valoare
oarecare a fost modificat;
posibiliti multiple de formatare utile pentru prezentarea, pe ecran, a datelor;
posibilitatea reordonrii rapide a liniilor, dup diverse criterii;
existena unei varieti de funcii implementate, de natur matematic, statistic,
financiar care, nsoite fiind de explicaii detaliate privind modul de utilizare, sunt
utilizabile cu uurin chiar de ctre nespecialiti;
posibilitatea realizrii rapide a diagramelor i graficelor statistice, de diverse forme, pe
baza datelor din tabele;
posibilitatea transferului rezultatelor spre i dinspre documente (create nu doar cu
Word).
De peste un deceniu n aceste aplicaii a fost implementat organizarea datelor pe mai
multe foi de lucru (worksheets), presupuse situate una peste alta ca ntro carte. Fiecare
foaie de lucru are o denumire ce o identific Implicit, n Excel aceste denumiri sunt Foaie1
(Sheet1), Foaie2 (Sheet2),
Organizarea ferestrei aplicaiei Excel
44
Forma de cruce alb este folosit pentru selectarea unui domeniu. Domeniul elementar
selectat va fi ncadrat, iar celulele sale vor avea fundalul colorat (cu excepia celulei active,
plasat n col).
Forma asemntoare literei I este folosit n activiti de editare.
Forma de sgeat alb (vrful nspre stnga) este folosit pentru mutarea domeniului
selectat.
Forma de cruce neagr se folosete pentru activiti de umplere automat a coninuturilor
celulelor, prin tragere (drag and drop)
Forma de sgeat dubl este folosit pentru redimensionare (n direciile artate de
sgei).
Ca pentru orice aplicaie Windows, i n fereastra aplicaiei Excel apare bara titlului, bara
meniurilor, bara instrumentelor i bara de stare, ncadrnd zona de lucru. n funcie de
necesiti pot fi afiate i alte bare, ca de exemplu bara de desenare. Specific aplicaiei este:
1) organizarea celei mai mari pri a zonei de lucru n linii i coloane corespunztoare
foii active. Evident, liniile i coloanele sunt bordate cu zone gri pentru identificare. n
stnga sus, spaiul rmas este ocupat de butonul Selecteaz totul;
2) apariia barei formulei, deasupra zonei de lucru, folosit pentru editarea formulei din
celula curent; n stnga ei se afl caseta numelui, folosit pentru redenumire i regsirea
rapid a unui domeniu.
S trecem n revist cteva dintre posibilitile de calcul ale aplicaiei Excel.
1) Completarea automat a unui domeniu (linie sau coloan) cu valorile unei progresii.
Dac se completeaz dou celule contigue cu primele dou valori ale progresiei (exemple:
luni/mari, ianuarie/februarie, 10/20) i se selecteaz aceste dou celule, atunci prin tragere
cu mausul (forma cursorului = cruce neagr) de mnerul de tragere progresia se va
extinde.
2) Extinderea prin copiere a unei formule, de la o celul la un domeniu.
Folosindu-se comenzile EditareCopiere i EditareLipire, coninutul-surs al unei
celule poate fi copiat n alte celule. Dac sursa este o formul implicnd identificatori ai
altor celule, n urma copierii formula se va modifica diferenial.
De exemplu, dac n celula C1 coninutul este formula =A1+B1*A2, atunci prin copiere
n celula E4 (cu dou coloane n plus i trei linii n plus) formula devine =C4+D4*C5 (adic
indicatorii coloanelor au fost mrii cu 2, iar indicatorii liniilor au fost mrii cu 3).
Indicatorii ce nu trebuie s se modifice n urma copierii trebuie s fie nregistrai precedai
de caracterul $. Astfel, dac formula din C1 ar fi fost =$A$1+B$1*$A2, atunci n urma
copierii n celula E4 ar fi aprut formula =$A$1+D$1*$A5.
3) Copierea unui ntreg domeniu, cu adaptarea sau nu a formulelor la noua situaie.
46
n meniuri, pe baza afinitilor dintre ele. Evident, exista posibilitatea de modificare, att a
barei meniurilor, ct i a compoziiei lor, dar n esen meniurile erau relativ stabile, iar
comenzile inutilizabile erau obturate.
Odat cu Office 2007 a avut loc o schimbare drastic s organizrii suitei, ncepnd chiar
cu adoptarea noii interfee grafice Office Fluent. Practic bara meniurilor a disprut, iar
meniurile au devenit simple grupuri de comenzi. n locul acestei bare au aprut trei obiecte
noi, anume butonul Office, panglica i minibara de acces rapid (vezi figura).
Mai mult, comenzile au fost regrupate, de regul n funcie de gradul lor de utilitate.
Astfel, cele mai des folosite de ctre utilizator sunt la ndemn, reprezentate prin obiecte
sugestive. Scopul reorganizrii interfeei grafice a fost clar: eficientizarea muncii de obinere
a unui rezultat final estetic i transmisibil.
Butonul Office nlocuiete n esen vechiul meniu File. Prin intermediul su putem
efectua operaiunile de creare, preluare, export i tri mitere de fiiere speciale. Fiierele
speciale pot fi documente sau foi de calcul clasice, dar i de tip nou, identificabile prin
extensiile DOCX (pentru documente), XLSX (pentru foi de calcul).
Panglica este format din mai multe tablete, care ar putea fi asimilate meniurilor
clasice. Totui, coninutul unei tablete-meniu este mult mai complex i se schimb n funcie
de situaia de moment.
Minibara de acces rapid, n partea superioar a ferestrei, conine butoane care reprezint
cele mai folosite comenzi.
Ca regul general se pstreaz urmtoarea: accesul la metodele cu care se poate aciona
asupra unui obiect selectat, indiferent care, sunt listate n meniul de context al obiectului.
Accesul la acest meniu este determinat de un clic-dreapta deasupra obiectului.
Suita Office 2007 conine urmtoarele aplicaii:
a) Word 2007, pentru crearea de documente;
b) Excel 2007, pentru calcul tabelar;
c) PowerPoint 2007, pentru crearea de prezentri;
d) Access 2007, pentru administrarea bazelor de date;
e) Outlook 2007, pentru gestionarea mesageriei electronice;
f) InfoPath 2007, pentru crearea de formulare.
Vom reveni n cursurile 5 i 6.
48
49
50
52
54
56
58
60
65
68
69
72
vom obine urmtorul eveniment legat de acest interval: rezultatul msurrii diametrului unei
celule este n acest interval, adic este un numr ntre a i b. S notm cu E acest eveniment
particular.
Din punct de vedere logic apare i evenimentul complementar: rezultatul msurrii
diametrului celulei este n afara intervalului, ceea ce nseamn c fie este mai mic dect a, fie
este mai mare dect b. Acest eveniment complementar lui E va fi notat E (a se citi E
barat). Evident, dac intervalul nostru este [0, 1 (km)], atunci este sigur c rezultatul
msurrii diametrului celulei va cdea n acest interval. Avem de-a face n acest caz cu
evenimentul sigur.
Complementarul evenimentului sigur este numit evenimentul imposibil i este notat cu
simbolul (acelai folosit n teoria mulimilor pentru notarea mulimii vide).
(Atunci cnd aruncm un zar, evenimentul sigur const n apariia unei fee, iar
evenimentul imposibil const n faptul c nu apare nicio fa.)
S continum cu exemplul msurrii diametrului celulei i s considerm un alt interval
[c, d] de numere reale (cu c < d). S notm cu F urmtorul eveniment: rezultatul msurrii
diametrului cade n acest ultim interval [c, d], adic ntre c i d.
Avem acum dou evenimente veritabile, E i F (i automat nc dou, complementarele
lor, E i F ). ns logica ne spune c mai apare un eveniment, anume: rezultatul msurrii
diametrului cade ntre c i b (vezi figura urmtoare).
, atunci evident E F ar fi
imposibil, adic E F = .
n general, dac pentru dou evenimente E i F constatm c
E F = ,
vom spune c evenimentele noastre sunt exclusive.
Din punct de vedere logic, odat date dou evenimente E i F, am putea lua n
considerare, pe lng conjuncia E F , i disjuncia notat E F . n exemplul de mai sus
al msurrii celulelor, acest eveniment ar putea fi interpretat astfel: rezultatul msurrii
diametrului unei celule este ntre a i d (vezi figura de mai sus).
Atenie, am putea ntlni i alte situaii, cum este aceea ilustrat n figura urmtoare: aici
E F nseamn c rezultatul msurrii diametrului este fie ntre a i b, fie ntre c i d.
51
Cele trei operaii cu evenimente, prezentate succint n cele de mai sus (anume
complementul, conjuncia i disjuncia) ne permit s construim un calcul cu evenimente.
Nu este cazul s insistm asupra acestuia, deoarece este analog calculului cu mulimi (ceea
ce este sugerat i de notaiile folosite), iar majoritatea regulilor sunt evidente.
Aceast analogie constituie fundamentul reprezentrii evenimentelor ca pri ale unui
univers U. Conjuncia evenimentelor devine intersecia prilor corespunztoare (vezi
figura urmtoare), iar disjuncia evenimentelor devine reuniunea prilor corespunztoare.
Evident, U nsui va reprezenta evenimentul sigur.
Limba englez prezint o mai mare flexibilitate n descrierea diverselor situaii. Astfel, se
face deosebirea ntre probability of an event i likelihood of a hypothesis. Exist de
asemenea cuvintele odds i chances.
O fundamentare precis se poate face doar n cadrul unei teorii bine nchegate.
Principala ipotez a teoriei elementare a probabilitilor este urmtoarea: fiecrui
eveniment E elementar sau nu i se asociaz un numr P(E) cuprins ntre 0 i 1 (= 100%).
Acest numr este numit probabilitatea lui E i nu face altceva dect s exprime sorii ca
evenimentul E s apar ca rezultat al experimentului.
Evenimentul sigur are probabilitatea 1 (adic este sigur c va aprea). Evenimentul
imposibil are probabilitatea 0 (adic este imposibil s apar). Pentru orice alt eveniment E,
oamenii nu-i cunosc probabilitatea. Atenie, ei pot doar s-o estimeze, iar fiecare om n
parte ar putea s-o fac altfel.
Cum putem estima probabilitatea unui eveniment E? Dispunem de trei metode: cea
practic, cea logic i cea computaional.
Metoda practic const n repetarea de multe ori a experimentului. Uneori E va aprea ca
rezultat, alteori nu. Vom numra de cte ori apare evenimentul E i vom calcula, prin
mprire, frecvena relativ
numrul aparitiilor evenimentului
f =
numrul total de ncercri
Evident, aceast frecven relativ depinde puternic de numrul total de ncercri. Totui,
oricare frecven relativ f estimeaz probabilitatea P(E)! Suntem convini c dac numrul
total de ncercri va crete nemrginit, frecvena relativ va tinde spre probabilitatea P(E).
Astfel, dac vom arunca o moned de 100 de ori, iar n acestea stema apare de 48 de ori,
vom putea estima probabilitatea evenimentului ce const n apariia stemei ntro aruncare
viitoare prin numrul 48 = 48%. Dac vom avea suficient timp disponibil pentru a efectua
100
alte 900 de aruncri (n total 1000 de aruncri) i vom constata c stema a aprut n alte 510
cazuri (n total n 558 cazuri), atunci vom putea estima probabilitatea prin numrul
558
1000
= 55.8%.
1
2
unei monede. (Aceasta, atenie, n lipsa unor informaii despre falsificarea monedei!)
Metoda computaional pentru obinerea probabilitii evenimentului E presupune c
tim deja (cu alte cuvinte, am estimat) probabilitile altor evenimente, legate de E.
O prim i imediat relaie este aa-numita relaie a complementului: dac E este un
eveniment cruia i cunoatem probabilitatea, atunci cunoatem i probabilitatea
complementului su, din:
P( E ) = 1 P( E ) .
53
P( E F ) = P( E ) + P( F ) P( E F ) .
Cu alte cuvinte, cunoscnd probabilitile P( E ) i P( F ) , vom cunoate de asemenea
pe P( E F ) , cu condiia s cunoatem i pe P( E F ) ! Ca un caz particular, atunci cnd
E i F sunt exclusive, avem
P ( E F ) = P ( E ) + P( F )
(deoarece n acest caz P( E F ) = P() = 0 ).
Relaia de adunare este uor de explicat. Dar pentru aceasta vom interpreta pe P( E ) ca
aria prii E, acceptnd c universul U are aria egal cu unu (vezi figura urmtoare).
Acum, dac adunm ariile lui E i F vom obine aria lui E F , dar vom observa c aria
interseciei E F a fost luat n considerare de dou ori!
Probabilitatea P(E) nu este singurul numr care exprim sorii de izbnd. Unii folosesc
n mod frecvent cota lui E, notat cu O(E) notaia provine de la cuvntul englezesc odds.
Acest numr poate fi exprimat ca un raport ntre probabilitatea evenimentului E i
probabilitatea complementarului su, adic astfel:
P( E )
O(E) =
1 P( E )
(valabil, evident, n caz c P( E ) 1 ).
De exemplu, cota ca s se obin stema la aruncarea unei monede este exact 1; cota ca s
se obin faa
la aruncarea unui zar este de 20%. Msura cot este centrat pe numrul
1 i are tendina de a exagera ansele mari.
Este uor de stabilit c
O( E )
P(E) =
1 + O( E )
aa nct cota i probabilitatea sunt echivalente, n sensul c oricare dintre ele se poate
calcula imediat cunoscnd pe cealalt.
3.3. Evenimente condiionate i probabilitile lor
Noiunea de eveniment, aa cum a fost ea folosit anterior, are sens doar n viitor (sau
n necunoscut). Odat ce evenimentul a aprut (mai precis am aflat c a aprut), el se
transform n fapt care a avut loc iar probabilitatea sa i pierde sensul.
S considerm o situaie n care un eveniment a priori A va influena un eveniment
ulterior E, iar apariia lui A ne va obliga s re-estimm ansele apariiei lui E. Vom spune c
E este condiionat de A.
54
Teorema lui Bayes este un instrument ce poate fi folosit pentru a re-evalua probabilitile
diferitelor ipoteze diagnostic posibile.
Notaiile D1 , D2 ,..., Dn de mai sus se pot referi la aceste ipoteze diagnostic posibile.
Probabilitile a priori P( Di ) pot fi estimate prin diverse metode, de exemplu prin folosirea
datelor statistice sau de recensmnt la nivel naional. Evenimentul S poate fi un semn sau
un simptom. n contextul prezenei acestui semn/simptom, probabilitile ipotezelor
diagnostic trebuie s fie re-evaluate; teorema lui Bayes de mai sus ne doteaz cu o formul
prin care putem calcula aceste probabiliti a posteriori.
S considerm urmtorul exemplu simplu, cu doar dou diagnostice posibile:
D1 pacientul nostru are tuberculoz,
D2 = D1 pacientul nostru nu are tuberculoz,
S pacientul Ion Ionescu testeaz pozitiv (n radiografia pulmonar).
Evident, D1 , D2 este o familie complet. Din datele de recensmnt la nivel naional tim
c 3% din populaie are tuberculoz. Aadar, putem estima:
P( D1 ) = 3% = 0.03 ;
i n consecin
P( D2 ) = 1 0.03 = 0.97 .
Trebuie s estimm i probabilitatea condiionat P( S | D1 ) . Din experien medical tim
c 90% dintre pacienii suferinzi de tuberculoz testeaz pozitiv n radiografia pulmonar.
Aadar, P( S | D1 ) = 0.90. De asemenea, exist sori foarte mici, s zicem de 1%, ca o
persoan ce nu are tuberculoz s testeze pozitiv. Aadar, estimm c P( S | D2 ) = 0.01.
Dispunem acum de toate ingredientele pentru a folosi formula lui Bayes:
0.03 0.90
0.027
P( D1 | S ) =
=
= 0.736 .
0.03 0.90 + 0.97 0.01 0.0367
Prin urmare, probabilitatea ca Ion Ionescu, care a testat pozitiv n radiografia
pulmonar, s aib tuberculoz este estimat acum la 73.6%.
(Cu alte cuvinte, din cauza apariiei evenimentului S, probabilitatea de a avea tuberculoz
crete de la 3% la 73.6%.)
56
S considerm acum un exemplu ceva mai sofisticat (luat din Introduction to Clinical
Informatics de Degoulet i Fieschi, Springer Verlag, 1999):
D1 Pacienta noastr (dintrun spital mare) are apendicit,
D2 Pacienta noastr are salpingit,
D3 Pacienta noastr este n orice alt situaie.
Probabilitile a priori ar putea fi estimate i din nregistrrile spitalului. S presupunem
c n anul care a trecut, din 10000 paciente tratate n spital, 1000 au fost diagnosticate cu
apendicit iar 500 cu salpingit. Prin urmare P( D1 ) = 0.10 , P( D2 ) = 0.05 , P( D3 ) = 0.85 .
(S ne amintim c D1 D2 D3 trebuie s fie evenimentul sigur!)
S considerm acum urmtoarele dou simptome:
R durere n cadranul inferior drept,
L durere n cadranul inferior stng.
Specialitii ar putea s ne ofere estimri bune ale probabilitilor a priori:
P( R | D1 ) = 0.80 , P( R | D2 ) = 0.50 , P( R | D3 ) = 0.05 ,
P( L | D1 ) = 0.10 , P( L | D2 ) = 0.50 , P( L | D3 ) = 0.05 .
Ca urmare, avem toate datele necesare pentru a calcula folosind formula lui Bayes
probabilitile a posteriori:
P( D1 | R) = 0.54 , P( D2 | R) = 0.17 , P( D3 | R) = 0.29 .
Aceasta nseamn c probabilitatea ca o anumit pacient care se plnge de dureri n
cadranul inferior drept s aib apendicit sunt estimate la 54% iar salpingit la doar 17%.
Totui, ce putem spune dac pacienta se plnge de dureri n ambele cadrane inferioare?
Am putea da un rspuns probabilistic dac am dispune de estimrile necesare din partea
specialitilor.
S ncheiem aceast seciune cu observaia c chiar dac este un instrument puternic
n medicin folosirea teoremei lui Bayes este foarte limitat, din cauza condiiilor impuse,
anume
a. Maladiile trebuie s fie mutual exclusive,
b. Diferitele semne i simptome ce intervin n procesul de diagnoz trebuie s fie
independente,
condiii care se ntlnesc destul de rar n practica medical.
Exerciiu. ntrun spital mare a fost iniiat un test nou pentru diagnoza cancerului, test care
pare promitor. S-a constatat c 97% dintre pacienii spitalului, suferinzi de cancer,
reacioneaz pozitiv la test. ns reacioneaz pozitiv i 5% dintre cei ce nu au cancer! tiind
c doar 2% dintre pacienii spitalului au cancer, care este probabilitatea ca un pacient ce
reacioneaz pozitiv la test s aib ntr-adevr cancer?
Formal, va trebui s obinem probabilitatea condiionat P(C | S ) n care C este
evenimentul pacientul are cancer iar S este evenimentul pacientul reacioneaz pozitiv la
test. Conform teoremei lui Bayes, aceasta este
P(C ) P( S | C )
P(C | S ) =
P(C ) P( S | C ) + P(C ) P( S | C )
Putem estima, pe baza datelor din spital, probabilitatea P( S | C ) la valoarea 0.97, iar
probabilitatea P( S | C ) la valoarea 0.05. Putem considera c P(C ) = 0.02 i automat
P(C ) = 0.98 .
Dac formula lui Bayes pare complicat, vom putea raiona n felul urmtor:
57
0.98 (98%)
iar 9800 nu sufer de cancer
0.97 (97%)
0.05 (5%)
Rata de
succes
Numr de
A
N = A+C
A
C
R=
indivizi
A+C
Evident, nu ne putem permite s experimentm medicamentul pe ntreaga populaie.
Metodele statistice ne nva s estimm rata de succes pe baza datelor pe care le
obinem dintrun eantion. Admind c eantionul are n indivizi (nu insistm acum asupra
procedurii de selectare a lor, dar admitem c ea corespunde regulilor impuse) i c, dintre
a
acetia, la un numr a s-a constatat o cretere semnificativ a imunitii, raportul r =
n
conform tabelului urmtor:
Cretere semnificativ
Stagnare sau
Total
Rata de
a imunitii
descretere
indivizi
succes
Numr de
a
a
na
n
r=
indivizi
n
ne poate oferi o estimare a ratei de succes R.
58
Stagnare sau
descretere
Total
indivizi
Stagnare sau
descretere
Total
indivizi
MedA
nA = a + c
MedB
nB = b + d
Rata de
succes
a
rA =
a+c
b
rB =
b+d
Am putea decide c MedA este mai bun dect MedB n cazul n care rA > rB .
S nu uitm ns c lum aceast decizie bazndu-ne pe eantioane din populaie i nu pe
investigarea ntregii populaii. Ce ncredere am putea avea c ordonarea pe care am decis-o
se dovedete corect i n situaia n care am selecta alte eantioane?
Compararea direct ntre rA i rB nu este ns justificat din punct de vedere statistic.
Din acest punct de vedere, pentru comparare va trebui s utilizm o statistic (formul)
creia s-i cunoatem distribuia valorilor dac nu perfect, mcar aproximativ.
O asemenea statistic este:
R A RB
1
1
R(1 R)
+
N
N
B
A
unde
A+ B
N A + NB
este rata de succes pe ansamblu. Despre aceast statistic se tie c este aproximat bine cu o
distribuie normal standard (n caz c sunt satisfcute unele condiii referitoare la numrul
de indivizi din eantion/eantioane).
Pe baza valorilor concrete, pe care le obinem n urma exploatrii datelor provenite din
eantion/eantioane (s zicem c sunt cele din tabelul urmtor), vom putea evalua valoarea
p ca msur a riscului pe care ni-l asumm lund decizia de ordonare.
R=
MedA
MedB
C.S.I.
24
22
S.D.
26
28
MedA are o rat de succes de 0.48, deci prin comparaie cu rata 0.44 ar putea fi declarat
medicament mai bun dect MedB. ns valoarea p a acestei afirmatii este de 0.725, mult prea
mare pentru a avea ncredere n aceast ordonare. Ar trebui s avem ncredere mai degrab n
afirmaia c cele dou medicamente sunt echivalente.
n figura de mai jos este prezentat un calcul concret, efectuat pe o foaie de calcul Excel,
pentru urmtoarele date iniiale:
Dac ne-am ghida strict dup rata de succes, am putea ntlni situaii paradoxale. Ca
exemplu, s presupunem c datele din tabelul de mai sus au fost obinute n urma testelor
efectuate pe brbai i femei. Dac am fi inut seam de stratificarea dup sex, datele ar fi
fost urmtoarele:
59
Brbai
MedA
MedB
Femei
MedA
MedB
CSI
20
10
CSI
4
12
SD
15
5
SD
11
23
Total
35
15
Total
15
35
Rata de succes
0.5714
0.6667
Rata de succes
0.2667
0.3429
i am fi constatat c pentru ambele straturi MedB ar fi fost declarat mai bun, n total
contradicie cu cele stabilite pentru asamblu.
Am prezentat o exemplificare a aa-numitului paradox al lui Simpson din teoria
deciziilor. Acesta ne atrage atenia c deciziile care nu sunt bine fundamentate, luate la nivel
global pentru o populaie neomogen, pot fi n total contradicie cu deciziile care ar trebui
luate la nivelul straturilor.
(Ieirea din paradox, prin metodele statisticii, nu prezint nici un fel de dificultate. Vom
aborda aceste metode n cursul 7.)
3.6. Variabile aleatoare i distribuii
p1
x2
...
p2
...
x n ...
p n ...
n care pe prima linie sunt nirate valorile posibile ale variabilei. Probabilitile de pe a doua
linie sunt numere reale care satisfac dou condiii:
60
Numrul p n este interpretat ca sorii de izbnd ca, ntrun experiment viitor, variabila
aleatoare X s ia exact valoarea xn . Cu alte cuvinte, p n este probabilitatea evenimentului
X = x n , ceea ce notm:
p n = P( X = x n ) .
16 16 16
9
16
este
16
2
1
16
1
6
16
evident de tabelul:
1
6
2 3
1
6
1
6
4 5 6
1 1 1 (dar, atenie pe prima linie sunt nirate, ca valori
6 6 6
0.49
0.51
(din datele statistice se tie c, din 100 de nou nscui, 51 sunt fete), iar n urma aruncrii
unei monede perfect omogene i rotunde (i subiri) rezultatul ce va fi obinut poate fi descris
de tabelul
stema banul
0.5
0.5
P( X x1 ) = P( X = x1 ) = p1 ,
P( X x 2 ) = P( X = x1 X = x 2 ) = P( X = x1 ) + P( X = x 2 ) = p1 + p 2 ,
P( x1 < X < x3 ) = P( X = x 2 ) = p 2 ,
P( x1 < X x3 ) = P( X = x 2 ) P( X = x3 ) = P( X = x 2 ) + P( X = x3 ) = p 2 + p3
etc. n general,
P( X x k ) =
pi
pentru k = 2, 3,
i =1
P( x j < X x k ) =
pi
i = j +1
pentru 0 < j k .
n general, dac ne referim la distribuia de probabilitate:
x 2 ... x n ...
x
,
X : 1
p1 p 2 ... p n ...
valorile x1 , x 2 ,..., xn ,... ale variabilei aleatoare discrete X sunt numere. Dac putem calcula
valoarea
x1 p1 + x 2 p 2 + ... + x n p n + ...
atunci aceast valoare este cunoscut ca media variabilei X i este notat cu E ( X ) . Este de
fapt media ponderat a valorilor posibile x1 , x 2 ,..., xn ,... , ponderile fiind exact
probabilitile p1 , p 2 ,..., p n ,... . Numrul E ( X ) ar putea servi ca un centru al tuturor
valorilor lui X.
Litera E din notaia de mai sus a fost universal adoptat deoarece media teoretic este
numit n limba francez esprance iar n limba englez expectation. nelesurile acestor
cuvinte, anume ct sperm s fie (n francez), respectiv la ce s ne ateptm (n
englez) reflect mai bine coninutul noiunii dect cel de medie, care este pur
calculatoriu.
S observm c toate valorile posibile x1 , x 2 ,..., x n ,... apar n formula mediei E ( X ) , iar
cele cu probabilitate mai mare contribuie mai mult la formarea acestei medii. Este
ntrutotul posibil ca numrul E ( X ) s fie diferit de toate valorile variabilei X.
De exemplu, n cazul distribuiei de probabilitate asociate aruncrii unui zar corect, se
calculeaz cu uurin valoarea
1
6
1
6
1
6
E ( X ) = 1 + 2 + ... + 6 = 3.5 ,
x2
...
p2
...
x n ...
,
p n ...
y2
q2
... y n ...
.
... q n ...
n aceast situaie vom putea considera suma X + Y , care are ca valori sumele distincte
x1 + y1 , x1 + y 2 ,... , cu probabilitile respective r11 , r12 ,... .
S facem ns observaia c tabelul urmtor nu reprezint aceast distribuie sum:
x1 + y1
r11
x1 + y 2
r12
... x1 + y n
...
r1n
x 2 + y1 ... x n + y m
r21
...
rnm
P( X = x Y = y)
x+ y=s
1600
1160
1600
1600
1570 .
1600
63
Ce se poate spune despre suma (formal) X + Y ? Valorile distincte pe care le poate lua
sunt n numr de trei, anume 2, 3 and 4. Avem:
P( X + Y = 2) = P( X = 1 Y = 1) = P(fumeaz si astm bronsic) =
21
1600
1151
1600
419
1600
9
1600
428
1600
1600
3
428
1600
1151 .
1600
1600
2
428
1600
1151 .
1600
Ptratul X 2 este definit ca produsul X X . n caz c X are doar valori pozitive, tabelul
urmtor descrie ptratul su:
x2
X2: 1
p
1
x 22
p2
... x n2 ...
.
... p n ...
n care intervine abaterea (deviaia) variabilei X fa de media sa. De fapt, formula exprim
faptul c variana variabilei X este media ptratului deviaiei variabilei aleatoare X de la
media sa E ( X ) . Aceasta justific folosirea varianei ca msur a mprtierii valorilor n
jurul centrului E ( X ) .
Proprietatea esenial a mediei E, n raport cu suma variabilelor aleatoare, este rezumat
de formula urmtoare:
E ( X + Y ) = E ( X ) + E (Y ) .
Ct despre varian, n general,
Var ( X + Y ) Var ( X ) + Var (Y ) .
1 p
1
.
p
()
()
S considerm patru monede pe care le aruncm simultan. Numrul de steme care apar
deasupra este reprezentat de o variabil aleatoare, care evident are ca valori doar pe 0, 1, 2, 3
sau 4. O trecere n revist a tuturor posibilitilor identific probabilitile corespunztoare:
0
1
16
4
16
6
16
4
16
1 .
16
65
P ( b ( n, p ) = k ) .
k =0
Dac n locul distribuiei sunt cunoscute aceste probabiliti cumulate, atunci orice
probabilitate de forma P(b(n, p ) = k ) este obinut imediat printrun calcul simplu:
P(b(n, p) = k ) = P(b(n, p) k ) P(b(n, p ) k 1) .
O alt formul util este urmtoarea
P(i b(n, p) j ) = P(b(n, p ) j ) P(b(n, p) i 1) .
S rezumm: o distribuie binomial este legat de un experiment ce satisface condiiile:
a) Const dintrun numr de n ncercri;
b) Rezultatul fiecrei ncercri poate fi clasificat fie ca un succes, fie ca un eec;
c) Probabilitatea p a unui succes este acceai n toate ncercrile;
d) Fiecare ncercare este independent de oricare alta.
Valorile ei reprezint numrul de succese obinute n cele n ncercri.
Media distribuiei binomiale b(n, p ) este uor de obinut:
E ( b(n, p)) = np .
Ct despre varian, i formula de calcul a acesteia este imediat:
Var (b(n, p )) = np(1 p) .
Exemplu. Un test este alctuit din 15 ntrebri, fiecare avnd ataate cte cinci rspunsuri
posibile (doar unul corect). S evalum probabilitatea ca o persoan, care rspunde la
ntmplare, s obin exact 8 rspunsuri corecte (adic nota de trecere). S calculm apoi
media rspunsurilor corecte pe care le obin persoanele care rspund la ntmplare.
Atunci cnd se rspunde la ntmplare, numrul de rspunsuri corecte are o distribuie
binomial asociat unui numr de 15 ncercri, iar probabilitatea succesului, n fiecare
1
5
67
Exerciiu. Din practica medical se tie c doar unul din trei pacieni suferinzi de maladia
D se vor vindeca n urma tratamentului cu medicamentul M. Pentru ca un medicament nou N
s fie acceptat ca superior lui M, regulile impuse n unele spitale cer ca dintrun numr de 12
pacieni (suferinzi de maladia D) tratai cu acest medicament, cel puin 7 s se vindece. Care
este probabilitatea ca, n urma experimentrii pe 12 pacieni, medicamentul nou s fie
discreditat, chiar dac rata sa de vindecare este de 1 din 2? Dar dac rata de vindecare este de
3 din 4?
1
2
n
exp( n) .
n!
Exist mai multe tabele care conin valori ale probabilitilor P( Po() = n) pentru diferite
valori ale parametrului (tabele ce pot fi ntlnite n diverse cri). Totui, n era
calculatoarelor asemenea tabele sunt superflue; de exemplu, n Excel avem la dispoziie
funcia POISSON.
Un raionament matematic conduce la urmtoarele rezultate privind media i variana unei
distribuii Poisson:
E (Po()) = i Var (Po()) = .
Exemple. n biologie i n alte tiine ale vieii se accept c incidena atacurilor
paraziilor asupra unei populaii este descris bine de o distribuie Poisson. Distribuii
Poisson sunt folosite n organizarea activitilor la staiile de servire (nu trebuie s ne gndim
68
12
30
capacitii este
P( Po( ) > 3) = 1 P( Po() 3) = 0.00077
n toate consideraiile anterioare au fost abordate numai distribuii pentru care variabilele
aleatoare asociate lor au valori discrete, fie n numr finit ca n cazul distribuiilor
binomiale b(n, p ) , fie numrabile cazul distribuiilor Poisson Po() . Acestea sunt
cunoscute ca distribuii discrete. n cele ce urmeaz vom considera distribuii pentru care
variabilele aleatoare asociate sunt capabile s ia valori ntrun domeniu continuu (interval) de
pe axa real. Acestea sunt cunoscute ca distribuii continue.
Evident, valorile unei asemenea variabile aleatoare/distribuii apar ca rezultate ale unor
msurtori (de lungimi, greuti, durate de timp, temperaturi, concentraii etc.).
ntro figur anterioar au fost reprezentate, ntro form asemntoare histogramelor,
distribuiile binomiale b(15, 0.25) i b(25, 0.2). n ambele cazuri valorile posibile ale lui k au
fost plasate pe abscis, echidistant ntre valoarea minim 0 i cea maxim n (15, respectiv
25). Pe ordonat se msoar valorile probabilitilor P(b(n, p) = k ) . Ne dm seama c,
atunci cnd n crete nemrginit, pstrnd aceeai lungime pentru intervalul [0, n],
segmentele verticale tind s formeze un domeniu continuu ca n figura de mai jos. Curba
care delimiteaz acest domeniu, n partea superioar, este graficul unei densiti de
probabilitate. Ca s fim mai precii, s definim o densitate de probabilitate ca fiind o funcie
real continu f aa nct:
1) are valori pozitive:
69
f ( x) 0 pentru orice x R , i
f ( x ) dx = 1 .
b
a
f ( x ) dx .
S facem observaia c pentru o distribuie discret este posibil s-i listm toate
valorile. Din contra, este imposibil s listm toate valorile unei distribuii continue. (Se tie
din teoria mulimilor c este imposibil s listm toate punctele unui interval.)
Este important s observm c valoarea f (x) a unei funcii densitate de
probabilitate nu este definit ca probabilitatea vreunui eveniment.
P( X c) = f ( x) dx .
E ( X ) = xf ( x) dx , i
Var ( X ) = E (( X E ( X )) 2 ) .
70
definit astfel
x
F ( x) = P( X x) = f ( z ) dz .
Ca exemplu evident, s considerm funcia al crei grafic este curba din figura de mai
jos. Funcia este constant pe poriuni, mai precis f ( x) = 1 pentru x [0, 1] , n rest f ( x) = 0 .
Distribuia continu a crei densitate de probabilitate este aceast funcie poart numele de
distribuia uniform. Variabila aleatoare asociat va fi notat cu U.
S facem observaia c, pentru orice a, b [0, 1]
P ( a < U b) =
b
a
dx = b a ,
ansele ca variabila U s ia valori n dou intervale de lungimi egale sunt astfel egale,
ceea ce justific numele de uniform.
Un calcul rapid ne ajut s obinem media i apoi variana distribuiei uniforme. Anume:
E (U ) =
1
0
xdx =
1
2
1
2
Var (U ) = ( x ) 2 dx =
1
12
este secvena de valori a variabilei aleatoare discrete X (asociat distribuiei discrete), atunci
distribuia discret este descris perfect de histograma sa. Graficul frecvenelor (relative)
cumulate nu este altceva dect o reprezentare a funciei de distribuie. Pentru un numr x din
intervalul ( x k , x k +1 ) , este evident c
F ( x) = P ( X x) = P ( X x k ) = F ( x k )
ceea ce explic aspectul n trepte al funciei de distribuie (vezi exemplul din figura de mai
jos).
71
De multe ori, dat o distribuie discret i una continu, ne punem ntrebarea dac ele sunt
apropiate sau nu, cu alte cuvinte dac una dintre ele o reprezint pe cealalt. De
rspunsul la aceast ntrebare poate depinde o decizie important. Rspunsul da este
ntotdeauna subiectiv. Statistica ne permite s evalum riscul ataat deciziei.
3.10. Distribuii normale (Gauss)
( x ) 2
exp
2
2 2
Graficul acestei funcii este n form de clopot fiind cunoscut sub numele de clopot al
lui Gauss simetric n raport cu linia vertical x = .
Dup ce se calculeaz cteva integrale, se obin urmtoarele rezultate:
E ( N(, 2 )) =
i
Var ( N(, 2 )) = 2 ,
= 0 , 2 = 0.25
72
P ( X x ) = P Z
iar aceasta ne permite s folosim datele ce se afl n tabelul aa-numitei distribuii normale
standard N(0, 1) .
Totui, folosirea tabelelor este astzi depit, iar softul general permite efectuarea cu
uurin a oricrui calcul n legtur cu distribuiile normale. De exemplu, n Excel exist
dou funcii, numite NORMDIST i NORMINV, care depind de parametrii i . Caseta
de dialog a primei este prezentat n figura de mai jos. Pentru a calcula valorile n modul
clasic, adic n legtur cu distribuiile normale standard, exist dou funcii suplimentare,
uor de utilizat, numite NORMSDIST i NORMSINV.
(Ce tip i rol are cel de-al patrulea argument al funciei NORMDIST din Excel?)
O densitate de probabilitate de tip clopot Gauss ce corespunde unei distribuii
continue este ideal, ea nu poate aprea n legtur cu o populaie natural. Totui,
importana distribuiilor normale este motivat de urmtoarele:
a) modeleaz bine numeroase variabile numerice care apar n practic n legtur cu
populaii mari, cum ar fi nlimea, greutatea, coeficientul de inteligen al oamenilor, dar
i diametrul celulelor bacteriilor sau erorile de msurare;
b) aproximeaz bine multe alte distribuii, cum sunt cele binomiale;
c) constituie fundamentul inferenei statistice, ntruct reprezint distribuia estimrilor
parametrului unei populaii, estimrile fiind obinute din toate eantioanele posibile.
S ilustrm ultima motivaie prin urmtorul exemplu. S presupunem c populaia noastr
are un numr de 25 de indivizi, crora le cunoatem talia (datele sunt n tabelul urmtor).
Individul
1
2
3
4
5
6
7
8
9
10
11
12
13
Talia
0.1
0.1
0.3
0.1
0.5
0.1
0.1
0.3
0.3
0.9
0.7
0.1
0.3
Individul
14
15
16
17
18
19
20
21
22
23
24
25
Total
Talia
0.7
0.3
0.1
0.1
0.9
0.3
0.1
0.7
0.1
0.7
0.3
0.3
8.5
73
8.5
= 0.34 , iar distribuia indivizilor este prezentat n figura de mai
25
Cum s-ar putea estima aceast medie , msurnd doar indivizii unui eantion mic
(format din doar 4 indivizi)? Evident, prin media aritmetic:
x + x 2 + x3 + x 4
m= 1
4
12650
Taliile corespunztoare
0.1, 0.1, 0.3, 0.1
0.1, 0.1, 0.3, 0.5
Media taliilor
0.15
0.25
0.35
Evident, nu se pune problema listrii tuturor celor 12650 eantioane posibile. Totui,
folosind un soft de calculator, putem programa cu uurin obinerea tuturor celor 12650
medii de eantion. Distribuia lor este prezentat n figura alturat.
Se poate observa c histograma este mai bine aproximat de o Gaussian.
S reinem o idee fundamental: atunci cnd avem de-a face cu o populaie mare de valori
numerice, a crei distribuie are media (necunoscut!), mediile de eantion formeaz o
nou populaie de numere, care este distribuit (aproximativ) normal cu aceeai medie .
n mod tradiional se consider c distribuii normale cuantific erorile involuntare ce
apar n msurtorile lungimilor sau greutilor (maselor). n aceste situaii, dac reprezint
valoarea msurat, atunci va reprezenta eroarea de msurare. Distribuii normale exprim
de asemenea aa-numitul zgomot ce afecteaz transmisia datelor pe liniile de comunicaie.
74
n general, despre curba Gaussian asociat distribuiei normale N(, 2 ) este de reinut
c:
a) Mediana, adic valoarea Me care separ populaia (infinit) n dou pri de mrimi
egale, coincide cu media teoretic ;
b) ntre abscisele i + (care sunt situate la distana fa de media , aria
de sub graficul funciei densitate este 0.683. Aceasta nseamn c 68.3% dintre indivizii unei
populaii normale sunt situai ntre i + ;
c) ntre abscisele 2 i + 2 (care sunt situate la distana 2 fa de media ,
aria de sub graficul funciei densitate este 0.955. Aceasta nseamn c peste 95% dintre
indivizii unei populaii normale sunt situai ntre 2 i + 2 ;
d) Practic, ntreaga arie de sub grafic (de fapt 99.5%) se afl ntre abscisele 3 i
+ 3 . Acesta fapt conduce la aa-numita regul a celor ase sigma (cunoscut sub acest
nume de ctre cei ce iau decizii): presupunnd c populaia este distribuit normal, deviaia
ei standard este estimat la 1/6 din diferena dintre valoarea maxim i cea minim, valori ce
sunt obinute dintrun eantion suficient de mare.
n particular, ne vom atepta ca 68.3% (adic ceva mai mult de 2/3) dintre oameni s aib
un IQ ntre 84 i 116, i doar unul din 500 s aib IQ-ul peste 148. (Se tie c IQ este
distribuit normal cu media 100 i variana 256.)
Se practic aproximarea unor distribuii binomiale b(n, p ) prin distribuii normale, mai
ales atunci cnd numrul n de ncercri este mare. Este obligatoriu ns s fim precaui,
ntruct distribuia binomial este de regul asimetric.
De fapt, distribuiile binomiale b(n, p ) sunt simetrice doar pentru p = 0.5 , iar asimetria
crete pe msur ce probabilitatea succesului p se deprteaz de 0.5. Se accept c
aproximarea binomial b(n, p) prin normala N(, 2 ) este bun doar n cazurile n care
n p 5 i n (1 p ) 5 , iar n aceste cazuri parametrii distribuiei normale se obin prin
identificarea mediilor i varianelor: = n p , 2 = n p (1 p) .
Ca motivaie pentru asemenea aproximri este nevoia de aprecieri rapide asupra efectelor
unor decizii pe care le lum. Ca exemplu, s considerm cazul unei alegeri pentru un
organism de conducere format din 20 de membri, care vor fi alei de ctre o adunare format
din 100 de delegai.
Decizia care a fost luat este urmtoarea: fiecare delegat va vota selectnd 20 de nume de
pe buletinul de vot ce conine toate cele 100 de nume, iar comisia de validare va declara ca
fiind alei acei delegai ce totalizeaz cel puin 51 de voturi pentru.
Ce efect are o asemenea decizie? Ce anse exist ca s se aleag organismul de conducere
n urma votului?
n ipoteza c fiecare delegat alege la ntmplare 20 de nume de pe buletinul de vot,
20
= 0.2 . Presupunnd c niciunul
probabilitatea succesului pentru un candidat va fi de 100
dintre cele 100 de buletine nu este invalidat, numrul de voturi obinute de ctre un candidat
(oarecare) este dat de variabila aleatoare asociat distribuiei binomiale b(100, 0.2) .
S-o aproximm cu distribuia normal N( 20, 16) , ntruct = n p = 100 0.2 = 20 i
2 = n p (1 p ) = 20 0.8 = 16
75
(O soluie de ieire din impas ar fi s se acorde fiecrui delegat dreptul de a alege nu 20,
ci 40 de nume de pe buletinul de vot. n aceast situaie p = 0.4 , = 40 , 2 = 40 0.6 = 24 ,
adic 5 . De data aceasta ar fi 2% anse ca numrul de voturi obinute de un candidat s
fie mai mare dect + 2 = 40 + 10 = 50 . Ne putem atepta la alegerea n organul de
conducere a cel puin 2 delegai nc din primul tur.)
ntrun anume sens, o curb Gaussian exprim distribuia indivizilor din populaia
infinit a numerelor reale, n raport cu anumite puncte speciale de pe axa absciselor.
S presupunem c dispunem de o funcie care, pentru orice numr pozitiv z, calculeaz
aria de sub grafic, la stnga lui z a se vedea figura de mai jos. (O asemenea funcie este
NORMSDIST, atunci cnd Cumulative = TRUE, n Excel.)
Atunci P( Z > z ) este aria de sub grafic, la dreapta abscisei z, cu alte cuvinte:
P( Z > z ) = 1 P( Z z ) .
Dac z este negativ, atunci z este pozitiv. ntruct graficul este simetric fa de origine,
concludem c:
P( Z < z ) = P( Z > z ) = 1 P( Z z ) .
De asemenea,
P( z ' < Z z ) = P( Z z ) P( Z z ' ) .
Ca exemplu, pentru z = 1.96 obinem P( Z 1.96) = 0.975 = 97.5% ; din formulele de mai
sus rezult P( Z > 1.96) = 2.5% i P( Z < 1.96) = 2.5% !
Cteodat suntem interesai n poziionarea (relativ) a unui individ ce face parte dintro
populaie distribuit normal. Ca exemplu, tim c un individ a obinut scorul 68 la o
competiie. Numrul 68 nu ne spune nimic despre clasarea acelui individ; la fel de bine ar
putea fi apropiat de minim, de median, de maxim. Performana real nu este deloc evident!
O procedur uzual pentru descrierea performanei reale const n indicarea scorului
standard (cunoscut i ca scorul Z). Acest scor exprim ct de mult deviaie standard se
afl sub rezultat. Scorul Z se calculeaz cu uurin odat ce sunt cunoscui parametrii
populaiei, anume se scade media a populaiei din rezultatul x, apoi se mparte diferena
x la deviaia standard:
x
.
77
78
79
81
83
84
87
88
91
Statistica este o tiin care se ocup cu tratamentul datelor obinute din grupuri mici de
indivizi i extinderea rezultatelor la populaii mari.
Principala caracteristic a proceselor biologice este variabilitatea. Aceast variabilite
determin un anumit grad de incertitudine. Statistica ne permite s stabilim legi n care s
inem seam de incertitudine.
Biostatistica este acel domeniu particular al tiinelor n care metodele specifice statisticii
sunt aplicate problemelor biologice (inclusiv medicale), n particular diverselor fenomene i
procese care afecteaz calitatea fizic i mental a oamenilor.
Biostatistica, fiind o ramur a statisticii, ne permite s dm rspuns la ntrebri cum sunt
urmtoarele:
a. Care valori sunt normale pentru un anumit proces biologic?
b. Ct de mult riscm atunci cnd alegem un anumit tratament?
c. Este oare mai bun noul tratament dect cel clasic?
Cuvntul populaie are, n limbajul de zi cu zi, un neles evident. De obicei, atunci cnd
ne referim la o populaie, considerm implicit c numrul indivizilor ei este mare; aceasta
nu exclude ns multe situaii, cum este cea din exemplul formal populaia pacienilor dr.
Ionescu ce sufer de cardiopatie ischemic, n care este clar c acest numr nu este prea
mare. Se subnelege c o populaie are caracter dinamic (adic numrul indivizilor ei variaz
n timp). Totui, se presupune c la un moment particular de timp sau ntrun interval de
timp bine definit populaia este bine definit.
Fiecare individ al unei populaii i are identitatea sa proprie, iar indivizii prezint o
anumit variabilitate. Atunci cnd studiem o populaie se iau n considerare doar anumite
atribute importante ale indivizilor; aceste atribute poart numele de caracteristici.
De obicei studiile efectuate asupra indivizilor unei populaii sunt costisitoare i de durat;
cteodat ele au ca efect chiar distrugerea indivizilor studiai. Este de neconceput s poat
fi studiai chiar toi indivizii unei populaii mari. Raiunea eantionrii este limpede: prin
efectuarea de studii asupra unei pri relativ mici din populaie parte care este numit
eantion s strngem suficient informaie care s ne permit s inferm la nivelul ntregii
populaii asupra caracteristicilor studiate.
Numrul indivizilor din eantionul ales este numit volumul eantionului i este notat de
obicei, atunci cnd ne referim la un eantion potenial (eantionul nu a fost precizat) prin
litera n.
Unele caracteristici cum ar fi greutatea unui pacient diagnosticat cu tuberculoz,
nlimea sa, sau inteligena unui student sunt msurate i exprimate prin numere. Alte
caracteristici cum ar fi sexul sau categoria de vrst nu sunt msurate, ci sunt identificate
prin apartenena la un grup. Caracteristica culoare a obiectelor ar putea fi msurat
(exprimat prin lungimea de und), ns de obicei este identificat prin apartenena la
grupurile rou, portocaliu, galben etc.
Atunci cnd ncercm s comparm sau s clasificm indivizi, s stabilim legturi ntre
caracteristicile lor, aceste caracteristici sunt reprezentate prin variabile. Pentru a reprezenta o
caracteristic printro singur variabil va trebui s introducem o scar, ceea ce nseamn:
1. S definim spaiul observabil, adic mulimea tuturor valorilor posibile;
2. S definim o structur pe spaiul observabil, i
3. S admitem c putem asocia fiecrui individ cte o (singur) valoare din spaiul
observabil.
Pentru a preciza ideile, s considerm cteva exemple. Caracteristica nlime a
pacienilor este reprezintat evident printro variabil, deoarece considerm n mod intuitiv c
79
valorile sunt numere reale (cu alte cuvinte spaiul observabil este R iar acest spaiu are o
structur foarte bogat: operaii aritmetice, ordonare total etc.). Este clar c dac ne alegem
o unitate de msur (metrul, centimetrul, ) atunci pentru fiecare pacient vom putea s
obinem e drept, cu o uoar cheltuial de timp o unic valoare a nlimii sale. Numerele
obinute sunt reale, prin urmare le putem ordona ntre ele, de asemenea le putea aduna,
scdea, etc. O asemenea variabil este numit variabil numeric.
Aceeai caracteristic nlime ar putea fi reprezentat de o variabil de cu totul alt tip.
Spaiul observabil este acum format doar din etichetele foarte scund, scund, mediu,
nalt i foarte nalt. Nu mai este necesar o msurare precis a pacienilor, le vom putea
aprecia vizual nlimea. Asemenea etichete nu pot fi adunate sau sczute, este definit
doar ordonarea ntre ele. De data aceasta avem un exemplu de variabil ordinal.
Cteodat o caracteristic este exprimat printro variabil de decizie (sau variabil
binar) ce ia doar dou valori admis/respins (respectiv da/nu etc.).
O alt situaie ce trebuie scoas n eviden este cea a caracteristicii inteligen a unui
student, care poate fi exprimat printrun ansamblu de variabile.
Aadar, o caracteristic studiat ar putea fi reprezentat, direct sau indirect, prin mai
multe variabile.
Atunci cnd avem de-a face cu un eantion mare (adic are un numr mare"de
indivizi), de obicei variabilele numerice sunt nlocuite prin variabile calitative, ordinale (care
reprezint aceeai caracteristic). Mai precis, datele numerice sunt grupate ntrun numr
mic de clase. De exemplu, se utilizeaz foarte adesea clase de vrst sau clase de nlime.
Numrul K de clase este ales n strns dependen de problema studiat i nu exist
definit vreun algoritm de stabilire a sa. Un numr prea mic de clase are dezavantajul c
ascunde particularitile claselor; din contra, un numr mare de clase face dificil
reprezentarea grafic a rezultatelor. (Se recomand reprezentarea grafic a rezultatelor
datorit percepiei mai rapide pe cale vizual a informaiei.) Se poate face recomandarea de a
se forma ntre 8 i 20 de clase.
S lum de exemplu clasele de vrst ale pacienilor, considernd c studiem un eantion
de indivizi diagnosticai cu o anumit maladie. Pare natural s grupm vrstele lor n clase
delimitate subiectiv dup cum urmeaz C1 = 0-4 ani, C2 = 5-9 ani, C3 = 10-14 ani i
aa mai departe.
Observm c toate clasele descrise anterior au aceeai lungime, anume 5 ani. Aceasta
este recomandat, dar nu este obligatoriu!
n cazul n care fie indivizii sunt grupai natural n clase, fie datele colectate au fost
grupate n clase, putem calcula frecvene. Pentru o clas de date, frecvena absolut este
numrul indivizilor pentru care datele aparin acelei clase. Frecvena relativ se calculeaz
prin mprirea frecvenei absolute la numrul total al indivizilor din eantion. Uneori se
folosesc i aa-numitele frecvene cumulate.
Frecvenele variabilelor (nu numai cu valori numerice) se obin cu uurin n Excel prin
intermediul funciei FREQUENCY(). Aceast functie are dou argumente:
1. Domeniul n care au fost plasate valorile variabilelor (data array);
2. Domeniul n general pe o coloan n care se trec valorile de separare, n ordine
cresctoare (bins array).
Rezultatele aplicrii acestei funcii sunt plasate ntrun domeniu ce are o celul n plus fa
de domeniul valorilor de separare. n aceast celul suplimentar va fi afiat numrul
valorilor ce depesc cea mai mare valoare de separare.
Un exemplu de folosire a funciei FREQUENCY n Excel este prezentat n figura
urmtoare.
80
calcul tabelar. n figurile de mai jos diagrama cu bare a fost obinu cu Excel, diagrama de
tip histogram a fost obtinut cu Statistica, iar diagramele de tip rozet au fost obinute cu
Excel i EpiInfo.
82
S remarcm c ntro histogram clasele sunt intervale de numere reale, iar ntro
diagram cu bare clasele sunt reprezentate prin etichete (labels).
Reprezentarea grafic a datelor ar putea fi folositoare i pentru identificarea datelor
eronate sau a valorilor aberante (outliers). Aceste valori aberante, de orice fel ar fi,
distorsioneaz serios rezultatele analizelor statistice.
Atunci cnd se construiete o diagram de tip histogram, pe axa orizontal se marcheaz
punctele de separare ntre clase i, pentru fiecare clas, se ridic pe vertical un dreptunghi
cu nlimea proporional cu frecvena (fie absolut, fie relativ) clasei. Dreptunghiurile
sunt de limi egale. ntro histogram veritabil aria tuturor dreptunghiurilor este 1.)
S ncheiem aceast seciune subliniind c reprezentrile grafice sunt folosite pentru
accelerarea transferului de informaie de la om la om. Acest transfer bazndu-se ns pe
percepia vizual, toate iluziile optice pot fi folosite pentru a induce o percepie eronat
asupra unor date. Trebuie s fim ateni la corectitudinea tipului de diagram, la falsificarea
datelor prezentate, la modificarea nejustificat a scrilor de msurare, i nu n ultimul rnd la
adecvarea textele titlurilor, etichetelor i legendelor de pe diagram.
4.3. Statistici descriptive. Centrarea unei variabile numerice
S considerm c, ntrun studiu efectuat asupra unei populaii mari, suntem interesai n a
studia o anumit caracteristic reprezentat printro variabil numeric. Dup ce am ales un
eantion s zicem de n indivizi i am fcut msurtorile necesare, vom dispune de
numerele reale x1 , x2 ,..., x n . Aceste numere sunt reprezentate prin puncte pe axa real (a se
vedea figura urmtoare) iar intuiia ne spune c acestea sunt distribuite echilibrat n jurul
unui centru.
Pare evident cum putem obine acest centru m: vom calcula media aritmetic a numerelor
(adic nsumm numerele, apoi mprim suma la numrul total n al indivizilor din eantion):
x + x2 + ... + xn
m= 1
n
83
n formula de mai sus toate mrimile msurate sunt tratate n mod echitabil (niciuna nu
este tratat altfel dect celelalte). Mai mult, rezultatul este exprimat n aceleai uniti de
msur ca i valorile msurate.
Apariia nu neaprat din eroare! unei valori aberante (outlier) influeneaz poziia
mediei aritmetice, totui nu prea mult a se vedea figura urmtoare.
Funcii care calculeaz instantaneu media aritmetic sunt implementate n orice soft
statistic sau de calcul tabelar. De exemplu, n Excel aceast funcie este numit
AVERAGE() i are un singur argument, anume domeniul n care au fost plasate datele
numerice. ns, n orice soft statistic media aritmetic este afiat mpreun cu alte statistici
elementare, care sunt considerate strict necesare pentru analiz.
De exemplu, Statistica, n modulul su Basic Statistics/Tables conine o comand
Detailed Descriptive Statistics. Ca un alt exemplu, softul biostatistic EpiInfo 2004 are un
modul numit Analysis; aici se ntlnete comanda Means, mpreun cu alte comenzi,
grupate n grupul Statistics.
n practic media aritmetic nu este singura statistic utilizat pentru a indica centrul
datelor. n cazul n care datele sunt ordonate, ca de exemplu astfel:
x1 x2 ... xn
poate fi folosit i mediana pentru a indica centrul. Mediana (Me) este punctul ce divide
valorile n dou pri egale.
n situaia n care toate valorile xi sunt distincte, iar n = 2m + 1 (adic numrul datelor
este impar), mediana Me coincide cu valoarea x m+1 care este situat exact n mijloc; atunci
cnd n = 2m (numrul datelor este par), mediana Me este media aritmetic a celor dou
valori, xm i x m+1 , situate n mijloc.
n unele situaii, pentru a indica centrul mediei aritmetice i medianei i este preferat
modul. Pentru date categoriale (nenumerice), modul Mo este o statistic definit ca acea
valoare ce are frecvena maxim. Pentru date numerice, modul Mo, ca centru al datelor,
este dat de formula:
Mo = 3 Me 2 m .
4.4. Statistici descriptive. Deviaia n jurul centrului
precis este urmtoarea: deviaia medie este media aritmetic a abaterilor valorilor fa de
media lor, abateri luate n valoare absolut:
E=
| xk m |
.
n
Din punct de vedere matematic aceast formul nu este potrivit (funcia modul nefiind
derivabil). Acesta este motivul principal pentru nlocuirea sa cu urmtoarea statistic,
numit media ptratic a seriei de date:
Q=
2
( x k m)
.
n
n 1 2
.
n
V =
2
( x k m)
n 1
care este numit variana seriei de date, atunci media E (V ) coincide cu variana teoretic
2 , adic este nedeplasat (unbiased). De aceea estimarea lui se face de obicei prin
2
( x k m)
.
n 1
(la numitor apare numrul valorilor din seria de date, diminuat cu 1).
Formula de mai sus pentru s necesit foarte multe calcule; evident, ele sunt implementate
n soft. Astfel aplicaia Excel dispune de funcia STDEV() al crui unic argument este, la fel
ca n cazul funciei AVERAGE(), domeniul n care a fost plasat seria de date. n Excel
avem la dispoziie multe alte funcii statistice, ca de exemplu MEDIAN(), cu folosire
evident.
Statistica ne ofer, n modulul Basic Statistics/Tables, comanda Detailed Descriptive
Statistics. Ca rezultat al ei se afieaz media Mean, deviaia standard Std.Dev., valorile
minim i maxim (vezi figura urmtoare).
85
Comanda Means (mpreun cu altele, grupate n grupul Statistics) din modulul Analysis
al aplicaiei EpiInfo ofer multe rezultate, incluznd media aritmetic, mediana, variana,
deviaia standard (a se vedea figura urmtoare).
S rezumm cele de mai sus: dac dispunem de o serie de date numerice, pentru a le
evalua centrul i mprtierea n jurul centrului putem folosi urmtoarele statistici:
Media aritmetic m;
Mediana Me;
Modul Mo;
Amplitudinea A;
Abaterea medie (deviaia medie) E;
Variana V;
Abaterea standard (sau deviaia standard), notat cu s.
(Terminologia dubl n limba romn este cauzat de adoptarea recent a termenilor din
englez.)
Lista anterioar nu este deloc exhaustiv; n practic sunt des utilizate i alte statistici:
Cuartilele q1 (prima, de 25%) i q3 (a treia, de 75%). Acestea sunt numerele care,
mpreun cu mediana Me = q 2 (considerat ca a doua cuartil) divid datele seriei n patru
pri (de volume) egale;
Asimetria (skewness), care exprim evident lipsa de simetrie a seriei de date n jurul
centrului.
S ncheiem aceast trecere n revist prin prezentarea unui tip special de diagram,
cunoscut ca box-and-whisker plot, des folosit n reprezentarea grafic a datelor medicale.
ntro astfel de diagram:
o linie transversal sau un asterisc indic centrul;
un dreptunghi indic variabilitatea n jurul centrului; acest dreptunghi (box)
fie conine 50% din datele seriei, anume cele aflate ntre cuartilele q1 i q3 ;
n cazul variabilelor cantitative datele sunt numerice, prin urmare putem calcula media lor
prin operaii aritmetice de adunare i mprire sau abaterea standard (pentru care
calculele sunt ceva mai complexe). n cazul variabilelor calitative ns, valorile sunt etichete,
iar operaiile aritmetice nu sunt definite!
Am putea nlocui etichetele prin numere de exemplu am putea recodifica eticheta
admis prin 1 iar eticheta respins prin 0 i apoi s facem calculele cu aceste numere;
dar, evident, nu avem nicio justificare n a face aa ceva.
Dat o variabil calitativ, am putea fixa o valoare particular a ei i apoi, pentru fiecare
individ din eantion, am putea nota prezena respectiv absena acestei valori. Prezena este
notat de obicei prin 1, iar absena prin 0. Dac prezena valorii este constatat la a indivizi
ai eantionului, prin raportare vom obine imediat frecvena relativ a acestei valori:
f =
a
.
n
Pentru valoarea aleas, acest raport joac acelai rol pe care-l joac media aritmetic n
cazul variabilelor cantitative. (De fapt, este media unor valori ce pot fi doar 1 sau 0.) Prin
urmare este o statistic de centrare.
mprtierea este evaluat, n aceast situaie, prin aa-numita varian a valorii alese,
definit prin:
V = f (1 f )
Adevrata statistic de centrare pentru ntreaga serie de date (aadar pentru ansamblul
valorilor etichete) este, n acest caz, modul, care nu este altceva dect eticheta/etichetele
avnd frecvena maxim.
n cazul variabilelor ordinale datele, chiar dac sunt exprimate numeric, nu pot fi tratate
aritmetic. Valorile posibile aa-numitele modaliti ale unei variabile ordinale,
v1 , v 2 ,..., v K , pot fi doar comparate ntre ele, nu putem vorbi despre calcului vreunei medii
aritmetice. Totui, distribuia valorilor (pe modaliti) poate fi descris de un indicator de
centrare (al centrului valorilor) i de un indicator de dispersie (al mprtierii valorilor n
87
Fk (1 Fk )
D=
k =1
K 1
,
4
D
.
( K 1) 4
Exemplu. n ncercarea de dozare a unei enzime, de la 104 indivizi alei aleator dintrun
lot de 200 voluntari au fost obinute urmtoarele rezultate, clasate conform aprecierii
preliminare a specialitilor:
Concentraia
Foarte mic
Mic
Medie
Mare
Foarte mare
Numr indivizi
6
11
32
40
15
Reprezentnd clasele de concentraii prin numerele 1 5, de exemplu n sens cresctor,
ncepem prin a calcula frecvenele relative
fk
0,0577
0,1058
0,3077
0,3846
0,1442
apoi frecvenele cumulate
Fk
0,0577
0,1635
0,4712
0,8558
apoi produsele
Fk (1 Fk )
0,0544
0,1367
0,2492
0,1234
Rare sunt studiile efectuate asupra unei populaii n care suntem interesai n a studia doar
o anumit caracteristic (reprezentat printro variabil), independent de multe alte
caracteristici ale indivizilor populaiei. De regul studiem simultan mai multe caracteristici.
S considerm printrun exemplu cazul cel mai simplu, cel n care studiem dou
caracteristici: se nregistreaz, pentru fiecare nou nscut, vrsta mamei (n ani) i greutatea
noului nscut (n grame). Oare exist vreo legtur ntre aceste dou variabile? i dac da,
oare putem exprima aceast legtur printro formul liniar? La prima vedere se pare c
rspunsurile la aceste ntrebri sunt fie da, fie nu. ns modul binar de a rspunde la
ntrebri nu este specific statisticii! n cadrul statisticii se dau rspunsuri diversificate, de
exemplu exprimate printrun numr ce exprim intensitatea legturii ntre cele dou variabile
(?). Iar fiecare persoan ar putea s interpreteze acest numr dup cum dorete, fie ca un
da, fie ca un nu!
Una dintre posibilitile de a da asemenea rspunsuri nuanate const n folosirea
coeficientului de corelaie (Pearson), al crui calcul se bazeaz pe estimarea covarianei.
88
Cov( X , Y )
Var ( X ) Var (Y )
Valorile variabilei X
Valorile variabilei Y
x1
x2
y1
y2
...
...
xk
yk
...
...
xn
yn
89
n cazul n care (avem impresia c) punctele sunt aliniate, ne exprimm spunnd c exist
o corelaie liniar ntre variabilele X i Y.
S notm cu m X respectiv mY mediile celor dou serii de date. Covariana ntre
variabilele X i Y va fi estimat prin covariana dintre cele dou serii de date, care se
calculeaz cu formula
C=
1
n
( xk m X )( yk mY ) .
(Se observ c atunci cnd seria de date Y coincide cu seria de date X, expresia
covarianei C devine expresia varianei V.)
Corelaia (liniar) ntre cele dou serii de date este definit prin aa-numitul coeficient de
corelaie Pearson (care estimeaz coeficientul de corelaie teoretic ntre variabilele X i Y):
( xi m X )( yi mY )
rX , Y =
( xi m X ) ( yi mY )
Acest numr este ntre 1 i 1. n cazurile extreme (adic atunci cnd numrul rX ,Y este
apropiat fie de 1, fie de 1) avem de-a face cu o puternic legtur liniar ntre seriile de
date, pe care o putem extrapola (asumndu-ne riscuri!) la o legtur liniar:
Y = + X
ntre variabile.
S facem observaia c formula de calcul a coeficientului de corelaie Pearson poate fi
rescris n felul urmtor:
rX ,Y =
C
s X sY
unde s X respectiv sY sunt abaterile standard ale celor dou serii de date.
Calculul destul de dificil al numrului rX ,Y este efectuat n Excel prin intermediul
funciei CORREL(). Aceast funcie are dou argumente care sunt, evident, domeniile n
care am depus cele dou serii de date.
Ca un caz concret, s presupunem c pentru 10 indivizi alei n eantion au fost
msurate temperatura axilar (n C) i pulsul (n numr de oscilaii/minut), obinndu-se
rezultatele din tabelul urmtor:
Pulsul xk
Temperatura axilar y k
1
2
3
4
5
6
7
8
9
10
75
80
70
90
75
85
80
90
100
95
38.2
37.5
36.5
38.3
37.1
38.0
37.6
38.5
39.4
38.9
Prin calcul (cu funcia CORREL() din Excel) obinem (vezi figura de mai jos):
rX ,Y = 0.911885 0.912
90
valoare care ne indic o legtur liniar puternic ntre puls i temperatura axilar.
Coeficientul de corelaie Pearson poate fi calculat doar dac dispunem de date numerice.
S considerm acum c valorile variabilelor X i Y nu pot fi obinute prin msurtori;
dimpotriv, ele sunt numere de ordine, aa cum ar fi, de exemplu, rangurile acordate
concurenilor de ctre doi arbitri. Coeficientul de corelaie Pearson, chiar dac este
calculabil, nu ofer o interpretare adecvat a concordanei ntre evalurile arbitrilor. n
situaii de acest fel se va calcula, cu formula
ro = 1
6 d k 2
n( n 2 1)
( x1 m) 2 + ( x 2 m) 2 + ... + ( x n m) 2
n
91
( x1 m) 2 + ( x 2 m) 2 + ... + ( x n m) 2
(aadar = s ).
n
X 1 + X 2 + ... + X n
.
n
Se demonstreaz n tratatele de statistic c este i cel mai eficace. Prin urmare mai
eficace dect mediana. (Dar, atenie, pentru populaii distribuite normal!)
( X 1 M (n)) 2 + ( X 2 M (n)) 2 + ... + ( X n M (n)) 2
pentru
n
n 1 2
parametrul 2 . Pentru acesta se stabilete c E (Q(n)) =
, ceea ce nseamn c este un
n
( X M (n)) 2 + ...
n
Q (n) = 1
n 1
n 1
n
s
n 1
Cursul 5. Internet
Folosirea Internetului este larg rspndit astzi. Cursul este dedicat unei treceri n revist
a tehnologiilor i metodelor Internetului, cu accent pe specificul publicrii rezultatelor
activitii tiinifice.
Coninutul acestui curs este urmtorul:
5.1. Reele locale i protocoale de comunicaie .......................................................... 94
5.2. Internet i World Wide Web ................................................................................ 95
5.3. Protocoalele TCP/IP i Internetul. Protocolul FTP .............................................. 98
5.4. Intraneturi i servere proxy. Site-uri Web i educaia medical astzi .............. 103
5.5. Publicarea unui articol tiinific ......................................................................... 106
5.6. Limbajul HTML - noiuni introductive .............................................................. 107
5.7. Metalimbajul XML - noiuni introductive ......................................................... 116
Adrese web utile:
www.wikipedia.org
(en.wikipedia.org/wiki/Internet)
www.primulpas.ro
www.thefreedictionary.com/FTP
( /HTTP, /XML)
93
Fiecare calculator al reelei trebuie s aib un nume distinct de identificare. Acest nume
este nsoit de obicei de o scurt descriere a calculatorului.
Dar exist i opiunea de a organiza cu calculatoarele reelei sau doar cu o parte a lor
un grup de lucru, identificat i acesta printrun nume.
Pentru controlul transmisiei datelor ntre calculatoarele unei reele locale au fost
imaginate multe tipuri de tehnologii (AppleTalk, IBM Token Ring, ...), dar cel mai rspndit
astzi este Ethernet. Tehnologia Ethernet cu cabluri UTP de tip CAT-5 ce permite o vitez
de transfer de 100 Megabii pe secund presupune conectarea plcilor de reea ale
calculatoarelor la un dispozitiv special, numit distribuitor (hub sau switch). n prezent se
extinde tehnologia Ethernet cu conexiuni fr fir, ce presupune legarea plcii de reea prin
radio la un dispozitiv special WAP (Wireless Action Point).
Protocoalele de comunicaie definesc modul n care sunt transmise datele ntre
calculatoare. n sistemele de operare pot fi implementate diverse astfel de protocoale:
TCP/IP, IPX/SPX, NetBEUI, PPP, UPnP etc. Perechea de protocoale TCP/IP st la baza
Internetului i va fi prezentat mai detaliat n paragraful urmtor. UpnP (Universal Plug and
Play) este o tehnologie relativ nou, care permite calculatorului s descopere automat
dispozitivele hard care i se ataeaz.
Administratorul unei reele este responsabil cu adoptarea unei politici de conturi de
utilizator, de asemenea cu adoptarea unei politici de securitate. Administratorul recomand
fiecrui utilizator ca, pentru conectarea la reea, s-i adopte o parol de acces ct mai sigur,
i de obicei l oblig s i-o modifice periodic. Este recomandat blocarea unui cont dup ce
se constat cteva ncercri consecutive nereuite de conectare.
Pentru reea va fi stabilit i o politic de auditare, care va avea ca rezultat crearea unei
nregistrri (ntrun jurnal) a:
evenimentelor legate de conectarea utilizatorilor,
modificrilor n administrarea conturilor,
accesului la directoare/foldere i/sau la fiiere,
evenimentelor de sistem.
n reelele mai mari cum sunt cele organizate n universiti este util un serviciu de
gestionare a resurselor i de monitorizare a configuraiilor calculatoarelor componente.
Din punct de vedere formal, o comunicaie ntre calculatoare are loc simultan pe mai
multe niveluri sau straturi. La baz avem de-a face cu stratul fizic, nivel la care se
controleaz comunicaia datelor binare. Dac, de exemplu, transmisia datelor se realizeaz
94
prin variaii de frecven ale unui curent electric alternativ, atunci la acest nivel (fizic)
trebuie s se decid ce frecvene vor reprezenta bitul 0 i ce frecvene vor reprezenta bitul 1.
Stratul legturii de date (datalink), aflat imediat deasupra celui fizic, are rolul principal
de a forma, din fluxul de bii identificai, secvene speciale numite cadre, prin controlul
crora s poat fi detectat eventuala deteriorare a datelor n decursul trasmiterii. Aadar un
cadru va conine un fel de sum de control. Putem considera c plcile de reea asigur
comunicaia ntre calculatoare la acest nivel.
Fiecare plac de reea are, prin construcie, o adres proprie care o individualizeaz. Este
aa-numita adres pentru controlul accesului (MAC = media access control), format din 48
de bii. n cazul primirii unor date, placa de reea informeaz sistemul de operare, care le
preia.
Deasupra stratului legturii de date ntlnim stratul de reea. La acest nivel se determin
calea pe care o urmeaz datele n reea, precum i viteza de transmisie. Se asigur livrarea
datelor la destinaie, indiferent de calea urmat i de gazdele intermediare folosite. Datele
ce trebuie transmise sunt divizate, la acest nivel, n pachete de date (numite i datagrame).
5.2. Internet i World Wide Web
World Wide Web (WWW sau Web) este cea mai mare bibliotec electronic de
informare din lume. Este o colecie de miliarde de documente legate ntre ele, depuse
organizat n memoria a milioane de calculatoare. Web-ul a fost creat n 1989, iar prima
utilizare public a fost efectuat abia n 1992. Este cea mai popular parte a reelei
mondiale de comunicaii care este Internetul, datorat unei idei a lui Tim Berners-Lee,
cercettor la Centrul European de Cercetri Nucleare din Geneva. Internetul a aprut
ncepnd cu anul 1964 i s-a dezvoltat gradual, iniial cu sprijin guvernamental american. n
1969 s-a format o prim reea, ARPAnet, legnd patru universiti americane.
Dezvoltndu-se din ce n ce mai rapid, Internetul poate fi imaginat astzi ca reea de
calculatoare care acoper practic ntreg globul pmntesc. Numele sugereaz c este vorba
despre conexiuni ntre reele locale de calculatoare, dar calculatoarele din Internet pot fi de
diverse tipuri i pot utiliza o mare varietate de softuri de comunicaie. De asemenea, n
Internet se ntlnesc i alte dispozitive, ca de exemplu ruterele (routers), cu rol de dirijare a
traficului ntre reelele legate ntre ele.
Pentru a putea naviga n Web (de fapt n Internet), un utilizator obinuit de calculator
are nevoie s apeleze la serviciile unui furnizor de servicii Internet (Internet Service
Provider), n mod obinuit contra cost. n plus, va avea nevoie de un soft de navigare
(exemplu Internet Explorer creat de Microsoft). Acest program navigator (browser)
permite vizualizarea documentelor din Web, dar permite i obinerea altor documente,
interacionarea cu alte programe etc.
Un site Web const dintrun calculator a crui memorie conine documente organizate sub
form de pagini Web, precum i dintrun program aa-numitul server Web care permite
trimiterea documentelor solicitate spre utilizatorii Internetului.
Atunci cnd un utilizator dorete s se conecteze la un site Web, folosete navigatorul
pentru a solicita o anumit pagin Web. Pagina Web constituie de fapt un fiier n al crui
coninut blocurile de text sunt ntreesute cu balize (etichete = tags) de marcare. Ca
rspuns la solicitarea navigatorului, serverul Web i trimite o copie a fiierului solicitat,
urmnd ca navigatorul s-i interpreteze coninutul. Navigatorul va folosi balizele de marcare
pentru formatarea textului pe ecran, sau pentru a crea alte solicitri, eventual de la alte siteuri Web.
Balizele de marcare sunt exprimate ntrun limbaj special care este neles pe deplin de
ctre navigator. De exemplu, n HTML balizele bold <B> i </B> ncadreaz textul ce va fi
afiat cu litere ngroate de ctre navigator. Balizele anchor <A > i </A> ncadreaz ceea
ce poart numele de hipertext; acesta trebuie interpretat ca un text care reprezint o legtur
spre o informaie coninut de obicei n alt pagin Web.
95
Documentele n Web (paginile Web) pot fi create cu ajutorul oricrui soft ce permite
inserarea de balize de marcare:
soft de editare (ncepnd cu Notepad), cu condiia cunoaterii etichetelor,
soft specializat (de exemplu FrontPage).
Utilizatorul care navigheaz n Web folosete dou tehnici pentru accesarea
informaiei:
fie indic localizatorul uniform de resurs (Uniform Resource Locator = URL) al
informaiei dorite,
fie selecteaz un hipertext sau o zon fierbinte (hot zone) a unei imagini din pagina Web
curent.
Pentru regsirea unui fiier resurs din Internet navigatorul trebuie s cunoasc att
localizarea fiierului (calculatorul n memoria cruia este depus, drumul de acces i
denumirea fiierului), ct i modul de comunicare cu calculatorul care gzduiete fiierul.
Modul de comunicare este cel prevzut de un anumit protocol acceptat n Internet (de regul
HTTP, dar i FTP sau altele). Un URL nglobeaz toate aceste date.
Protocolul specific de comunicaie n Web este HTTP (HyperText Transfer Protocol).
Protocoalele de reea sunt reguli standardizate care permit calculatoarelor de
arhitecturi diferite, folosind sisteme de operare diferite s comunice ntre ele i s utilizeze
date n comun. Scopul principal const n comunicarea la nivelul aplicaiilor pe care le
folosesc utilizatorii.
Atacurile asupra serverului funcionnd pe o gazd Internet pot lua mai multe forme. Cea
mai cunoscut este cea de tip DOS (denial of service), constnd n bombardarea serverului
cu cereri de acces ntrun ritm care-i depete posibilitile de prelucrare.
Dintro neglijen de manevrare a mesajelor de e-mail un utilizator poate instala programe
de tip cal troian pe propriul calculator. Aceste programe pot transmite la distan date
eseniale din memoria calculatorului, sau pot servi la preluarea controlului neautorizat asupra
calculatorului. Evident, un soft firewall care filtreaz pachetele la ieirea spre Internet va
putea bloca funcionarea acestora, ajutnd i la identificarea infeciei.
Viruii sunt programe care, prin ataarea de programe (aplicaii) veritabile, la execuia
acestuia pot efectua diverse aciuni distructive asupra calculatorului. Astfel de programe se
pot transmite prin orice fiiere care pot conine instruciuni, de exemplu prin documente
Word n care au fost create macroinstruciuni de editare sau prin imagini comprimate de
tipul JPEG care conin algoritmul de decomprimare. Trebuie s fim contieni de riscurile
prelurii fiierelor ataate mesajelor de e-mail. Doar fiierele-text pot fi considerate de
ncredere. Protecia nu poate fi asigurat de soft firewall, este nevoie de programe anti-virus
speciale, care ns nu fac fa dect scurt timp avalanei de tipuri noi de infecii.
5.3. Protocoalele TCP/IP i Internetul. Protocolul FTP
antete specifice TCP, formndu-se aa-numitele segmente. Apoi, la nivelul reelei, fiecrui
segment i se ataeaz cte un antet IP specific, formndu-se aa-numitele pachete.
n final, la nivelul fizic are loc transmisia fiecrui cadru, care are
sum de control.
La recepie, fiecare entitate este analizat, i se elimin antetul de nivel i se trimite restul
spre nivelul superior, pn cnd se ajunge la nivelul aplicaiei (unde aplicaia utilizat ar
trebui s tie ce s fac cu datele).
Schema formrii cadrelor Ethernet
Aadar, protocolul TCP este rspunztor de transportul datelor. Pe scurt, atunci cnd un
expeditor dorete s transmit date unui destinatar, aceste date sunt secvenate n cadre de
aproximativ 1500 de caractere, iar pentru fiecare cadru se calculeaz o sum de control. Apoi
se adaug o anvelop coninnd adresa destinatarului urmat de adresa expeditorului, posibil
i de numrul pachetului, apoi trimite plicul n reea.
n mod normal, perechea de protocoale TCP/IP trebuie s fie configurat manual pe
fiecare calculator al unei reele. Trebuie s se precizeze:
adresa IP a calculatorului,
adresa IP a porii de legtur spre Internet (gateway),
numele de domeniu (secundar),
adresa IP a calculatorului ce gzduiete serverele de nume de domeniu (DNS) cel
preferat i cel alternativ.
n figura urmtoare este prezentat caseta de dialog prin care n Windows XP se
configureaz manual parametrii TCP/IP.
100
Atunci cnd se creau protocoalele TCP/IP, adic la nceputul anilor 70 ai secolului trecut,
numerele pe 32 bii (n total ceva peste 4 miliarde) preau c sunt suficiente pentru a asigura
adrese distincte pentru toate gazdele Internetului.
Internetul era destul de dificil de utilizat i a rmas aa pn n anul 1990, cnd Tim
Berners-Lee pus bazele serviciului de informare cunoscut astzi ca World Wide Web, prin
crearea protocolului HTTP i implementarea sa n aplicaii server-client.
De atunci, serviciile oferite de ctre Internet s-au diversificat. Au fost puse la punct
motoarele de cutare (search engines) ca auxiliar al informrii, dintre care Google este astzi
larg cunoscut. S-au dezvoltat activiti noi, ca de exemplu telefonia prin Internet, comerul
electronic, licitaiile electronice, operaiunile bancare online, care astzi au devenit bun
comun n aproape toate rile lumii.
Orice calculator obinuit conectat la Internet poate fi identificat printro adres IP. Aceasta
este fie stabil, alocat permanent, fie dinamic. O adres IP dinamic este acordat
(nchiriat) pe timp limitat de ctre serverul ISP (care joac rol de gateway) dintro list
de adrese IP disponibile n momentul solicitrii accesului la Internet. Se spune n acest caz
c adresa IP a fost obinut prin DHCP (Dynamic Host Configuration Protocol).
Dezvoltarea exploziv a Internetului din ultima decad face ca la orizont s se profileze
un deficit de adrese IP. Se implementeaz astzi o nou versiune, IPv6, ce va permite un
numr imens de adrese. Mai mult, protocoalelor clasice fundamentale TCP/IP li se adaug
permanent altele noi, ca de exemplu RTP (Real-Time Protocol), ce permite videoconferine.
Exerciii.
1) Folosii comanda ipconfig pentru a afla detalii despre gazda local. (Sintaxa util
este ipconfig /al, comanda nsoit de doi parametri)
2) Folosii ping i tracert avnd ca parametru diverse adrese IP pentru a afla
adresele literale ale unor gazde Internet. (Sintax: ping 193.126.47.12, respectiv tracert
193.126.47.12)
3) Aflai detalii despre calculul sumei de control a unui pachet de date.
4) Identificai componentele unui e-mail i utilitatea fiecreia.
File Transfer Protocol este un protocol clasic pentru Internet, avnd ca scop asigurarea
transferului de fiiere ntre diverse sisteme de calcul. Evident, legturile ntre aceste sisteme
de calcul sunt asigurate prin suita de protocoale TCP/IP.
Pentru a nelege exact rolul FTP, trebuie s tim urmtoarele:
a) transferul de date ntre sisteme de calcul se face, n Internet, prin cadre de lungime
controlat;
b) noiunea de fiier se refer la un obiect depus n general pe suport magnetic. Fiecare
fiier are dou componente, separate ntre ele din punct de vedere fizic:
un coninut, n care se afl datele stocate prin intermediul fiierului respectiv;
un cap, n care se afl date de identificare: numele fiierului, tipul su, momentul
crerii, lungimea coninutului (exprimat n Bytes), diverse atribute binare, nu n
ultimul rnd un indicator spre coninut;
c) componena concret a unui fiier depinde n mod esenial de sistemul de operare
ce controleaz spaiul magnetic (volumul de date) pe care este depus fiierul respectiv.
Iat exemple, n sistemul de operare Windows NT:
101
Este uor de neles acum c regulile prevzute n protocolul FTP trebuie s asigure ca, n
urma transferului, s fie recuperat integral coninutul fiierului i ct mai mult posibil din
capul su.
S ne situm n postura unui utilizator obinuit al unei gazde Internet. Situaia cea mai
uzual este aceea n care nu suntem proprietarii/administratorii acelei gazde. Drepturile de
utilizare de care dispunem sunt stabilite de ctre administratorul gazdei (numit generic root
n sistemele de operare UNIX-Linux). De obicei, acest administrator:
rezerv fiecrui utilizator un dosar separat n spaiul magnetic de memorare al gazdei,
dosar ce poart numele generic de cmin (home) al utilizatorului;
stabilete parametrii procedurii de autentificare a accesului n acel dosar. Mai precis,
acord utilizatorului un nume de acces (login name) i-i atribuie o parol iniial de
protecie (password), urmnd ca utilizatorul s-i modifice acea parol cu una personalizat;
grupeaz utilizatorul ntrun grup;
stabilete permisiunile de utilizare a diverselor aplicaii instalate n sistemul de calcul,
precum i drepturile de acces n diversele dosare, altele dect cminul utilizatorului.
n mod obinuit, drepturile pe care utilizatorul le poate avea (sau nu) referitor la acel
dosar, pot fi urmtoarele:
de vizualizare a coninutului (read),
de creare de subdosare, de redenumire sau chiar eliminare de subdosare,
de creare de fiiere n cadrul unui dosar, de modificare a coninuturilor fiierelor
(write), de redenumire de fiiere, de eliminare de fiiere, de executare de fiiere
(execute).
Aceste drepturi sunt ale utilizatorului, i este posibil ca ele s fie exercitate de la o alt
gazd Internet. n acest context apar noiunile de urcare (upload) i coborre
(download). Administratorul poate limita ns aceste drepturi n funcie de sistemul de calcul
de la care utilizatorul ncearc s-i acceseze cminul.
Din punct de vedere istoric, modelul client-server s-a creat mai demult, pe cnd
posibilitile de afiare grafic erau limitate. Ideea fundamental a fost ca un calculator s fie
specializat pentru prezentarea grafic a datelor prelucrate de i/sau stocate pe alte
calculatoare aflate la distan. Datele cerute de un program executat pe calculatorul
specializat (program-client) erau cutate i livrate de programe speciale executate pe
calculatorul la distan (programe-server).
Astzi chiar i cel mai simplu calculator personal are posibiliti mari de prezentare
grafic, datorit interfeei grafice oferite de sistemele de operare Windows, iar legarea la
Internet este nsoit de o serie de programe-client, dintre care cel mai cunoscut este Internet
Explorer.
O scurt trecere n revist a rolului a dou butoane ale navigatorului Internet Explorer:
(Home page) ncarc pagina de baz (care este prima pagin Web afiat atunci
cnd se lanseaz aplicaia Internet Explorer. Adresa acestei pagini poate fi declarat (i
modificat) utiliznd comanda ToolsInternet Options, tableta General. Ar fi preferabil s
indicm adresa uneia apropiate, de exemplu http://www.umfcd.ro.
(History) se afieaz lista paginilor Web vizitate astzi sau n trecutul imediat.
Durata de pstrare a acestora n list se poate modifica.
n tableta General pe care o avem la dispoziie comandnd ToolsInternet Options
putem controla:
1) o serie de parametri de afiare: culorile, fonturile etc.
2) fiierele temporare care sunt create automat n urma navigrii.
Controlul n tabletele Security i Privacy este extrem de important pentru protecia
propriului calculator fa de invazia coninutului nedorit pe care-l putem prelua atunci
cnd navigm. Totui, trebuie menionat c nu exist site-uri de ncredere absolut!
102
Astzi avem posibilitatea s organizm i videoconferine prin Internet. n acest scop sunt
utilizate gazde dotate cu soft special numit reflector, soft ce primete i transmite semnale
oricui se conecteaz la el. Evident, persoanele ce particip la videoconferin vor folosi
calculatoare dotate cu camere i microfoane i cu soft client special. Acest soft pe de o parte
comprim imaginile i sunetele capturate i le trimite reflectorului sub form de pachete
UDP, iar pe de alt parte decodific i afieaz pachetele primite de la reflector.
Trebuie s menionm c, n scopul creterii vitezei de transmisie, comprimarea implic:
a) exploatarea cunotinelor de fiziologie a auzului uman (n standardele de tip MP3),
b) transmiterea diferenial a cadrelor (imaginilor succesive) ceea ce nseamn c se
transmite doar partea din noua imagine care prezint diferene fa de cea veche.
Un alt serviciu pe care ni-l ofer Internetul este cel de comunicare direct ntre utilizatori,
n regim text, aa-numitul IRC (Internet Relay Chat). Acesta se bazeaz pe o structur
arborerscent de calculatoare care gzduiesc servere IRC i pe o organizare a clienilor n
grupri numite canale IRC. Softul client instalat pe un calculator permite aderarea
utilizatorului la un canal IRC i apoi intervenia sa, de la tastatur, n discuiile ce au loc n
acel canal.
5.4. Intraneturi i servere proxy. Site-uri Web i educaia medical astzi
Toate beneficiile folosirii Internetului au devenit posibile datorit adoptrii celor dou
protocoale de comunicaie, TCP/IP, care guverneaz interconectarea vechilor reele de
calculatoare ce erau constituite n diferitele pri ale lumii.
Este evident c putem implementa protocoalele TCP/IP i de asemenea cele de deasupra
lor n controlul comunicaiilor dintre reelele locale i calculatoarele dintrun univers mai
mic, ca de exemplu dintrun spital mare. Vom obine atunci un aa-numit intranet. Tot ce
este necesar pentru aceasta este clar: o legtur fizic ntre reele, apoi alegerea unor adrese
(IP) pentru toate calculatoarele legate.
103
Aadar, intraneturile pot utiliza tehnologiile i metodele Internetului, cum sunt ftp-ul,
email-ul, chiar WWW-ul. Totui, resursele calculatoarelor ce formeaz un intranet sunt
disponibile doar n interiorul acestuia.
Normal, la un anumit moment vom dori ca intranetul nostru s fie legat de Internet, pentru
a da posibilitate utilizatorilor de a folosi resursele acestuia; vom fi pui n faa a dou
probleme evidente:
1) cum putem fi siguri c adresele IP din Intranetul nostru nu apar i altundeva n lume?
Evident c nu putem! Folosind o plac de reea suplimentar i un soft special, numit server
proxy, instalat pe unicul calculator ce este punctul de legtur al intranetului cu Internetul
(i deci are adres IP veritabil), problema se rezolv uor;
2) cum putem proteja resursele interne ale intranetului de accesul neautorizat din afar?
Aceast problem se rezolv prin instalarea unui soft special de protecie, numit firewall. De
preferat ca la grania dintre intranet i Internet s se foloseasc i dispozitive special de
filtrare a comunicaiilor. (De aceea, termenul firewall este uneori neles ca o combinaie de
hard i soft care interzice accesul neautorizat n intranet.)
Un site Web presupune existena:
a) unui calculator legat la Internet (cu adres IP stabil, de obicei i cu adres literal
nregistrat),
b) unui server Web, i
c) mai multor pagini Web interconectate.
Crearea unei pagini Web clasice este foarte uoar. n mod tradiional, o copie a paginii
Web este creat (pe un alt calculator) cu soft specializat ca (Microsoft) Frontpage sau
(Macromedia) Dreamweaver, apoi este transmis spre calculatorul gazd (impropriu numit
server).
Cnd un utilizator care acceseaz pagini Web aflate pe o gazd la distan folosind pentru
aceasta un client Web (browser), are posibilitatea de a-i schimba coninutul, spunem c
paginile Web sunt dinamice. Probabil c cele mai interesante site-uri Web, incluznd pe cele
de educaie medical, sunt compuse din pagini Web dinamice, ce fac parte din baze de date.
Dac am dori s organizm un site Web pentru educaie medical, un calculator modern
ieftin dotat cu procesor Pentium este suficient de puternic. Sistemul de operare poate fi fie o
versiune a lui Microsoft Windows (ieftin), sau o variant a lui Linux (gratuit, mai precis
Open Source). n plus, avem nevoie de:
a) un server Web,
b) un soft de baze de date, i
c) un mediu de programare.
Scopul principal al unui server Web este cel de livrare la cererea primit din partea unui
client a unui document (pregtit de regul n hipertext). Dar serverele Web pot avea i
diverse scopuri secundare: urmrirea cererilor de livrare, ntocmirea de statistici etc.
Pentru fiecare sistem de operare sunt disponibile mai multe servere Web, inclusiv cteva
care pot fi procurate gratuit din Internet. Un asemenea exemplu este Xitami, anume pentru
Windows NT. De asemenea, pentru Windows, Microsoft distribuie IIS (iniialele de la
Internet Information Server) i PWS (Personal Web Server). Pentru UNIX sau Linux cel
mai cunoscut pare a fi serverul Web Apache (existent i n variante pentru Windows).
Prin configurarea unui server Web se permite restricionarea drepturilor de acces,
precizarea tipurilor de fiiere care necesit tratament special, modul de interpretare
lingvistic a codurilor, modul de gestionare a erorilor; de asemenea, se precizeaz care
este fiierul iniial (pagina de ntmpinare) care este trimis clientului (de regul este
fiierul denumit index.html).
Trebuie menionat c, de regul, pentru fiecare cerere de acces primit de la un client se
nregistreaz ntrun fiier log adresa IP a clientului, data i tipul cererii, localizatorul
resursei cerute.
104
Este posibil organizarea resurselor i/sau a clienilor n baze de date. Softul de baze de
date are deja o istorie ndelungat, multe aplicaii dedicate sunt disponibile astzi pe pia.
Microsoft distribuie bine cunoscutul Access ca o component a lui Office, dar avem multe
alte posibiliti n caz c utilizm Windows. De asemenea, utilizatorii Linux au mai multe
posibiliti, fie comerciale (cum ar fi Oracle), fie Open Source (cum este MySQL).
Odat ajunse la serverul Web, apelurile trimise de ctre clieni pot fi prelucrate prin
intermediul unor programe scrise n limbaje specifice. Unul dintre primele limbaje folosite
pentru programare Web are numele de Practical Extraction and Report Language, i este
cunoscut ca Perl. Un program (script) n Perl este executat de obicei de serverul Web
pentru a crea pagina Web care este trimis navigatorului folosit de utilizator. Fiierele ce
conin programe Perl (adic script-uri) sunt identificate de obicei prin extensia .pl. Un alt
limbaj pentru script-uri a fost denumit Personal Home Page Tools i este cunoscut astzi ca
PHP. Putem identifica un fiier hipertext ce conine un script PHP dup extensiile .php sau
.phtml. PHP este uor de folosit i permite un bun control al imaginilor.
Limbajul PHP este uor de nvat. Este utilizat astzi, destul de des, pentru accesarea
datelor din bazele de date (MySQL, Oracle, ...). Permite o manipulare comod a datelor
calendaristice i are posibiliti de creare direct de imagini desenate.
Un alt limbaj pentru script-uri a fost dezvoltat pentru programatorii ce cunosc Visual
Basic. Acesta este nglobat ntrun cadru mai amplu denumit Active Server Pages. Despre
fiierele hipertext ce au extensia .asp se presupune c au n coninut asemenea script-uri
ASP.
O soluie analoag, dezvoltat de firma Macromedia, este cunoscut sub numele
ColdFusion i folosete un limbaj special bazat pe etichete altul dect HTML cunoscut
ca CFML (ColdFusion Markup Language). Aceast soluie este mai uor de folosit de ctre
ne-programatorii ce vor s vad rezultate ct mai rapid posibil.
S ncheiem acest paragraf cu o ultim meniune privind locul serverelor Web. S
precizm c apelul (de cerere a unei resurse) trimis de ctre un client, odat ajuns la gazda
resursei, nu este preluat direct de ctre serverul Web. Dimpotriv, acest apel va fi prelucrat
de un program intermediar, numit CGI (Common Gateway Interface), iar rezultatul execuiei
acestui program va fi trimis clientului de ctre serverul Web! Prin urmare, clientului i se pot
trimite i alte date, n afara celor solicitate! Aceste date ar putea conine instruciuni
executate de ctre gazda clientului! Figura de mai jos prezint dorina utilizatorului
comparativ cu situaia real.
Atunci cnd pentru transferul datelor livrate de serverul Web ctre client se utilizeaz
protocolul HTTP clasic, datele sunt transmise n clar, ceea ce ridic destule probleme de
securitate. Dac ns se folosete protocolul HTTPS, datele sunt transmise criptat (prin
metoda de criptare SSL).
Foarte multe firme utilizeaz astzi Internetul pentru a-i vinde online produsele.
Cumprturile online nu sunt posibile, din motive evidente, fr utilizarea tehnicilor de
criptare.
Utilizatorul care dorete s cumpere online va utiliza:
a) un formular de nscriere, n care va introduce datele personale, i
b) un aa-numit co de cumprturi, n care va plasa obiectele dorite, preluate dintro
baz de date aflat n site-ul Web al vnztorului.
105
Activitile sale sunt urmrite de mici programe cookies trimise de ctre serverul Web
n memoria calculatorului propriu. Odat exprimat dorina de a achiziiona obiectele ce au
fost plasate n coul de cumprturi de obicei aceasta se face prin apsarea unui buton
Submit programele cookies ajut la ncheierea tranzaciei. Ele preiau i trimit datele din
formular i din coul de cumprturi ctre serverul Web al vnztorului. Acolo datele sunt
verificate i se elaboreaz:
1) comanda de livrare ctre depozit, i
2) mesajul de confirmare ctre client.
Programele cookies sunt proiectate, de regul, astfel nct s expire dup trecerea unui
anumit timp.
Atenie, atunci cnd transferm (download) fiiere din Internet, din diverse site-uri, exist
posibilitatea infectrii calculatorului cu virui. De asemenea, viermii sunt programe care
infecteaz reelele de calculatoare (n particular Internetul). Aceste programe se reproduc
prin trecere de la un calculator la altul i pot bloca astfel comunicaiile ntre calculatoare.
A rmas de dat rspuns la o ntrebare evident: cum afl utilizatorii umani despre
existena resurselor n Internet? Rspunsul este evident: prin intermediul motoarelor de
cutare.
Motoarele de cutare sunt site-uri speciale care stabilesc un index bibliografic al
paginilor Web ce sunt disponibile pentru livrare de ctre serverele Web. La ntocmirea
acestui index ele folosesc roboi sau spidere, care nu sunt altceva dect programe de
interogare automat a site-urilor Web. Aceast activitate de documentare poate fi ajutat i
ndrumat de creatorii paginilor Web, care pot preciza cuvintele-cheie preferate pentru
indexare.
5.5. Publicarea unui articol tiinific
Limbajul HTML (iniialele de la HyperText Markup Language) este format din balizeetichete speciale care se insereaz ntre blocurile de text ale unei pagini Web, pentru a indica
formatarea sau trimiterea spre alte informaii; interpretarea etichetelor este fcut de
programele de navigare.
Reamintim c o pagin Web este un fiier text (creat cu orice editor care produce text)
avnd extensia htm sau html, depus n memoria unui site Web, al crui coninut va fi
interpretat, n urma unui transfer, de un program de navigare (browser).
O pagin Web nu este neaprat static. Cel care o creeaz are posibilitatea s
programeze modificarea coninutului n mod dinamic, la anumite momente de timp sau n
funcie de interaciunea cu utilizatorii. Este important s tim c paginile Web pot fi folosite
ca formulare pentru recepionarea interactiv de informaii de la utilizatori.
107
Atunci cnd crem o pagin Web, este important s ne dm seama c informaia pe care o
plasm n ea va fi analizat de diverse programe de navigare care sunt executate pe
calculatoare de diverse arhitecturi i sisteme de operare. De reinut c paginile Web sunt
create independent de toate acestea, dar pot exista uoare variaii, de la calculator la
calculator, n ceea ce privete modul de interpretare a coninutului. Paginile Web sunt
folosite astzi pe scar larg pentru prezentarea documentaiei programelor, dar i a
informaiilor specializate, inclusiv n domeniul medical. Ele au posibilitatea de a ngloba
informaie de tip grafic, video, sunet, dar i programe (script). Pot constitui suportul aanumitelor applet-uri, programe spectaculoase a cror activitate se desfoar doar n
interiorul ferestrei navigatorului.
Toate balizele-etichete speciale ncep cu caracterul < (mai mic dect) i se ncheie cu
caracterul > (mai mare dect). Cu puine excepii, etichetele speciale se afl n perechi,
una care marcheaz nceputul iar cealalt ncheierea unui bloc. Etichetele de ncheiere
ncep cu grupa de caractere </.
Programele de navigare interpreteaz aadar caracterele <, >, / ntrun mod special.
Pentru a le putea folosi, n paginile Web, cu nelesurile clasice (de exemplu n comparaii
respectiv mpriri), ele vor trebui codificate n alt fel. n aceste codificri se folosesc cuvinte
care ncep cu caracterul & i se ncheie cu ;. Astfel, < va nsemna mai mic dect, iar
> va nsemna mai mare dect.
Coninutul unei pagini Web (considerat ca fiier) poate fi delimitat de dou etichete
pereche, i anume <HTML> i </HTML>. Prima dintre ele (format din 6 caractere ASCII
clasice) anun programul de navigare (browser) cum trebuie s interpreteze restul
coninutului fiierului, iar a doua etichet semnaleaz ncetarea folosirii regulilor hipertext.
(Existena acestor etichete nu mai este, pentru versiunile recente ale programelor de
navigare, obligatorie.)
Structura unei pagini Web este extrem de simpl: doar dou seciuni. Prima, anume
antetul (header), conine de regul informaii despre subiectul general al documentului,
folosite pentru indexare (nu de ctre navigatoare, ci de motoarele de cutare). Antetul este
semnalat i delimitat de balizele-etichete pereche <HEAD> i </HEAD>.
O informaie din antet, anume cea de titlu, va fi totui interpretat de ctre navigatoare.
Aceast informaie va fi afiat pe bara de titlu, n partea superioar a ferestrei
navigatorului. Balizele-etichete pereche care indic programului de navigare c un anumit
text este titlul sunt <TITLE> i </TITLE>. Insistm asupra faptului c nu este vorba
despre titlul logic al documentului, ci despre textul care va fi afiat pe bara de titlu, conform
regulilor sistemului de operare! Lungimea acestui text este limitat!
A doua seciune a unei pagini Web este corpul (body), semnalat i delimitat de etichetele
pereche <BODY> i </BODY>. Corpul conine textul ce va fi afiat n zona de lucru a
108
afiarea
text bold
text italic
text subliniat
bold italic
Exemplul urmtor prezint modul n care este cerut navigatorului folosirea fontului
Arial, de mrime 10 p.t. (2), pentru afiarea blocului de text opera
<FONT FACE=Arial SIZE=2> opera </FONT>
(Dac sistemul de operare al calculatorului pe care se execut navigatorul dispune de
fontul denumit Arial, efectul va fi cel din figura alturat; n caz c nu dispune de acest
font ceea ce este puin probabil , l va nlocui cu unul asemntor. Recomandm ca n
paginile Web s fie folosite cu prioritate fonturile larg utilizate Times New Roman,
Arial, Courier New, i mai puin fonturi exotice.)
109
afiarea
opera
opera
opera
Mrimea fontului poate fi specificat n mod absolut, prin atribuirea SIZE=n (unde n este
un numr ntre 1 i 7),sau n mod relativ, prin atribuirea SIZE=+n sau SIZE=n, ceea ce va
determina modificarea mrimii literelor fa de cea folosit n blocul de text anterior.
Mrimea implicit adoptat de majoritatea navigatoarelor este SIZE=3, corespunztoare la
12 p.t.
Prin folosirea parametrului COLOR n eticheta <FONT> se poate specifica o culoare
pentru blocul de text. Culorile pot fi specificate fie prin nume, fie prin valori hexazecimale
(precedate de #) conform cu modelul RGB. Astfel, de exemplu, COLOR=red sau
COLOR=#FF0000 indic navigatorului folosirea culorii rou pur pentru afiarea
blocului de text respectiv.
Exerciiu. Aflai amnunte despre alte modele de culoare (HSB, CMYK) utilizate de ctre
softul de desenare.
Modelul RGB (red-green-blue):
n documente se ntlnesc deseori liste. Componentele unei liste fie sunt numerotate, fie
ncep printrun simbol special (o liniu, un cercule, ). Evident, i pentru paginile Web a
fost prevzut posibilitatea marcrii listelor.
De menionat c n paginile Web pot fi inserate exist dou tipuri de liste:
a) liste ordonate, ale cror componente sunt numerotate. Aceste liste sunt delimitate prin
etichetele <OL> i </OL>;
b) liste neordonate, ale cror componente sunt precedate de un cercule (bullet). Aceste
liste sunt delimitate prin etichetele <UL> i </UL>.
Eticheta <OL> permite declararea numrului de ordine pentru prima component
(evident, acesta este 1 n mod implicit) ca valoare a parametrului START.
Indiferent de tipul de list, componentele ei sunt precedate de eticheta <LI>.
Iat un exemplu de liste imbricate, cea exterioar fiind numerotat, cu numerotarea
ncepnd cu 3. Afiarea este prezentat alturat n dreapta:
110
Descrierea listei
<OL START=3>
<LI> prima din exterioar
<UL>
<LI> prima din interioar
<LI> a doua din interioar
</UL>
<LI> a doua din exterioar
</OL>
(De menionat c pentru fiecare nivel de list neordonat se folosesc semne diferite pentru
indicarea componentelor.)
Limbajul HTML prevede i posibilitatea crerii de liste de definiii, anume prin folosirea
etichetelor de delimitare <DL> i </DL>. n interiorul acestora, termenii definii vor fi
precedai de eticheta <DT>, iar definiia efectiv a fiecrui termen va fi precedat de eticheta
<DD>.
Descrierea listei
<DL>
<DT>font<DD>ansamblu de
descrieri grafice pentru
caracterele alfabetului folosit
(ASCII, UNICODE, ...)
<DT>HSB<DD>model de culoare
folosit n aplicatiile grafice.
O culoare este precizata prin
nuanta (<I>hue</I>), saturatia
(<I>saturation</I>) si
stralucirea (<I>brightness</I>)
sa
</DL>
Este practic imposibil astzi plasarea ntregii informaii referitoare la un anumit subiect
n cadrul unui singur document.
Specificul documentelor hipertext l constituie posibilitatea de a apela direct, atunci cnd
utilizatorul o dorete, alte documente hipertext (pagini Web), aflate eventual n memoria
altor sisteme de calcul. Pentru aceasta, n limbajul HTML a fost prevzut perechea de
etichete <A> i </A>.
Reamintim c blocul de text cuprins ntre aceste etichete poart numele de hipertext i
este tratat special de ctre navigatoare:
prin evidenierea cu alt culoare,
prin schimbarea formei cursorului mausului la trecerea pe deasupra.
Un asemenea bloc de text face legtura spre o alt informaie, a crei referin se afl n
interiorul etichetei <A>, anume ca valoare a parametrului HREF. Iat un exemplu:
<A HREF=http://www.umfcd.ro/admitere/info.htm>
Admiterea la UMF Carol Davila</A>
De fapt, valorile parametrului HREF sunt aa-numitele URL-uri (prescurtare de la
Uniform Resource Locator), n traducere localizatoare uniforme de resurs. Acestea pot fi
de dou tipuri:
absolute,
relative.
Este util de reinut c un URL absolut este format din patru pri:
1) protocolul de acces spre resurs (de exemplu http://)
2) denumirea sistemului de calcul ce gzduiete resursa, nsoit eventual de portul de
acces (exemple www.umfcd.ro, www.unilb.hr:8080)
3) calea de acces spre resurs (de exemplu /documente/admitere)
4) denumirea fiierului resurs, completat eventual cu o ancor (exemple info.htm,
descrpt.html#probe)
S menionm aici c folosirea unei referine URL n care apare o ancor presupune c n
cadrul documentului hipertext respectiv a fost plasat o pereche de etichete ce identific
ancora, ca valoare a parametrului NAME. Exemplu
<A NAME=probe> Probele pentru admitere </A>
plasat in interiorul documentului descrpt.html.
Un URL relativ poate conine doar o simpl ancor, eventual precedat de denumirea
fiierului i/sau de calea de acces. Localizarea funcioneaz pe baza faptului c programul de
navigare completeaz localizatorul relativ cu datele referinei de baz.
Folosirea ancorelor este extrem de util, cci parcurgerea unui document lung pentru a
ajunge la informaia dorit se dovedete adesea suprtoare. Ancorele n care parametrul
HREF are ca valoare cel mai simplu tip de URL permit vizitatorului unei pagini Web s se
deplaseze direct ntrun anumit loc din acelai document. Exemplu:
<A HREF=#probe> Probele pentru admitere </A>
(Insistm asupra faptului c blocul de text Probele pentru admitere, coninut ntre cele
dou etichete, va fi tratat special de ctre navigatoare, n primul rnd afiat cu o evideniere
specific. Atenie ns, aceast evideniere poate fi fcut, prin formatare, i pentru blocuri
de text obinuite; ceea ce identific un hipertext este modul de tratare a cursorului mausului
de ctre navigator.)
Legturi (links) spre alte informaii pot fi fcute i prin intermediul imaginilor plasate n
paginile Web. Reamintim c imaginile, provenite din fiiere de tipuri speciale, pot fi inserate
n paginile Web cu ajutorul etichetei <IMG>. Pentru a o folosi ns ca legtur spre alte
informaii, va trebui s i declarm o valoare pentru parametrul USEMAP, ca de exemplu
<IMG SRC=poza.gif USEMAP=#mymap>
112
Controlul tabelelor, n paginile Web, este relativ simplu, dac ne dm seama c ntrun
tabel putem avea unul sau mai multe rnduri cap de tabel, urmate de rnduri normale;
fiecare rnd este format din celule, iar fiecare celul poate conine o mare varietate de
elemente: text, numere, liste, imagini etc. De asemenea, un tabel poate avea ataat o
legend.
Navigatoarele consider (implicit) c alinierea coninutului este centrat n celulele din
rndurile cap de tabel, iar n cele normale este la stnga. Parametrul ALIGN poate fi
folosit pentru a modifica alinierile implicite.
Etichetele care delimiteaz un tabel sunt <TABLE> i </TABLE>. n eticheta <TABLE>
pot aprea o serie de parametri, ale cror valori controleaz global coninutul celulelor:
BORDER pentru grosimea bordurii din jurul tabelului. Dac BORDER=0, atunci
caroiajul din interiorul tabelului va fi neglijat
CELLSPACING, pentru spaierea dintre celule (exprimat n pixeli)
CELLPADDING, pentru spaierea dintre chenar i coninutul celulei
WIDTH, pentru limea dorit a coloanelor (exprimat i n procente).
ntre etichetele <TABLE> i </TABLE> putem defini rndurile tabelului. Fiecare rnd va
fi ncadrat de etichetele <TR> i </TR>. n eticheta <TR> putem modifica stilul de aliniere
pe rndul respectiv, prin declararea unei valori adecvate a parametrului ALIGN, de exemplu
ALIGN=CENTER.
n cadrul unui rnd de tip cap de tabel se va utiliza perechea de etichete <TH> i </TH>
pentru a se specifica antetul fiecrei coloane. n mod implicit textul dintre aceste etichete va
fi afiat cu litere aldine, eventual mai mari, i centrat n celul.
n cadrul unui rnd normal se va utiliza perechea de etichete <TD> i </TD> pentru a se
specifica valoarea fiecrei celule n parte.
Etichetele <TH> i <TD> permit controlul celululor, prin intermediul valorilor
parametrilor
ALIGN i VALIGN, pentru alinierea pe orizontal respectiv pe vertical,
COLSPAN i ROWSPAN, pentru comasarea de celule,
HEIGHT i WIDTH, pentru dimensionri.
113
Iat un exemplu de tabel cu dou rnduri cap de tabel, primul ntins pe toate cele trei
coloane, iar al doilea avnd prima celul vid:
<TABLE BORDER>
<TR>
<TH COLSPAN=3>Tensiunea</TH>
</TR>
<TR>
<TH> </TH><TH>Sistolic</TH><TH>Diastolic</TH>
</TR>
<TR>
<TD>Ionescu</TD><TD>112</TD><TD>140</TD>
</TR>
<TR>
<TD>Popescu</TD><TD>88</TD><TD>130</TD>
</TR>
<CAPTION ALIGN=BOTTOM> Exemplu de tabel </CAPTION>
</TABLE>
Exemplu de afiare a unui tabel
Se obinuiete ca zona de lucru a ferestrei navigatorului s fie divizat n mai multe zone,
numite cadre (frames), a cror funcionalitate s fie independent. Etichetele folosite pentru
divizarea paginii Web n cadre sunt <FRAMESET> i </FRAMESET>. n interiorul etichetei
<FRAMESET>:
parametrii ROWS i COLS permit precizarea divizrii n panouri orizontale sau
verticale. Valorile acestor parametri pot fi precizate n trei moduri, i anume: fie
numeric (n pixeli), fie procentual, fie prin asterisc (pentru a specifica restul de
spaiu);
etichetele <FRAME> i </FRAME> definesc un cadru. n interiorul etichetei
<FRAME>, parametrul SRC precizeaz URL-ul unde este descris coninutul cadrului,
iar parametrul SCROLLABLE determin modul de derulare.
Exemplu:
<FRAMESET COLS=20%,*>
<FRAME SRC=LEFT.HTM SCROLLABLE=YES></FRAME>
<FRAMESET ROWS=50%,50%>
<FRAME SRC=RIGHTUP.HTM SCROLLABLE=NO></FRAME>
<FRAME SRC=RIGHTDOWN.HTM SCROLLABLE=YES></FRAME>
</FRAMESET>
</FRAMESET>
115
Complet alta este situaia unui tabel de date (dintro baz de date), de exemplu de tipul
DBF. Aici informaia este structurat complet n cmpuri i nregistrri, fiecare cmp are
caracteristici particulare, iar fiecare valoare din cadrul unei nregistrri, corespunztoare unui
anumit cmp, trebuie s fie total compatibil cu caracteristicile cmpului. Totui, structura
este relativ simpl: la nceput avem cmpurile, apoi urmeaz una dup alta nregistrrile
toate avnd aceeai lungime.
S considerm, ca un al treilea exemplu, fiierele audio de tipul RIFF. Datele nregistrate
aici sunt organizate n buci (chunks), fiecare bucat coninnd, naintea unei secvene
lungi de date audio, mai muli parametri ca numrul de canale audio, frecvena de
eantionare, precizia datelor i numrul de valori audio. Totui, doar programele care tiu
unde s caute fiecare valoare a vreunui parametru pot interpreta corect toate aceste date.
Este evident c exist o relaie ntre un tip de documente i un format de fiiere. Totui,
formatul fiierelor depinde esenial de platform (adic de arhitectura calculatorului i de
sistemul de operare), ceea ce contrazice principiul universalitii adoptat n Internet; din
contra, un tip de documente acceptat n Internet ar trebui s fie interpretabil de ctre toate
calculatoarele legate la Internet. Prin urmare, fiierele de tip DOC (create de ctre Microsoft
Word), fiierele XLS (create prin folosirea Microsoft Excel), fiierele WAV i multe alte
tipuri de fiiere nu sunt permise n site-urile Web.
Informaiile pe care le dorim prezentate n Web vor fi preluate de ctre navigatoare din:
1) documentul XML; evident, din acesta va fi preluat coninutul;
2) fiierul de stil XSL (n care va fi precizat modul de afiare);
3) fiierul DTD (n care sunt stabilite regulile de prezentare).
Numele Extensible Markup Language ne spune c acest limbaj poate fi extins. Aceasta
nseamn c, n principiu, creatorul unor documente XML are posibilitatea s defineasc
propriul su tip de documente. (ns aceasta este inutil, pn cnd toate calculatoarele vor
putea fi capabile s interpreteze documentele XML! Admind c fiecare calculator legat la
Web posed un navigator fie Microsoft Internet Explorer, fie Netscape Navigator, Opera
sau altul acest navigator va trebui s fie capabil s interpreteze asemenea documente!)
Astzi suntem martorii tendinei de unificare ntre calculator i telefon. Cu ajutorul
limbajului XML se elimin obligativitatea de a crea cte un site Web separat coninnd
aceleai informaii pentru diversele dispozitive de tehnologie a informaiei (calculator,
telefon mobil, ...). Site-ul Web este unic i conine doar informaia efectiv. Forma de
prezentare este determinat de tipul de dispozitiv de pe care se trimite cererea, acest tip fiind
identificat (recunoscut) de programul CGI al gazdei site-ului. n consecin, va fi folosit
stilul adecvat.
Componentele unei declaraii de tip de documente sunt urmtoarele:
elemente,
liste de atribute,
notaii,
entiti.
Aceste componente sunt descrise folosindu-se o sintax flexibil ce permite tot felul de
schimbri n denumiri. Ca un exemplu simplu, s considerm urmtorul coninut al fiierului
ONE.XML care descrie tipul de document person:
<?xml version=1.0?>
<!DOCTYPE person
[
<!ELEMENT person (name,address)>
<!ELEMENT name (#PCDATA)>
<!ENTITY % address SYSTEM http://193.26.0.8/addrfile.dtd>
%address;
]>
117
<person>
<name>D. V. Lindsay</name>
<address>London, UK</address>
<name>I. Ionescu</name>
<address>Bucharest, Romania</address>
</person>
Etichetele din limbajul XML sunt identificate cu uurin, ele ncep cu <!. Tipul de
document descrie pe person ca o structur; descrierea sa este ntre paranteze ptrate.
Primul element stabilete c o persoan are dou componente, un name i o address.
Urmtorul element stabilete c numele (name) sunt obinute din datele ce urmeaz.
Parametrul address al unei persoane este o entitate extern, a crei descriere este gsit
n fiierul ADDRFILE.DTD, cruia i se specific URL-ul. Coninutul acestui fiier ar trebui
s conin o etichet <!ELEMENT> care s descrie acest parametru, de exemplu n felul
urmtor:
<!ELEMENT address (#PCDATA)>
Internet Explorer este capabil s interpreteze coninutul fiierului nostru, s obin
descrierea necesar a lui address din Internet, i apoi s afieze coninutul, aa cum apare
n figura urmtoare.
Exemplu de redare a coninutului fiierului ONE.XML de ctre Internet Explorer
Metalimbajul XML este suficient de complex. Exemplul simplu de mai sus a fost
prezentat deoarece ar putea servi ca un instrument pentru asigurarea transferului datelor
medicale prin Internet, cu condiia ca s se convin i s se adopte o descriere standardizat a
datelor medicale.
(Limbajul) HTML a evoluat gradual n timp, ncepnd cu o versiune 2.0 cu care se putea
lucra (ale crei etichete principale au fost prezentate mai sus); dar chiar i HTML versiunea
4.01 este astzi de mult depit. Ea este nc interpretat pe ecrane, mai bine ca niciodat,
de toate navigatoarele importante, dar a fost deja nlocuit cu XHTML, iar navigatoarele ce
vor aprea n viitor s-ar putea s nu o mai suporte!
Toate documentele HTML bine create ar trebui s nceap cu o declaraie DOCTYPE, ca
de exemplu:
<!DOCTYPE html public '-//W3C//DTD HTML 4.01//EN'
'http://www.w3.org/TR/html4/strict.dtd'>
Trecerea la XHTML nseamn mult mai mult dect schimbarea acestei declaraii
DOCTYPE. XHTML este o revizie major a lui HTML, n care au fost schimbate mai multe
practici de codificare. Pentru a nelege ce s-a ntmplat, s observm c elementelor ca
<FONT COLOR=green SIZE=+1> le lipsete valoarea semantic. Ele nu spun
nimic navigatorului despre ce a fost inclus ntre ele (ntre etichetele <FONT> i
</FONT>), ci doar indic navigatorului cum s prezinte blocul de text ncadrat. Din acest
118
motiv asemenea elemente au fost depreciate i vor fi probabil eliminate din standard!
Pentru a se indica navigatoarelor grafice (Internet Explorer i Netscape Navigator) cum s
prezinte asemenea tip de informaie, n XHTML sunt utilizate stiluri n cascad, iar
etichetele de prezentare nu mai sunt permise!
Exist multe alte diferene. Nu intrm n detalii. S reinem doar ideea c un site Web este
compus dintrun ansamblu de pagini Web ntreesute, coninutul acestor pagini ar putea s se
modifice dinamic, iar meninerea unui site Web profesional este o profesie. Totui, existena
softului specializat ca Dreamweaver face ca aceast profesie s fie uoar.
119
120
121
121
123
124
126
129
BMI =
G
I2
concret, 26.9
Studiile efectuate anterior, pe un numr foarte mare de copii de vrste diferite, au condus
la ntocmirea unei distribuii a valorii indicelui de mas corporal, pe vrste i sexe.
Conform regulilor adoptate n S.U.A., percentilele de 15 i 85 ale acestei distribuii
considerat pentru o anumit vrst servesc pentru delimitarea celor normo-ponderali de
ceilali, iar percentilele de 5 i 95 servesc pentru delimitarea celor subnutrii i a celor
obezi.
Concret, n cazul nostru aceste percentile au valorile: 15.9 (cea de 5%), 22.6 (cea de 85%)
respectiv .26.0 (cea de 95%).
Subiectul nostru, pentru care s-a calculat valoarea 26.9 a indicelui de mas corporal, va
fi ncadrat n categoria celor obezi.
Aadar, valoarea obez pentru individul nostru al populaiei a fost obinut aplicnd un
algoritm simplu: s-a calculat BMI, apoi acesta s-a comparat cu limitele corespunztoare
sexului i vrstei.
Populaiile biologice nu-i pstreaz caracteristicile de variabilitate n timp. Pentru a se
reine datele indivizilor, n scopul efecturii de comparaii ulterioare, se recomand crearea
de baze de date. Evident, n bazele de date se vor reine datele primare (cum sunt
nlimea, greutatea, sexul i vrsta n exemplul de mai sus), urmnd ca datele utilizabile n
comparaii (BMI n exemplul de mai sus) s fie calculate folosind algoritmi specifici.
6.2. Sisteme de gestiune a bazelor de date
Noiunea de dat are dou nelesuri principale: 1) reprezentare formalizat a unor fapte,
concepte sau instruciuni, adecvat comunicrii, interpretrii umane sau prelucrrii automate;
2) reprezentare prin caractere crora li s-a atribuit un neles.
n al doilea neles, datele constau din simboluri nregistrate (scrise) pe un mediu fizic,
numit suport; aceste simboluri reprezint obiecte, idei, evaluri, instruciuni etc.
Trebuie s precizm de la nceput faptul c aceeai dat ar putea fi nregistrat, pe
suportul fizic, n multiple feluri. De exemplu, numrul 123 ar putea fi plasat ntro memorie
fie prin reprezentarea sa binar:
0 1 1 1 1 0 1 1
fie ca succesiune de cifre 1, 2, 3 reprezentate ASCII, adic astfel:
0 0 1 1 0 0 0 1
0 0 1 1 0 0 1 0
0 0 1 1 0 0 1 1
121
Datele obinute de ctre oameni se organizeaz tradiional n biblioteci sau, mai recent, n
bnci de date. O baz de date presupune existena unei bnci de date dotat cu o
component informatic, ce i asigur un plus de organizare i protecie.
Din punct de vedere logic, o baz de date nu este altceva dect o colecie de date cu
legturi ntre ele.
Din punct de vedere informatic, o baz de date este un ansamblu destul de complex de
diverse obiecte informatice, dintre care cele mai importante par a fi tabelele de date.
(Evident, dac suportul datelor este magnetic, tabelele de date vor fi coninutul unor fiiere
speciale, s le numim fiiere-tabel de date.) ns la fel de importante sunt obiectele
informatice care reglementeaz i controleaz accesul utilizatorilor la date, n funcie de
drepturile fiecruia.
Tabelele de date, elementele fundamentale ale oricrei baze de date, sunt formate din
nregistrri (records), organizate n cmpuri (fields) de diverse tipuri. De obicei, fiecare
nregistrare este asociat unui anumit obiect concret, iar fiecare cmp este asociat unui
atribut al (unei caracteristici a) obiectelor. n fiecare nregistrare, pentru fiecare cmp al
tabelului vom gsi o valoare, care trebuie s fie compatibil cu tipul cmpului. S precizm
c toate nregistrrile din acelai tabel trebuie s fie asociate cu obiecte similare.
De exemplu, o nregistrare dintro agend telefonic, ce este asociat unei persoane, poate
conine date privind numele persoanei, adresa sa, numrul/numerele de telefon. O
nregistrare ce este asociat unui medic poate conine, pe lng datele de mai sus, date
privind calificarea i competenele sale. O nregistrare asociat unui medicament poate
conine denumirea sa, fabricantul, posologia, date privind indicaiile i contraindicaiile
cunoscute.
Nu este neaprat nevoie ca toate datele provenite de la o entitate (un individ) s fie
stocate ntrun singur tabel. De exemplu, datele privind medicaia unui pacient ar putea fi
regsite ntro nregistrare cu datele personale ale pacientului, n alta cu datele medicului ce a
prescris medicaia (n alt tabel), i n nregistrarea asociat medicamentului prescris (evident,
n al treilea tabel).
ntre dou tabele de date pot exista legturi, de trei tipuri:
una-la-una, n cazul n care unei nregistrri dintrun tabel i corespunde o singur
1)
nregistrare din cellalt tabel;
una-la-multe, n cazul n care unei nregistrri dintrun tabel i corespund mai multe
2)
nregistrari din cellalt tabel;
multe-la-multe.
3)
Ne dm seama c nregistrrile unui tabel pot fi reordonate n funcie de diverse criterii, c
putem interoga anumite nregistrri, c putem selecta valori ale anumitor cmpuri din
anumite nregistrri, c este nevoie de formulare pentru introducerea (corect) de noi valori
sau pentru imprimarea unor rapoarte pe hrtie. Toate acestea: reordonri, legturi, interogri,
selectri, formulare etc. vor fi stocate n coninutul unor fiiere specifice.
O baz de date construit pentru o firm relativ mic poate conine sute de tabele legate
ntre ele, iar fiecare tabel poate avea i sute de cmpuri. Evident, orict de interesant ar fi
modul de utilizare, nu trebuie s uitm scopul principal pentru care sunt create bazele de
date, i anume regsirea rapid a datelor stocate. Pentru atingerea acestui scop sunt create
aa-numitele sistem de gestiune a bazei de date, prescurtat SGBD (database management
system DBMS).
Problema identificrii precise a unei anumite nregistrri, dintre toate nregistrrile unui
tabel, este rezolvat prin folosirea aa-numitelor chei primare (primary key). O cheie
primar nu este altceva dect o formul de identificare (unic) a unei nregistrri pe baza
valorilor din anumite cmpuri. Aadar, fiecare dat particular stocat n baza de date va fi
122
accesibil prin indicarea adresei sale, care se calculeaz odat cunoscute numele
tabelului de date, numele cmpului i valoarea cheii primare.
Exemplul cel mai simplu ar fi cel n care se folosete un singur cmp special ID, ale
crui valori numerice 1, 2, 3, se completeaz automat la fiecare inserare a unei nregistrri
noi n tabel.
Este de la sine neles c un SGBD presupune o activitate complet computerizat. Ne dm
seama c aceste sisteme moderne au provenit din sistemele cu fie utilizate pentru regsirea
crilor, dup autor, n bibliotecile clasice. Diferena esenial dintre un SGBD computerizat
modern i unul clasic, cu fie de hrtie, const n posibilitatea de regsire ultrarapid a
datelor.
Este destul de uor s ne imaginm modul de funcionare a unui sistem de gestiune a
bazei de date, innd seam de faptul c, n general, pot exista trei tipuri de utilizatori:
cei ce alimenteaz baza de date cu date noi, sau le corecteaz pe cele existente;
cei ce interogheaz baza de date, selectnd i cernd rapoarte;
cei ce ntrein baza de date, asigurnd prin programe speciale protecia datelor i
supravieuirea bazei de date.
Sunt folosite astzi destul de multe sisteme de gestiune a bazelor de date. Menionm:
(Microsoft) Access, component a suitei Office,
(Microsoft) SQL Server,
(Microsoft) Visual FoxPro,
(IBM) DB2,
Oracle,
MySQL.
Access, Visual FoxPro i MySQL sunt aplicaii pregtite pentru activiti la nivel de
firm mic, foarte uor de nvat i utilizat. Posibilitile lor sunt limitate n ceea ce privete
capacitatea, ct i numrul de utilizatori (simultani). Dimpotriv, Oracle i DB2 pot controla
activitatea a mii de utilizatori simultani, asupra unei cantiti de date exprimate n terabytes.
Trebuie s facem meniunea c exist probleme de compatibilitate ntre aceste sisteme de
gestiune a bazelor de date. De asemenea, trebuie s menionm faptul c o baz de date poate
fi gzduit n memoria mai multor calculatoare.
6.3. Limbajul SQL (scurt prezentare)
Pentru crearea, actualizarea sau tergerea componentelor unei baze de date a fost
standardizat un limbaj special, denumit SQL (iniialele de la Structured Query Language).
Acesta este alctuit din comenzi, de trei tipuri posibile.
1) Tipul DD (de definire a datelor). Principala comand din acest tip este cea de creare.
De exemplu,
Create Table spitale
ar trebui s aib ca efect crearea unui tabel de date, cu denumirea indicat (spitale).
2) Tipul DM (de manipulare a datelor). Exist, din acest tip, patru comenzi: cea de
selectare (Select), cea de inserare de date noi (Insert), cea de modificare (Update) i cea de
tergere (Delete). De exemplu,
Select * From spitale Where oras=Bucuresti
ar trebui s aib ca efect selectarea n ntregime (!) a nregistrrilor din tabelul de date
spitale, care corespund spitalelor localizate n oraul Bucureti.
Ca un alt exemplu,
Insert Into spitale Values(SUUB,Bucuresti,814)
123
ar trebui s aib ca efect inserarea n tabelul de date spitale a unei noi nregistrri, pentru
care valorile corespunztoare cmpurilor (fie acestea nume, oras, nrpaturi) sunt cele
specificate.
3) Tipul DC (de control al datelor). Comanda Grant din acest tip permite acordarea de
drepturi speciale unor utilizatori. De exemplu,
Grant Select,Insert On spitale To ionescu
ar trebui s permit utilizatorului ionescu s selecteze date i s insereze noi nregistrri n
tabelul de date spitale (nu ns s modifice sau s tearg date!).
Pentru a acoperi necesitile de calcul statistic, n limbajul SQL au fost prevzute cinci
funcii speciale de calcul: Count(), Sum(), Avg(), Min() i Max().
Denumirile lor exprim destul de clar efectul acestora. Astfel, Count() totalizeaz
numrul de nregistrri, iar Avg() calculeaz media aritmetic a valorilor.
Implementarea comenzilor SQL depinde ns de aplicaia concret.
6.4. Serverul MySQL
MySQL este o implementare open source a limbajului SQL, gratuit, i poate fi folosit
sub licen public. Avantajul su major const n sprijinul pe care-l ofer pentru realizarea
de pagini web dinamice (n combinaie cu implementri ale limbajului PHP sau ale altor
limbaje).
Evident, ca majoritatea implementrilor soft pentru Internet, i aceast implementare a
sistemului de gestiune a bazelor de date se compune din aplicaie server i aplicaie client.
Aplicaia server MySQL se instaleaz de obicei pe gazdele Internet n memoria crora este
creat baza de date, i ateapt la portul 3306 solicitri ale eventualilor clieni. Ct despre
aplicaia client, nu este necesar s insistm asupra acesteia: Internet Explorer, prin
posibilitile de interpretare a scripturilor PHP, face ca utilizatorii sisteului de operare
Windows s nu aib probleme deosebite cu accesarea datelor.
Vom face o scurt prezentare a serverului MySQL. S ncepem prin a meniona c
sistemul de securitate folosit de MySQL este bazat pe:
numele de utilizator (username),
parola de protecie (password),
privilegiile/drepturile utilizatorului.
MySQL este administrat implicit de ctre utilizatorul root ce are privilegii absolute.
n MySQL o baz de date este de fapt un subfolder al folderului denumit data. Fiecare
tabel al bazei de date este format din trei fiiere avnd acelai nume (coninute n subfolderul
specific bazei de date):
1) formularul, cu extensia frm, ce conine structura tabelului,
2) fiierul de date, cu extensia myd, i
3) fiierul index, cu extensia myi. Acesta conine ordonrile asociate datelor din fiierul
de date.
Toate cele trei fiiere sunt create automat, n urma execuiei unei comenzi
Create Table nume_tabel ;
n mod implicit exist o baz de date mysql care conine datele privind utilizatorii,
precum i drepturile i privilegiile acestora. Aceast baz de date conine cinci tabele:
124
1) user, n care sunt nregistrate datele utilizatorilor: numele de acces, parolele de acces i
privilegiile globale;
2) db, n care sunt nregistrate bazele de date i utilizatorii care au acces la acestea;
3) host, n care sunt nregistrate date suplimentare pentru controlul accesului de la
anumite gazde la bazele de date;
4) tables_priv, n care sunt nregistrate date privind privilegiile la nivel de tabel;
5) column_priv, n care sunt nregistrate privilegiile la nivel de cmp (coloan).
Acelai nume de tabel poate fi folosit n mai multe baze de date. Pentru a evita confuziile,
identificarea precis a unui tabel de date se face cu ajutorul operatorului . (punct)
nume_baz_de_date.nume_tabel
Administratorul root are dreptul de a crea conturi de utilizator i de a le configura aa
cum o dorete. Configurarea unui cont de utilizator nseamn:
a) precizarea numelui de utilizator (username), a calculatoarelor de la care va avea acces
la server i a parolelor de acces;
b) stabilirea privilegiilor pe care le are utilizatorul (pn la nivel de cmp al unui tabel
dintro baz de date).
Crearea unui cont de utilizator se ace cu comanda Grant, a crei sintax este urmtoarea:
Grant privilegii (list cmpuri)
On identificatoare_tabele To username (Identified By password) ;
iar modificri ale contului pot fi fcute, ulterior, i printro comand Revoke analoag
comenzii Grant.
Odat ce i-au fost acordate privilegiile/drepturile necesare, utilizatorul poate vizualiza,
crea, modifica sau terge conturi de utilizator, baze de date, tabele, nregistrri.
Vizualizarea bazelor de date la care are acces utilizatorul se obine ca efect al comenzii
Show Databases ;
Analog poate fi folosit comanda
Show Tables ;
pentru vizualizarea tabelelor accesibile din baza de date curent (aflat n folosin).
Alegerea acesteia se face cu comanda
Use nume_baz_de_date ;
Crearea unei baze de date se obine printro comand simpl
Create Database nume_baz_de_date ;
iar crearea unui tabel nou pentru baza de date curent este efectul unei comenzi (mult mai
complexe)
Create Table nume_tabel ( structur i indeci ) ;
Ca exemplu, pentru crearea unui tabel cu dou coloane utile (numele+prenumele i anul
naterii), se va aduga o coloan suplimentar de identificare studID n care valorile vor fi
completate automat i care va fi folosit drept cheie primar; de asemenea va fi creat un
index alfabetic:
Create Table studenti ( studID Integer Auto-Increment Not Null Primary Key,
numepren Char(30), annastere Year,
Index alfa(numepren) ) ;
Odat creat un tabel de date, pentru inserarea unei nregistrri noi va putea fi folosit
comanda Insert. Una dintre variantele acceptate are sintaxa
Insert Into nume_tabel Values( lista_valori ) ;
125
n care n lista de valori trebuie s apar valori pentru toate cmpurile tabelului, exact n
ordinea dat de structura tabelului. Evident, fiecare valoare specificat n list trebuie s fie
de acelai tip cu tipul cmpului n care va fi introdus.
n caz c nregistrrile trebuie preluate din coninutul unui fiier text, se poate folosi o alt
comand:
Load Data Infile identificator_fiier_surs Into Table nume_tabel ;
Bazele de date se construiesc i se ntrein pentru ca s poat fi gsite rapid acele date care
satisfac o anumit condiie. Regsirea datelor se obine ca efect al unei comenzi Select. Una
dintre variante are sintaxa
Select list_cmpuri From list_tabele Where condiie_de_selecie ;
Ca un caz particular, prin
Select * From nume_tabel ;
se determin afiarea tuturor nregistrrilor din tabel, una dup alta.
Datele selectate pot fi ordonate i/sau grupate prin opiuni speciale.
Comanda generic Select este extrem de complex i flexibil, putndu-se obine cu
ajutorul ei inclusiv rezultate ale unor calcule.
n caz c se constat c unele nregistrri conin date incorecte, corectarea lor se poate
efectua cu o comand
Update nume_tabel Set list_modificri Where condiie_de_identificare ;
tergerea unor nregistrri dintrun tabel se poate obine, evident, cu o comand
Delete From nume_tabel Where condiie_de_ndeplinit ;
Pentru tergerea unui tabel care nu mai este necesar se poate folosi comanda
Drop Table If Exists nume_tabel ;
Din exemplele date anterior se poate observa c limbajul SQL implementat n MySQL
este format din comenzi destul de clare n limbajul natural (engleza). Se impune doar o
respectare a topicii.
Serverul MySQL este dotat cu o serie de funcii (built-in functions) din urmtoarele patru
categorii:
1) Pentru prelucrarea secvenelor de caractere. Exemple: CONCAT() pentru
concatenarea mai multor secvene de caractere, TRIM() pentru eliminarea caracterelorspaiu alb de la nceputul i sfritul secvenei, UPPER() pentru transformarea literelor din
secven n majuscule.
2) Pentru prelucrarea numerelor. Exemple: SQRT() pentru calculul rdcinii ptrate,
RAND() pentru obinerea de valori (pseudo)aleatoare.
3) Pentru manevrarea datelor calendaristice. Exemplu: NOW() pentru obinerea
momentului curent.
4) Diverse. Exemplu: ENCODE() pentru criptarea unei secvene de caractere.
6.5. Aplicaia Microsoft Access
Face parte din suita Office creat de firma Microsoft, putnd fi folosit independent
pentru lucrul cu baze de date sub sisteme de operare Windows. Evident, posed diverse
faciliti de preluare a datelor din celelalte aplicaii ale suitei.
126
nvarea operrii cu aplicaia Access este uurat de existena unui exemplu destul de
complex de baz de date comercial, Northwind Traders, stocat n fiierul
Northwind.mdb. De menionat c extensia implicit a fiierelor Access este MDB. De
asemenea, aplicaia este dotat, pentru nceptori, cu module auxiliare de ghidare (wizard).
) conduce imediat la fereastra bazei de date. n
Startarea aplicaiei Access (pictograma
stnga ei apare lista tipurilor de obiecte ce pot fi create: tabele, interogri, formulare de
introducere, machete de raportare. Fiecare obiect creat va fi identificat printrun nume.
Pentru crearea unui obiect nou se recomand a se folosi opiunea Create in Design
view, ceea ce permite un control vizual al parametrilor obiectului. n figura urmtoare este
pregtit crearea unui tabel de date nou (al bazei de date spital):
128
Operaiunile de cutare de date par simple n Access, odat ce suntem obinuii cu Word
sau cu Excel. Pentru a gsi date ntrun tabel avem la dispoziie comanda EditFind.
Atunci ns cnd dorim s regsim datele care satisfac o anumit condiie trebuie s
facem apel la un filtru (filter) sau la o interogare (query). Access ofer mai multe tipuri de
filtrare, accesibile ca urmare a comenzii RecordsFilter. Interogrile este recomandabil s
fie Create query in Design view, aadar prin folosirea ferestrei Select Query
(constructorului de interogri).
O interogare se poate crea asupra unuia sau mai multor tabele, ce au fost selectate n
prealabil. n fereastra Select Query apar toate cmpurile tabelelor selectate, putndu-se
controla ordonarea datelor (prin proprietatea Sort), vizibilitatea pe ecran (prin proprietatea
Show) precum i criteriul de selecie (proprietatea Criteria).
Face parte din suita Visual Studio creat de firma Microsoft, putnd fi folosit
independent pentru lucrul cu baze de date relaionale (dar nu mari) sub sisteme de operare
Windows. Avnd diverse faciliti de export/import a datelor, este compatibil cu alte
sisteme de gestiune a bazelor de date (dBase, Paradox), dar i cu aplicaii de alt natur (de
exemplu Excel). Compatibilitatea cu aplicaia Access este ns discutabil.
Meniurile aplicaiei Visual FoxPro sunt iniial urmtoarele:
File Edit View Format Tools Program Window Help
(a se vedea figura urmtoare). De menionat c meniurile se vor schimba, n funcie de
contextul n care ne aflm; astfel, atunci cnd se lucreaz cu un proiect de ansamblu va
aprea un meniu Project, cnd se lucreaz cu o baz de date va aprea un meniu Database,
coninnd comenzi specifice; iar dac vom lucra cu un tabel de date, n locul acestui meniu
va aprea meniul Table. (Exist i alte situaii!)
129
130
Aplicaia Visual FoxPro folosete fiiere de mai multe tipuri; iat principalele:
1) DBF (coninutul unui tabel de date);
2) IDX (reordonarea nregistrrilor unui tabel);
3) PRG (comenzi alctuind un program);
4) FRX (definirea unei machete de raportare).
Crearea unui tabel de date, n cadrul unei baze de date, va putea fi fcut i cu ajutorul
comenzii New Table din meniul Database. Prima etap const n aa-numita structurare a
tabelului, concret n stabilirea denumirii i parametrilor cmpurilor. n aceast etap pot fi
stabilite i unele ordonri ale nregistrrilor tabelului (chiar dac ele nu au fost nc introduse
vezi figura urmtoare).
Descrierea structurii unui table de date
Pentru crearea cmpurilor tabelelor de date, aplicaia Visual FoxPro permite utilizarea
mai multe tipuri predefinite de date: Character, Currency, Integer/Numeric,
Float/Double, Date/Time, Logical, Memo.
131
Datele de tip Character sunt secvene de cel mult 254 de caractere (ASCII).
Datele de tip Numeric sunt numere (pozitive sau negative), exprimate zecimal, eventual
cu cteva cifre dup virgul; se spune c sunt exprimate n virgul fix.
Datele de tip Float sau Double sunt numere reale exprimate standard, cu mantis i
exponent; se spune c sunt exprimate n virgul mobil.
Datele de tip Date sunt date calendaristice, ce pot fi exprimate n diverse stiluri: ll/zz/aa,
zz-ll-aa etc.; ocup ntotdeauna 8 caractere.
Datele de tip Logical pot fi doar T sau F, ceea ce nseamn adevrat (true) respectiv fals
(false).
Datele de tip Memo sunt secvene de caractere, ce pot depi limitarea impus tipului
Character; stocarea lor se face ns ntrun mod special.
Odat ce datele au fost introduse n tabel, ele vor putea fi vizualizate n mai multe moduri.
Poate cea mai comod vizualizare se obine prin comenzile Browse i Edit din meniul View.
O comparaie ntre efectele acestor comenzi este fcut n figura urmtoare.
De menionat c ordinea de afiare a valorilor, care iniial respect ordinea cmpurilor aa
cum a fost stabilit la structurarea tabelului de date, va putea fi schimbat apelnd la
comanda Move Field din meniul Table.
Dac tim c n limbajul SQL adugarea unei nregistrri noi (dup cele existente ntrun
tabel) se efectueaz cu comanda APPEND, atunci nu este deloc dificil s ne dm seama de
rolul comenzii Append New Record din meniul Table. Iar comanda Append Records are
ca rol preluarea (eventual parial a) unor nregistrri din alte tabele de date.
Efectul comenzilor Browse i Edit
132
n figura de mai sus prezentm aceast caset de dialog. n partea inferioar, lista Fields
permite alegerea cmpurilor ce vor fi folosite n crearea expresiei. Grupul Functions este
format din patru liste derulante intitulate String, Math, Logical, Date; ele corespund celor
patru tipuri de operaiuni ce pot fi utilizate n crearea expresiei. De exemplu, n figur a fost
folosit funcia YEAR() din lista Date, precum i concatenarea (reprezentat prin +) din lista
String, pentru a se crea o ordonare dup anul naterii i nume. Caseta de dialog Expression
Builder este completat de lista variabilelor de sistem (dintre care cea care reine numrul
paginii, _pageno, ar putea fi folosit n crearea rapoartelor) precum i butonul Verify ce
poate fi folosit pentru verificarea corectitudinii expresiei create n caseta-text Expression.
n crearea bazelor de date pot exista restricii impuse de legislaia n vigoare. De exemplu,
nu se permite ca datele personale ale pacienilor (numele, data naterii, codul numeric
personal) s fie nregistrate alturi de datele legate de diagnoz. n aceste situaii datele
personale se pot reine ntrun tabel Private, iar datele nregistrate n spital n tabelul
Hospital. Trebuie s existe ns o legtur ntre cele dou tabele.
Prin relaie nelegem o legtur ntre dou sau mai multe tabele de date, prin care
nregistrrile sunt temporar conectate, n aa fel nct datele lor devin accesibile simultan.
Relaiile ntre tabele se constituie pe baza unor date comune, ce identific sau nu unic
nregistrrile.
Din punct de vedere formal, o relaie poate fi de dou feluri: biunivoc (one-to-one),
respectiv multivoc (one-to-many).
Relaiile pot fi create de exemplu ncepnd cu comanda NewViewNew file din
meniul File. Fereastra View Designer este completat iniial cu caseta de dialog Add
Table or View prin care selectm tabelele ce conin datele pe care le dorim relaionate. Se
continu apoi cu caseta de dialog Join Condition (a se vedea figura de mai jos), n care
trebuie s declarm cmpurile pe baza crora se va realiza relaionarea, de asemenea care
nregistrri le dorim selectate. Fereastra View Designer permite stabilirea cmpurilor care
vor fi vizualizate (tableta Fields), a relaiilor existente (tableta Join), a filtrelor de
selectare (tableta Filter), a ordonrilor (tableta Order By), a condiiilor de grupare
(tableta Group By) etc. Aceleai efecte se pot obine i prin folosirea comenzilor din
meniul Query ce nlocuiete meniul Project (Database sau Table) n aceast situaie. Odat
realizat o relaionare, comanda Browse asigur vizualizarea datelor selectate.
133
Iniial fiecare machet de raportare prevede posibilitatea controlului a trei benzi, dintre
care de regul pe banda Detail vor fi precizate datele extrase din baza de date ce trebuie
raportate. Benzile de colontitlu Page Header i de coloncifru Page Footer sunt folosite
pentru plasarea informaiilor de paginare. Dat fiind c un raport obinuit are o parte
introductiv i o parte final (concluzii sumarizate), n meniul Report este prevzut
comanda Title/Summary prin care se pot introduce dou benzi noi cu rol evident. De
asemenea, pot fi create benzi de tipul Group Header i Group Footer, ce ajut la
134
sistematizarea informaiilor n grupuri. (De exemplu, n benzile de ultimul tip pot fi plasate
subtotaluri ale datelor din fiecare grup.)
Crearea machetelor de raportare este uurat foarte mult datorit existenei instrumentului
auxiliar Report Wizard ce poate fi folosit odat ce am ales comanda NewReportNew
file din meniul File. n etape succesive se ofer posibilitatea de a alege cmpurile ale cror
valori vor fi trecute n raport, apoi alegerea gruprii i ordonrii valorilor. Evident, se vor
oferi cteva stiluri standard de raportare a datelor, folosite de regul n domeniul economic
(vezi figura de mai sus pentru un exemplu). Eventuale modificri aduse machetei sunt
uurate prin utilizarea barei de instrumente Report Controls care conine cteva butoane
reprezentnd clasele de obiecte utilizabile n machet: Label (texte - secvene de caractere),
Field (cmpuri din tabelele de date), Line, Rectangle, Rounded Rectangle (obiecte grafice
geometrice), Picture (imagini).
Parametrii unui obiect caset text
b)
136
137
139
140
141
7.1. Distribuii 2
Ce se poate spune despre ptratul Z 2 ? Evident, valorile acestei variabile aleatoare nu pot
fi negative; categoric ele nu mai sunt distribuite simetric n jurul originii. Cu toate acestea,
99.7% dintre valori sunt situate ntre 0 i 9 = 32 !)
Densitatea de probabilitate a ptratului Z 2 poate fi reprezentat grafic prin utilizarea
funciei CHIDIST implementat n Excel. n figura urmtoare este clar c nu exist vreo
ax de simetrie, dar nu este clar care ar fi media (nici care este mediana) distribuiei.
Graficul densitii de probabilitate a lui Z 2
Totui, implementarea lui CHIDIST n Excel ofer rezultate ntrun mod diferit dect
NORMSDIST. Din motive istorice, de fapt CHIDIST(x, ) este exact probabilitatea ca
variabila aleatoare 2 () s ia valori mai mari dect x (i nu mai mici dect x ca n cazul lui
NORMSDIST).
Densitatea de probabilitate a lui 2 (10)
nrc
nr
nc
X =
2
r ,c
138
n
nr nc
Totaluri pe linii
n n
nrc r c
n
exprim o anumit distan dintre datele (nrc ) ale tabelului de contingen i nite valori
calculate pe baza totalurilor pe linii i pe coloane.
Aceast statistic este distribuit aproximativ 2 () , unde numrul de grade de libertate
este exact ( R 1) (C 1) , R fiind numrul de linii, iar C numrul de coloane ale tabelului de
contingen.
Ca atare, marea majoritate a valorilor statisticii (n condiiile n care datele tabelului
sunt completate la ntmplare uniform dar cu totalurile fixate) se vor plasa n jurul
mediei 2 . Foarte puine vor fi aproape de zero sau departe de zero.
n teoria eantionrii ntlnim un alt rezultat interesant. S presupunem c avem un
eantion de volum n dintro populaie distribuit normal N(, 2 ) cu parametrii i 2
necunoscui iar abaterea standard a datelor obinute din eantion este s. Atunci ctul
(n 1) s 2
este o variabil aleatoare de tipul 2 (n 1) , aadar cu n 1 grade de libertate.
2
(Evident, acest rezultat nu poate fi folosit direct, deoarece n general deviaia standard
teoretic nu este cunoscut! Vom reveni.)
7.2. Distribuii Student
Distribuiile t au aprut acum un secol ntrun articol al lui William Gosset, publicat n
1908 sub pseudonimul Student; din acest motiv ele sunt cunoscute i sub numele de
distribuii Student. Familia {t ()} a acestor distribuii este parametrizat de acelai
numr ca i familia { 2 ( )} . Motivul este evident dac-i lum n considerare definiia:
Z
t ( ) =
.
2 ( )
S ne amintim c Z reprezint distribuia normal standard, deci este de tipul N(0,1) , iar
2 ( )
139
raport ptratul s 2 al lui s este o medie ponderat a ptratelor s12 i s22 ale abaterilor standard
respective, mai precis
(n 1) s12 + (n2 1) s22
s2 = 1
.
n1 + n2 2
7.3. Distribuii Fisher-Snedecor
Datele de recensmnt din multe ri arat c proporia de nou-nscui biei este uor mai
mic dect 0.5, de obicei 0.49. Este unanim acceptat c sexul unui nou nscut poate fi
considerat distribuit Bernoulli cu parametrul 0.49 i, ca variabil aleatoare, independent de
oricare alta care reprezint sexul altui nou nscut. Oare aceast opinie general este susinut
de datele statistice? Dac ipoteza de independen are fi adevrat, atunci numrul de biei
n familiile cu 4 copii ar avea o distribuie binomial b(4; 0.49), descris (aproximativ) dup
cum urmeaz:
Numrul de biei
Probabilitatea
0
0.068
1
0.260
2
0.374
3
0.240
4
0.058
Dac am colecta date de la, s zicem, 1000 de familii cu patru copii, atunci ne-am atepta
la urmtoarele frecvene:
Numrul de biei
Frecvena familiilor
0
68
1
260
2
374
3
240
4
58
141
1
(Ok E k )2
Ek
ca o distan. Din punct de vedere statistic, X 2 este o statistic adic o formul n care
apar datele obinute dintrun eantion a crei distribuie este aproximativ cea a lui
2 (K 1) i, prin urmare, se poate aplica un test de bonitate. Pragul dintre discrepanele
mici i discrepanele mari poate fi interpretat n termenii distribuiei 2 (K 1) .
n figura de mai sus acest prag a fost fixat inndu-se seam de un coeficient de ncredere
de 95% (ceea ce corespunde aici la un nivel de semnificaie de 0.95).
n practic, dac folosim Microsoft Excel, putem utiliza funcia CHITEST i s-i
interpretm valoarea returnat (adic valoarea p) ntrun mod special. Anume, valori
apropiate de 1 vor fi interpretate astfel: datele observate confirm ipoteza.
Nu este neaprat obligatoriu ca pragul s fie fixat att de aproape de 0. innd seam de
specificul distribuiei 2 (K 1) , pragul poate fi ales n jurul modului K 3, ceea ce
142
corespunde unei valori p de circa 0.5 0.6. De exemplu, s presupunem c datele colectate
de la cele 1000 de familii cu patru copii sunt urmtoarele:
Numrul de biei k
Numrul de familii cu 4 copii ce au
k biei (frecvena observat Ok )
Total
66
268
377
233
56
1000
Frecvena observat Ek
68
260
374
240
58
Diferena (Ok E k )
Valoarea p obinut (vezi figura urmtoare) este 0.963, ceea ce nseamn c datele
obinute din eantionul ales suport opinia c sexul celui de-al doilea nou nscut ntro
familie este statistic independent de sexul primului nscut n acea familie.
Prima aplicaie a testului de bonitate hi-ptrat dateaz din 1901, atunci cnd a fost
confirmat o teorie foarte important n genetic (aceasta deoarece doar n anul 1900 a
devenit cunoscut articolul publicat de Gregor Mendel n 1865!). Mendel a observat c
anumite caracteristici ale plantelor de mazre pot disprea la urmaii direci, dar reaprea la
urmaii din a doua generaie.
O explicaie plauzibil este bazat pe ideea c o caracteristic genetic a populaiei este
determinat n fiecare individ printro pereche de gamei, care sunt motenii cte unul de la
cei doi prini. Acum, dac fiecare dintre cele doi gamei ar putea lua doar dou valori
(numite alele) A i a, atunci un individ dat este fie homozigot (ceea ce nseamn c pentru el
cei doi gamei ai genei sunt identici, AA sau aa), fie heterozigot (cei doi gamei sunt
diferii). Atunci cnd doi indivizi homozigoi de alele diferite se ncrucieaz, toi urmaii
direci sunt heterozigoi identici (aceasta este legea uniformitii).
S admitem c acea caracteristic genetic este statura, cu doar dou valori posibile: nalt
i scund. Ipoteza este c indivizii cu gamei AA sau Aa (= aA) sunt nali, iar cei cu gamei
aa sunt scunzi (ceea ce nseamn c alela A este dominant).
ntro populaie n care alelele sunt distribuite echitabil, proporia de indivizi homozigoi
este
2
3
= 0.5 , iar proporia de indivizi nali este = 0.75 .
4
4
Dac proporia alelei dominante este , atunci proporia de indivizi homozigoi este
2 + (1 ) 2 , iar proporia de indivizi nali este 2 + 2(1 ) . Mai mult, proporiile celor
trei genotipuri AA, Aa (= aA) i aa sunt, respectiv:
2 , 2(1 ) , (1 ) 2 .
Principiul Hardy Weinberg afirm c proporiile diverselor genotipuri rmn aceleai
prin trecerea de la o generaie la urmtoarea (adic populaia este n echilibru).
Pentru a testa dac o populaie studiat este n echilibru, s presupunem c pentru 1000
indivizi, alei ntmpltor, au fost observate urmtoarele:
Genotipul
Frecvena observat
AA
799
Aa (= aA)
188
aa
13
Total
1000
143
Aa (= aA)
191.89
= 1000 2 p(1 p)
AA
796.56
= 1000 p 2
aa
11.56
= 1000 (1 p ) 2
rotund i
galben
315
rotund i
verde
108
coluros
i galben
101
coluros
i verde
32
Total
556
rotund i
galben
rotund i
verde
coluros i
galben
coluros
i verde
Proporia ateptat
9
16
3
16
3
16
1
16
Frecvena ateptat
312.75
104.25
104.25
34.75
Testul hi-ptrat d o valoare p de 0.9254, care este suficient de mare pentru a confirma
ipoteza lui Mendel.
Un test de bonitate hi-ptrat ar putea fi folosit pentru a confirma o distribuie presupus a
unei populaii, bazndu-ne pe datele obinute dintrun eantion ales aleator. De exemplu, de la
Adolphe Qutelet (1796-1874, statistician belgian; indicele de mas corporal BMI este
cunoscut i ca indicele Qutelet) se accept c cele mai multe dintre caracteristicile numerice
(cum ar fi nlimea sau greutatea) ale populaiilor biologice mari sunt aproximativ
distribuite normal. Un test hi-ptrat ar putea fi folosit pentru a confirma normalitatea.
De obicei datele numerice x1 , x 2 ,..., x N ( R ) obinute dintrun eantion de volum N sunt
grupate n K grupuri (sau cutii) determinate de K 1 valori de separare s1 < s 2 < ... < s K 1
iar frecvenele observate Ok se calculeaz cu uurin.
(Mai precis, valoarea xi este plasat n cutia k dac
s k 1 < xi s k , unde s 0 = i s K = + .)
S presupunem c populaia este distribuit normal, cu media i variana 2 . Este bine
x + x 2 + ... + x N
iar este
cunoscut faptul c este estimat prin media de eantion m = 1
N
estimat prin abaterea (deviaia) standard s =
144
( x1 m) 2 + ( x 2 m) 2 + ... + ( x N m) 2
.
N 1
1
s 2
sk
sk 1
( x m) 2
exp
2s 2
dx
Alte softuri produc diagrame care permit comparaii vizuale ntre histograma datelor din
eantion i un grafic al (densitii) distribuiei normale estimate. Decizia adic acceptarea
sau respingerea ipotezei c populaia este distribuit normal este lsat utilizatorului.
De exemplu, Statistica produce, din datele generate anterior, diagrama din figura
urmtoare.
145
D = max F ( x( n ) )
, F ( x( n ) ) .
1< n N
N N
2n 1
ln F ( x( n) ) (1 F ( x( N +1n) )) .
n =1 N
A= N
Acceptarea unei teorii, n urma unui test de bonitate, bazndu-ne pe datele ce au fost
colectate dintrun eantion, este ntotdeauna o decizie personal. (Evident, creia i se ataeaz
un anumit risc!)
146
Pentru a susine o decizie subiectiv atunci cnd fie detaliile, fie timpul nu sunt
suficiente, se poate folosi aa-numitul quantile-quantile plot (sau q-q-plot). Acesta este o
diagram n care datele colectate, ordonate cresctor
x(1) x( 2) ... x( N )
sunt comparate cu datele
y1 y2 ... y N
care corespund distribuiei teoretice specificate n (H0). Mai precis,
n
F ( yn ) =
for n {1, 2, ..., N } .
N +1
147
Cursul 8. Eantionarea
Eantionarea este principala metod a statisticii, folosit evident pentru obinerea, de la
populaii mari, a unor valori dorite, necesare n procesele de luare a deciziilor, cum sunt de
exemplu evaluri ale proporiei mbolnvirii, ale mediei unei populaii, ale dispersiei.
Cursul are ca scop prezentarea
a) principalelor tehnici de eantionare, generale i specifice, folosite pentru a se
obine o certitudine ct mai mare a concluziilor,
b) modului n care se stabilete volumul unui eantion, n funcie de gradul de
certitudine pe care l-am dori,
c) metodelor de comparare a dou populaii, la nivelul proporiilor, mediilor sau
varianelor.
Coninutul acestui curs este urmtorul:
8.1. Tehnici de eantionare .......................................................................................
8.2. Distribuiile eantioanelor .................................................................................
8.3. Stabilirea volumului eantionului ......................................................................
8.4. Compararea a dou populaii .............................................................................
8.5. Compararea varianelor .....................................................................................
148
149
150
156
157
159
1
10
selectm un asemenea eantion sunt reduse (mai mici de 1%). Cele mai mari anse (de
aproape 25%) sunt ataate situaiei n care n eantion vom avea 5 brbai i 5 femei; n
aceast situaie proporia de eantion p =
1
50
S relum evalurile pentru eantioane de volum n = 100, alese evident aleator. De data
aceasta putem estima mai fin proporia .
S acceptm ca estimri bune pe cele ntre 0.4 i 0.6 (marja de eroare = 0.1). ansa ca
din eantionul ales aleator s obinem o proporie ntre 0.4 i 0.6 o putem evalua (cu ajutorul
funciei BINOMDIST) la 96.5%. Aadar, doar din 3.5% dintre eantioane vom obine
proporii deprtate de cea adevrat.
Dac vom accepta c estimrile bune sunt doar cele ntre 0.47 i 0.53 (adic vom
aceepta o marj de eroare de 0.03), atunci vom avea 51.6% anse ca din eantion s obinem
o asemenea estimare. Riscul de a se obine o proporie necorespunztoare este de 48.4%.
Concluzia este clar: folosirea unui eantion de volum 100 pentru estimarea proporiei este
destul de lipsit de riscuri dac precizia estimrii este mic, dar devine foarte riscant dac
dorim o precizie ridicat a estimrii.
S considerm acum eantioane de volum n = 1000, acceptnd c estimri bune sunt
cele ntre 0.47 i 0.53 (marja de eroare = 0.03). De data aceasta ansele ca s obinem o
proporie bun din eantionul ales aleator sunt de 94.6%. Concluzia este c putem obine
fr riscuri prea mari o precizie ridicat a estimrii.
Rezumm evalurile anterioare n urmtorul tabel:
Volumul eantionului
10
100
1000
Marja de eroare
0.1
0.1
0.03
0.03
Riscul
34.4%
3.5%
48.4%
5.4%
S revenim la principala problem a statisticii, n cazul general. S ne imaginm c am
putea genera multe dintre eantioanele posibile (eventual pe toate) i c le-am putea analiza.
Evident, o distribuie de eantionare este rezultatul (pur teoretic al) diferitelor
eantionri posibile. Punctul de plecare este o populaie a crei distribuie de probabilitate
este cunoscut. Presupunem c extragem un mare numr de eantioane, fiecare de volum n
(acelai pentru toate). Pentru fiecare eantion extras presupunem c vom calcula valoarea
unei statistici. (Reamintim c prin statistic nelegem o formul de calcul cu datele ce
provin de la un eantion.) Ne va interesa distribuia valorilor calculate.
Primul caz pe care-l abordm este cel al unei populaii de numere distribuite normal, cu
media i variana 2 (ambele presupuse cunoscute). Valorile posibile x pot fi considerate
ca fiind valorile unei variabile aleatoare normale N(, 2 ) . Pentru fiecare eantion de volum
n, din care obinem valorile x1, x2 ,..., xn , s calculm media de eantion
x + x + ... + xn
m= 1 2
.
n
Eantioanele extrase vor produce astfel o populaie a acestor medii de eantion, avnd o
anumit distribuie.
S notm cu M variabila aleatoare asociat distribuiei mediilor de eantion. Pot fi
demonstrate o serie de rezultate interesante, dintre care menionm:
1) media variabilei M (cu alte cuvinte, media distribuiei eantioanelor de volum n)
coincide cu media a populaiei din care extragem eantioanele:
E (M ) = ;
2) variana variabilei M este legat de variana 2 a populaiei din care extragem
eantioanele prin relaia:
Var ( M ) =
151
Putem afirma aadar c parametrul unei populaii este estimat printro statistic, la fel
cum afirmm c probabilitatea unui eveniment este estimat printro frecven relativ.
n cele de mai sus am estimat parametrul mai nti prin m, apoi prin intervalul
s
s
, m+3
m 3
. Estimarea unui parametru poate fi fcut fie printrun numr (ceea ce
n
n
intervalul m 1.96
, m + 1.96
c este intervalul de ncredere 95% pentru
n
n
parametrul .
De obicei coeficientul de ncredere se alege 95%, de aceea am i insistat asupra acestei
valori.
, m + 1.65
. Dimpotriv, un coeficient de ncredere
90% s-ar fi micorat la m 1.65
n
n
de 99.7% ne-ar fi condus la un interval de ncredere (99.7%) mult mai larg. Mrirea
coeficientului de ncredere are ca rezultat o diluare a preciziei identificrii parametrului!
Trebuie s atragem atenia asupra unei greeli logice pe care o facem din instinct, atunci
cnd afirmm c suntem 95% siguri c parametrul se afl undeva n intervalul de
ncredere 95%. Da fapt, ceea ce tim este c pe baza a 95% dintre eantioanele posibile vom
reui s crem intervale ce vor conine parametrul , iar intervalele pe care le vom crea pe
baza celorlalte eantioane nu vor conine pe . Cu alte cuvinte, 95% dintre eantioane vor
produce estimri corecte, iar 5% vor produce estimri greite (adic 5% este riscul de a grei
bazndu-ne estimarea lui pe un eantion).
153
1
12
1
,
2
1
12
1
2
i abaterea standard
1
12
, putem afirma
urmtoarele:
Dac dispunem de un generator de numere (pseudo)aleatoare uniforme n [0, 1] aa cum
este RAND n Excel prin folosirea sa de 12 ori succesiv obinem numerele u1 , u2 ,..., u12 .
Calculnd
g = u1 + u 2 + ... + u12 6
putem afirma c g este un numr (pseudo)aleator normal standard.
Ipoteza simplificatoare pe care am acceptat-o anterior anume c variana 2 a
populaiei este cunoscut este implauzibil. Mult mai plauzibil pare ipoteza c atunci cnd
media nu este cunoscut, nici variana 2 nu este cunoscut.
Evident, ne putem gndi s nlocuim pe cu abaterea standard s obinut exploatnd
datele ce provin dintrun eantion. ns, dac facem aceast nlocuire, apare o dificultate
suplimentar: distribuia valorilor m provenite din eantioane nu mai este normal, prin
urmare exploatarea proprietilor distribuiei normale nu mai este posibil!
Se poate demonstra ns un alt rezultat, valabil pentru o populaie distribuit normal
N(, 2 ) . De data aceasta avem de-a face cu doi parametri, i 2 , care descriu (teoretic)
populaia. Rezultatul este urmtorul:
m
este
dac extragem eantioane de volum n din populaie, atunci statistica t =
s/ n
distribuit Student cu n 1 grade de libertate.
Evident, n formula de mai sus,
n
m = xk n i s =
k =1
1 n
( xk m ) 2 ,
n 1 k =1
p(1 p)
p(1 p)
parametrul este urmtorul: p 1.96
, p + 1.96
unde p este
n
n
0.9
150
0.9
150
adic 5.2% < < 14.8% , ceea ce nseamn c putem fi aproape siguri c sub 15% dintre
pacieni vor necesita spitalizare de durat peste 4 zile.
Observaie: condiiile de aproximare sunt satisfcute!
Exerciiu. A fost decelat prezena unei bacterii infecioase la 8 pacieni dintrun eantion
de 40 de pacieni (alei aleator) dintrun spital. n spital sunt n jur de 500 de pacieni.
Estimai, cu ncredere 95% procentajul pacienilor spitalului afectai de bacterie.
155
n
N 1
N n
putnd modifica sensibil evalurile.
factorul de corecie
N 1
n literatura de specialitate se ntlnete notaia x pentru media de eantion (n loc de m)
atunci cnd X este notaia variabilei aleatoare continue (nu neaprat distribuite normal), cu
p (1 p )
=L
n
n care p este proporia succeselor n eantionul ce va fi ales. De aici se obine cu uurin
volumul eantionului:
1.652 p (1 p )
.
n=
L2
Produsul p (1 p) are ca valoare maxim 0.25. Prin urmare, volumul eantionului poate
fi determinat (n situaia cea mai nefavorabil) din formula
1.652 0.25
.
n=
L2
1.652 0.25
= 1639 , cu alte cuvinte, va
S lum ca un caz particular L = 2% . Rezult n =
0.02 2
trebui s investigm un eantion de 1639 indivizi pentru a ne asigura c vom obine o
estimare precis a proporiei.
Este destul de evident c aceast tehnic este aplicabil doar rareori n medicin!
S rezumm felul n care se stabilete intervalul de ncredere. Odat ales coeficientul de
ncredere c%, din tipul distribuiei eantioanelor (normal, Student, ) va fi determinat un
factor c (n exemplele anterioare acesta era 1.65, 1.96 etc.). Apoi, folosind datele
provenite din eantion se va face o estimare punctual e a parametrului (n exemplele
anterioare m pentru media , p pentru proporia ) i de asemenea o evaluare d a
mprtierii. Intervalul de ncredere c% va avea forma
[e c d , e + c d ] .
Coeficientul de ncredere c% este apropiat de 100%. Deseori el este nlocuit prin
100 c% , procent apropiat de 0, care poart numele de nivel de semnificaie. Vom reveni.
1.65
Pentru cazul n care cel puin unul dintre eantioane este mic (are cel mult 30 de
indivizi), formula de estimare a varianei este ceva mai complicat.
Exemplu. Pentru a putea compara ntre ele dou medicamente ce reduc nivelul
colesterolului n snge (cauza principal a atacurilor de cord), a fost efectuat un studiu
preliminar.
n cazul acestuia au fost selectai 64 de brbai, aleatoriu dintrun total de 220 pacieni
avnd nivel ridicat de colesterol. Dintre acetia, 33 au folosit medicamentul A, iar ceilali 31
au folosit medicamentul B timp de trei sptmni.
Msurndu-se scderea procentual a nivelului colesterolului, s-au obinut urmtoarele
rezultate:
Medicamentul A
Medicamentul B
n1 = 33
n2 = 31
m1 = 5.4%
m2 = 4.9%
s1 = 1.2%
s 2 = 1.6%
Pe baza acestor date, s estimm printrun interval de ncredere 95% diferena ntre
scderile procentuale determinate de cele dou medicamente. Diferena m1 m2 este de
0.5%, iar semi-lungimea intervalului de ncredere este L = 1.96
1.22 1.6 2
+
0.7% , prin
33
31
unde L = 1.96
158
p1 (1 p1 ) p2 (1 p2 )
.
+
n1
n2
22
i are forma:
s12 1 s12
f ' 2 , 2
s2 f s2
unde numerele f i f ' (care depind evident de coeficientul de ncredere, dar i de numrul
gradelor de libertate) pot fi obinute n Excel apelnd
FINV(0.025, n1 1 , n2 1 ) respectiv FINV(0.025, n2 1 , n1 1 ).
Figura urmtoare ne exemplific aceste numere ( f = 2.65 , f ' = 2.86 ) pentru situaia unor
eantioane de volume 15 i respectiv 20 indivizi.
160
162
163
165
166
175
176
161
Din punct de vedere logic, n aceiai termeni am putea enuna i o alt afirmaie, de data
aceasta exprimnd egalitatea sau inegalitatea invers, similaritatea sau coincidena. Aceast
afirmaie este notat cu H0 i este numit ipoteza nul. Conform lui R. A. Fisher, ipoteza
nul este ridicat ca un complement al ipotezei alternative doar pentru a fi respins, iar
prin respingerea ei vom accepta ca adevrat ipoteza tiinific iniial.
S prezentm aceste afirmaii pentru cele apte exemple de mai sus:
(10) IQ-ul mediu al fetelor n vrst de 10 ani este egal cu IQ-ul mediu al bieilor n
vrst de 10 ani,
(20) Incidena maladiei Alzheimer la persoanele de vrst foarte naintat este aceeai cu
cea la persoanele de vrst naintat,
(30) Indicele mediu de creativitate al copiilor este egal cu cel al adulilor,
(40) Proporia pacienilor nsntoii dintre cei tratai cu medicamentul A este egal cu
cea corespunztoare pentru medicamentul B,
(50) Salariul mediu al medicilor brbai este egal cu salariul mediu al medicilor femei,
(60) Starea medie de sntate a pacienilor, n urma unui tratament standard, nu sufer
nicio schimbare,
(70) Scderea medie n greutate a persoanelor ce urmeaz dieta sptmnal prescris de
faimosul dietetician Dr. C este de exact 2 kg.
R. A. Fisher a dat numele de ipoteza nul deoarece aceast ipotez ar trebui s fie
anulat. Acest nume a fost reinut i a supravieuit probabil datorit faptului c n multe
cazuri ipoteza nul poate fi scris sub forma unei egaliti cu zero:
(H0)
f ( ) = 0
n care f este o funcie de parametrii ai populaiilor implicate n testare. Poate c cel mai
bun exemplu este urmtorul:
(10)
f b = 0
n care parametrii f i b reprezint IQ-ul mediu al fetelor, respectiv bieilor n vrst de
10 ani.
Exist ntotdeauna posibilitatea ca ipoteza nul s fie ea cea adevrat, deci prin
respingerea ei s facem o eroare. Probabilitatea unei erori de acest fel este cunoscut n
medicin ca valoarea p (a ipotezei alternative!) i este interpretat de obicei ca riscul
acceptrii ipotezei tiinifice ca adevrat.
Admind c dispunem de informaii complete despre distribuia populaiei, singura surs
de eroare ar rmne maniera n care sunt alei indivizii din eantion. Atunci cnd eantionul
este ales aleator, diferenele dintre ceea ce ne ateptm i ceea ce constatm vor putea fi
explicate doar prin factorul ans. Vom putea impune un prag asupra acestor diferene,
separnd diferenele mici, acceptabile, de cele mari, inacceptabile. Acest prag este
identificat odat cu specificarea nivelului de semnificaie.
Respingem H0
H0 este fals
Corect!
Decizia
Nu respingem H0
Eronat (eroare de
tipul al II-lea)
H0 este adevrat
Eronat (eroare de
tipul I)
Corect!
n dou dintre ele decizia este corect. Atunci cnd respinge o ipotez H0 care este
adevrat, agentul nostru face o eroare de tipul I. Iar cnd nu respinge o ipotez H0 fals
agentul face o eroare de tipul al II-lea.
n testarea de semnificaie statistic o importan maxim o are eroarea de tipul I.
Probabilitatea ei, cu alte cuvinte numrul
= P(decizie eronat | H 0 este adevrat)
este nivelul de semnificaie a crui valoare a fost aleas anterior (la Pasul 3).
Evident, fiecare agent de decizie dorete s pstreze nivelul de semnificaie ct mai mic
posibil ntruct este de fapt probabilitatea de a face o eroare! Astfel c valori cum este
= 0.05 sunt destul de des ntlnite, iar n tiinele medicale se recomand alegerea unor
valori mai mici, de exemplu = 0.001 .
N
N
de volum N poate fi considerat variabil aleatoare de tipul N(0, 1) , adic avnd o
distribuiie normal standard.
Totui, aa cum am artat mai sus, variana 2 nu este cunoscut. Aa cum am precizat n
lecia precedent, de obicei este estimat prin aa-numita varian de eantion:
1
S2 =
(( X 1 M ) 2 + ( X 2 M ) 2 + ... + ( X N M ) 2 )
N 1
i suntem interesai n formula
M 2
.
T=
S
N
Aceast formul va fi aleas (la pasul 2) drept statistica ce va fi utilizat la pasul 4.
Se tie c T este o variabil aleatoare distribuit Student; mai precis, este de tipul
t ( N 1) . n cea mai mare parte, valorile lui T sunt concentrate n jurul lui 0. Totui,
deoarece valori M < 2 vor fi n contradicie cu ipoteza unilateral (7a), suntem interesai
doar n valorile pozitive ale lui T. Valorile pozitive ce sunt n afara intervalului [0, t ]
determinat de o valoare critic t vor fi considerate c difer semnificativ de 0. Aceste
valori formeaz aa-numita regiune de respingere, deoarece n cazul apariiei unei asemenea
valori agentul decizional va respinge ipoteza nul (a se vedea figura urmtoare).
Odat ce a fost ales nivelul de semnificaie (la pasul 3), pragul (adic valoarea critic)
t > 0 care delimiteaz regiunea de respingere (t , + ) este determinat unic (i bine
aproximat computaional) din condiia P(T > t ) = , care este de fapt urmtoarea:
P(T t ) = 1 .
Aadar, testarea de semnificaie statistic se efectueaz astfel: dup ce am ales un nivel de
semnificaie convenabil, calculm imediat pragul t > 0 din condiia (t ) = 1 unde
167
un nivel de semnificaie * , ntre ' i " , aa nct t va fi exact valoarea critic t * . Acest
nivel de semnificaie particular este cunoscut ca valoarea p a ipotezei alternative.
Interpretarea sa este limpede: este cel mai mic nivel de semnificaie care ne permite s
acceptm ca adevrat ipoteza alternativ prin respingerea ipotezei nule, bazndu-ne doar
pe datele din eantionul ales. Muli interpreteaz aceast valoare p ca riscul de a accepta ca
adevrat ipoteza alternativ (bazndu-ne pe eantionul ales).
S considerm, ca un alt caz particular, un al doilea eantion:
Scderea sptmnal n
Scderea sptmnal n
Individul
Individul
greutate
greutate
1
1.6 kg
6
1.6 kg
2
2.8 kg
7
1.7 kg
3
1.6 kg
8
2.6 kg
4
3.0 kg
9
2.4 kg
5
1.9 kg
10
1.8 kg
De data aceasta pentru ase indivizi dintre cei 10 ai eantionului scderea sptmnal n
greutate este mai mic de 2 kg. Aceasta face ca ipoteza alternativ (7a) s fie mai puin
credibil. Totui, s aplicm metoda testrii de semnificaie statistic, exact ca mai sus. i de
data aceasta, media de eantion
1
(1.6 + 2.8 + 1.6 + 3.0 + 1.9 + 1.6 + 1.7 + 2.6 + 2.4 + 1.8) = 2.1 (kg)
10
este consistent cu afirmaia faimosului Dr. C. Variana de eantion s 2 0.2978
( s 0.5457 ) ne conduce la valoarea calculat
2.1 2
t
0.5795
0.5457 / 10
care este mai mic dect t 0.05 . Nu putem respinge ipoteza nul, chiar i pentru nivelul de
semnificaie mare = 0.05 !
Mai mult, valoarea p (calculat prin intermediul funciei speciale TTEST din Microsoft
Excel) este 0.2622. Aadar riscul acceptrii ipotezei alternative ca adevrat, bazndu-ne pe
acest eantion particular, este suficient de ridicat!
S tragem cteva concluzii generale despre perechile de ipoteze similare cu (7a)-(70).
O asemenea ipotez alternativ (Ha) conine n enun ca unic parametru media a
unei populaii distribuite normal. Este o ipotez unilateral
(Ha): > valoare
169
N
2
( )
( N 1) (
N 1
)
2
1 + x
N 1
N / 2
dx
a = b
unde a , respectiv b reprezint ritmul cardiac mediu nainte, respectiv dup administrarea
medicamentului.
Datele pe care le obinem apar n mod natural mperechiate; mai precis, pentru fiecare
pacient vom msura ritmul cardiac nainte ( xa ) i dup ( xb ) administrarea medicamentului.
Evident, am putea calcula diferena d = xa x b i am putea considera c medicamentul
este eficace pentru pacientul nostru dac d < 0 , ineficace dac d = 0 (adic nu se constat
nicio schimbare) i duntor dac d > 0 . De fapt testm eficacitatea medicamentului antihipotensiv. S notm cu diferena medie; atunci testarea statistic de senmnificaie de mai
sus este nlocuit prin
(6a) > 0
(60) = 0
care este exact situaia tratat n Exemplul 1, cu condiia ca diferenele d s fie distribuite
normal.
Dac presupunem c ritmul cardiac al pacienilor hipotensivi, i nainte, i dup
administrarea medicamentului, este distribuit normal, adic este de tipul N( a , a2 )
respectiv N( b , 2b ) , atunci rezult c diferenele d sunt i ele distribuite normal, cu media
a b . Variana diferenelor este necunoscut, i este estimat prin variana de eantion
s 2 . ntruct acceptm ab initio c (60) este adevrat, distribuia diferenelor d este
aproximativ de tipul N(0, s 2 ) .
Cele mai multe dintre diferene sunt concentrate n jurul lui 0. Odat ce a fost ales nivelul
de semnificaie , valoarea critic t > 0 care delimiteaz regiunea de respingere (t , + )
este obinut exact ca n Exemplul 1, prin intermediul distribuiei Student t ( N 1) .
S considerm urmtoarele date obinute dintrun eantion de volum 8:
Individul
nainte
(b/m)
Dup
(b/m)
Diferena
Individul
1
58
66
+8
5
2
65
69
+4
6
3
68
75
+7
7
4
70
68
-2
8
Valoarea calculat se va obine prin folosirea formulei
m
t=
s
N
nainte
(b/m)
Dup
(b/m)
Diferena
66
75
62
72
73
75
68
69
+7
0
+6
-3
Decizia va fi luat n urma comparrii acestei valori t cu valoarea critic t . Prin urmare,
nici pentru = 0.05 nu vom putea respinge ipoteza nul (aceasta deoarece
t 0.05 2.3646 > t ).
Exemplul 3: S presupunem c ipoteza alternativ este (5a) de mai sus i c, evident,
ipoteza nul este (50):
(5a) Salariul mediu al medicilor brbai este mai mare dect salariul mediu al medicilor
femei,
(50) Salariul mediu al medicilor brbai coincide cu salariul mediu al medicilor femei.
S rescriem ipotezele ntro form ceva mai abstract:
(5a) m > f
(50)
m = f
T=
Mm Mf
,
St
n care
1
1
S t2 =
+
Nm Nf
( N m 1) S m2 + ( N f 1) S f2
Nm + Nf 2
9
10
media m m
2
variana s m
volumul N m
7274
8351
6991.6
1560.2
volumul N f
10
Atenie, mediile calculate pentru cele dou eantioane nu sunt consistente cu ipoteza
alternativ! Testarea ar trebui s se opreasc aici!
S presupunem c am detectat eroarea de dactilo (7410 n locul lui 74410) i am corectato. Acum mm > mf , adic mediile calculate sunt consistente cu ipoteza alternativ. Valoarea
calculat va fi obinut cu formula:
m mf
t= m
st
(pe care o folosim ntruct ambele eantioane sunt mici) n care
2
1
+ ( N f 1) sf2
1 ( N m 1) s m
=
+
Nm + Nf 2
Nm Nf
iar decizia va fi luat n mod corespunztor.
Evident, este nevoie de multe calcule, de mult munc de programare. Acesta este
motivul pentru care testarea de semnificaie statistic nu este prea larg utilizat.
st2
173
(r ) = 1
unde este o funcie de distribuie adecvat.
n cazul unei ipoteze bilaterale, regiunea de respingere
(, r ) (r , + ) unde numrul r > 0 este determinat din condiia
(r ) = 1
este
reuniune
Funcia de distribuie este fie de tipul normal standard, fie de tipul Student. De fapt,
prin raionamente teoretice se identific mai multe cazuri.
(1) Varianele celor dou populaii, 12 i 22 , sunt cunoscute. n acest caz statistica
utilizat
m m2
1 2
1 2
1 +
2 )
(n care 2 =
z= 1
N1
N2
urmeaz o distribuie normal standard N(0, 1) . Evident, m1 i m2 reprezint mediile de
eantion respective.
Varianele celor dou populaii sunt necunoscute, i sunt nlocuite prin varianele de
eantion corespunztoare s12 i s 22 . n acest caz vor trebui luate n considerare dou situaii
ce se exclud reciproc.
(2.1) Cazul homoskedastic: varianele necunoscute 12 i 22 sunt egale ntre ele. n
acest caz statistica folosit este
m1 m2
t=
1
1
sp
+
N1 N 2
unde s p2 este o estimare global a varianei comune a populaiilor, dat de
s p2
174
( N1 1) s12 + ( N 2 1) s 22
.
=
N1 + N 2 2
Numrul celor vindecai este exact suma X 1 + X 2 + ... + X N A despre care tim c este
distribuit binomial b( N A , A ) . Media de eantion PA =
1
( X 1 + X 2 + ... + X N A )
NA
1
b( N A , A ) este o statistic ce exprim proporia pacienilor vindecai din rndul celor
NA
tratai cu medicamentul A.
Analog, un eantion de volum N B extras din populaia pacienilor tratai cu medicamentul B este de fapt o secven Y1 , Y2 ,..., YN B de distribuii Bernoulli de tipul Be( B ) iar
=
(1 A )
1
, iar
b( N B , B ) este
este aproximativ distribuit normal, de tipul N A , A
NB
NA
(1 B )
. Prin urmare, diferena
aproximativ de tipul N B , B
NB
D = PA PB
care exprim diferena ntre proporiile vindecrilor, va fi aproximativ de tipul
(1 A ) B (1 B )
.
+
N A B , A
NA
NB
1
1
.
+
N 0, (1 )
N
N
B
A
Astfel, pentru a obine o statistic adecvat, vom avea nevoie de o estimare global a lui
, proporia pacienilor vindecai n rndul ceor tratai medicamentos (fie cu A, fie cu B).
Aceasta este obinut ca statistica:
1
P=
( X 1 + X 2 + ... + X N A + Y1 + Y2 + ... + YN B )
NA + NB
Iar statistica noastr ce va fi folosit n testarea de semnificaie va fi urmtoarea
PA PB
Z=
1
1
+
P(1 P)
NA NB
notaia Z indicnd c este vorba despre o distribuie normal standard, adic de tipul N(0, 1) .
177
Eantionul A
N A = 80
55
PA = 68.75%
Eantionul B
N B = 75
40
PB = 53.33%
Ambele eantioane
N A + N B = 155
95
P 61.29%
Din aceste date obinem scorul z, anume z 1.9692 , iar acesta corespunde unei valori p
* 0.02446 (a se vedea figura de mai jos). Aceasta este cunoscut ca Mid-p value (de
exemplu n Epi Info 2004) i este interpretat conform cu aversiunea noastr fa de risc.
Evident, nainte de a calcula scorul z, va trebui s verificm dac cele dou procentaje PA
i PB sunt n relaie corect unul fa de altul; dac nu sunt, testarea se oprete!
Atunci cnd folosim Microsoft Excel, valoarea p * este obinut prin formula
= 1 NORMSDIST( x)
n care x reprezint coordonatele celulei n care a fost calculat scorul z.
Se obinuiete (ceea ce este perfect adecvat softului Microsoft Excel) ca datele ce provin
din eantioane s fie prezentate n tabele de contingen, ca de exemplu:
Tratat cu:
Numrul pacienilor vindecai
Numrul pacienilor nevindecai
Medicamentul A
55
25
Medicamentul B
40
35
Dac vom estima probabilitile prin frecvenele relative (folosind datele obinute dintrun
eantion), atunci independena statistic a lui V i W corespunde dependenei liniare a liniilor
(sau a coloanelor) din tabelul extins de contingen:
Totaluri pe linii
N vw
N v
N w
Totaluri pe coloane
unde:
N vw este numrul de cazuri pentru care V = v i W = w ,
N v este numrul de cazuri pentru care V = v , adic N v =
N vw ,
wW
vV wW
N vw ,
vV
N vw .
vV wW
N
N v N w
N N
N vw v w
N
este 0.
n cazul nostru, tabelul extins de contingen este:
Medicamentul A
Medicamentul B
Totaluri pe linii
Vindecai
55
40
95
Nevindecai
25
35
60
Totaluri pe coloane
80
75
155
iar dependena liniar a liniilor (sau a coloanelor), adic independena statistic a variabilelor
Medicament i Starea pacientului nseamn exact c ipoteza nul (40) A = B este
adevrat.
Formula de mai sus, care prezint statistica X ptrat a lui Pearson, d o msur a
neadevrului ipotezei nule. Valori mari ale lui X 2 ne ndeamn s o respingem.
Se tie c X 2 urmeaz aproximativ o distribuie de tipul 2 ((l 1)(c 1) ) , unde l este
numrul de valori distincte ale lui V iar c este numrul de valori distincte ale lui W. (n cazul
nostru l = c = 2 , prin urmare X 2 este de tipul 2 (1) .)
Apoi, graficul distribuiei hi-ptrat (a se vedea figura urmtoare) ar putea fi folosit pentru
a respinge sau nu ipoteza nul.
179
Toate consideraiile de mai nainte sunt simplificate drastic atunci cnd folosim Microsoft
Excel! ntr-adevr, aici dispunem de funcia denumit CHITEST, care are dou argumente:
a) Domeniul dreptunghiular ce conine tabelul de contingen (Actual_range),
b) Domeniul dreptunghiular ce conine datele teoretice care corespund ipotezei nule
(Expected_range), ceea ce nseamn c sunt calculate cu formula
N N
N vw = v w .
N
Aceast funcie returneaz valoarea p * , care poate fi interpretat de fiecare conform cu
apetena/ adversitatea sa fa de risc.
n cazul nostru (vezi figura urmtoare) obinem * = 0.0489...
Merit s subliniem c cele dou metode pe care le-am folosit anterior au dat valori p
distincte (0.02446 respectiv 0.0489). Aceasta nu este surprinztor! Mai multe motive
contribuie la aceasta: (a) folosirea estimrilor intermediare ale proporiilor, (b) aproximarea
distribuiilor adevrate ale statisticilor utilizate prin altele, de tipul normal sau hiptrat, (c) considerarea ipotezelor alternative de tip uni- sau bilateral etc.
180
Perechea de ipoteze (2a)-(20) este similar perechii (4a)-(40). Cele dou metode prezentate
mai sus sunt potrivite pentru confirmarea opiniilor sau descoperirilor despre incidena
maladiilor, similare lui (2a).
Totui, distribuia hi-ptrat este folosit i pentru a confirma opinii cum ar fi (20) sau (40),
adic opinii exprimnd o egalitate sau coinciden. Aceasta nu poate fi fcut ns n cadrul
testrii de semnificaie; testele respective sunt cunoscute ca teste de bonitate i au fost
abordate ntrun curs anterior.
181
182
183
184
186
190
194
S ncepem aceast seciune prin considerarea a dou seturi de date formale. S facem
observaia c ultima valoare n fiecare set de date poate fi considerat ca aberant (outlier),
fiind mult mai mare dect restul datelor din seturile respective. Se poate observa c aceste
valori aberante ridic mediile respective cu circa 25%, ns le pstreaz ordinea. (Chiar i
prin eliminarea lor, media datelor din setul 1 este mai mic dect media datelor din setul 2.)
Vom lua n considerare dou abordri diferite. n prima abordare vom admite c datele
provin de la pacieni tratai cu un medicament M, fiind rezultate de laborator obinute nainte
i dup tratament (de exemplu, valori ale creatininei). Scderea valorilor dup tratament
nseamn mbuntirea strii pacientului. Prin urmare, aceste date indic mbuntirea strii
pacienilor cu dou excepii dup tratamentul cu medicamentul M, ceea ce ne ndeamn
s credem n adevrul ipotezei alternative:
(PERa): n urma tratamentului cu medicamentul M, valoarea creatininei scade.
Valoarea p a acestei afirmaii, obinut printrun test t pereche, este de 0.00010,
confirmnd adevrul ipotezei alternative.
n a doua alternativ, vom admite c datele provin de la dou populaii diferite, primul set
provine de la pacienii tratai cu placebo, al doilea set de la pacienii tratai cu
medicamentul M. Media mai mic a setului 2 (comparativ cu setul 1) indic eficacitatea de
ansamblu a medicamentului M i ne ndeamn s credem n adevrul ipotezei alternative:
(NEPERa): tratamentul cu medicamentul M este eficace (prin comparaie cu lipsa de
tratament).
Valoarea p a acestei afirmaii, obinut prin testul t nepereche, este ns de 0.4080. O
asemenea valoare nu confirm adevrul ipotezei alternative!
183
Aadar, aceleai date conduc la concluzii diferite, concluziile depinznd n mod esenial
de contextul n care am obinut datele.
Aceeai discrepan se constat i dup ce se renun la valorile aberante.
10.2. Analiza varianei (ANOVA)
n a doua abordare din seciunea anterioar am analizat comparativ dou grupuri diferite
ale aceleiai populaii, anume grupul celor tratai cu medicamentul M i grupul celor tratai
cu placebo. Grupurile au fost considerate ca eantioane provenind din populaii diferite.
Dac s-ar fi prescris medicamentul M n cteva doze diferite, atunci am fi avut de-a face
cu mai mult de dou grupuri.
Deseori se pune problema comparrii a mai mult de dou grupuri/populaii, sau a unei
populaii stratificate n mai mult de dou straturi, iar compararea se face prin medii. n
asemenea situaii se poate aplica o generalizare a testului t pentru dou populaii, cunoscut
sub numele de analiza varianei sau testul ANOVA. Scopul ANOVA este validarea
existenei diferenelor semnificative ntre mediile grupurilor/ straturilor. Numele de
analiz a varianei provine din faptul c de fapt n aceast metod se compar ntre ele i
varianele grupurilor/straturilor.
Din punct de vedere istoric, prima aplicare a analizei varianei s-a fcut ntro situaie n
care se analizau recoltele obinute n urma tratrii solului cu diferite feluri de ngrminte.
Se pstreaz, prin tradiie, unele dintre notaiile i noiunile folosite atunci (cum este media
tratamentului).
Pentru a explica modul n care se efectueaz analiza varianei, s lum n considerare mai
multe grupuri/straturi, fiecare grup/strat avnd o medie i o varian proprie (evident,
necunoscute). Extragem, din fiecare grup/strat, cte un eantion, conform schemei
urmtoare:
Grupul (stratul) 1
media 1
Grupul (stratul) k
media k
Grupul (stratul) K
media K
variana 12
variana 2k
variana 2K
Eantion de volum n1
media de eantion m1
Eantion de volum nk
media de eantion mk
Eantion de volum n K
media de eantion m K
variana de eantion s k2
variana de eantion s K2
(Iniialele provin de la sum of squares for treatments = suma ptratelor pentru tratamente.)
Numrul SST este minim (de fapt este 0) dac i numai dac toate mediile de eantion
sunt egale ntre ele: m1 = ... = mk = ... = m K .
Valori mici ale lui SST apar atunci cnd mediile de eantion mk sunt apropiate ntre ele,
iar asemenea situaii confirm ipoteza nul. Dar dac ar exista diferene mari ntre mediile de
eantion, atunci cel puin cteva dintre ele vor diferi considerabil de media global, ceea ce
va determina o valoare mare a lui SST, confirmnd astfel ipoteza alternativ (prin
respingerea celei nule). Oare ct de mare trebuie s fie numrul SST pentru ca s fim
ndreptii s respingem ipoteza nul?
Total SS din tabele nu trebuie confundat cu SST. De fapt nici nu joac nici un rol
special. Includerea acestei valori n tabele doar evideniaz faptul c testul statistic se
bazeaz pe descompunerea varianei totale a datelor n cele dou surse de variabilitate: cea
dintre eantioane (between) i cea din interiorul eantioanelor (within).
Variabilitatea din interiorul eantioanelor este dat de suma ptratelor erorilor (SSE),
care este suma ptratelor abaterilor dintre valori i mediile respective de eantion,
SSE =
( x jk m k ) 2 .
k =1 j( k )
n k 1 j( k )
( x jk m k ) 2
aadar, suma ptratelor erorilor se poate rescrie (ceea ce justific denumirea metodei):
2
SSE = (n1 1) s12 + ... + (n k 1) s k2 + ... + (n K 1) s K
.
Ca exemplu, s considerm aciunea unui medicament asupra indivizilor din patru
categorii de vrst, timp de 60 de zile, exprimat n scderea procentual a nivelului
colesterolului:
(procente)
Sub 20 ani
20 39 ani
40 59 ani
Peste 60 ani
13
17
22
15
8
22
25
17
19
28
20
31
16
15
36
7
22
10
22
19
media = 15.60
2
12
20
8
9
media = 18.17
media = 14.57
41
17
media = 22.67
185
MST
MSE
P-value = 0.2822
Valoarea p fiind 0.2822, respingerea ipotezei nule este improprie (chiar dac discrepana
ntre medii ni s-ar prea suficient de mare). Nu dispunem de suficiente date pentru a trage
concluzia c scderea procentual a nivelului colesterolului depinde de categoria de vrst.
(Dar nici nu putem trage concluzia c nu depinde de categoria de vrst!)
Motivaia principal pentru aceast concluzie pare clar dac observm cu atenie datele
care se prezint n tabel. Din suma total de 2051, doar 305 = SST este datorat diferenelor
ntre straturi, cea mai mare parte (1745 = SSE) provine din diferenierea indivizilor n cadrul
straturilor. Deci straturile nu sunt suficient de omogene!
Acest mod de a raiona i are riscurile sale. De fapt, teoria statisticii arat c pentru o
comparaie corect ar trebui s inem seam de mediile ptratelor (MS = means of squares)
i nu de suma ptratelor (SS = sum of squares). Pe msur ce media ptratelor erorilor MSE
va scdea comparativ cu media ptratelor tratamentelor MST, straturile se separ iar ipoteza
nul devine implauzibil. Calculul valorii p se face innd seam de faptul c raportul
MST
MSE
a k bk c k d k
,
,
,
calculate pentru fiecare strat din datele tabelului
nk nk nk nk
Factorul F
Maladia D
+
ak
ck
bk
dk
nk
Dac n-ar exista nici-o asociere ntre factor i maladie, atunci media, respectiv variana lui
a k ar fi urmtoarele
E (a k ) =
(a k + bk )(a k + c k )
(a + b )(c + d )(a + c )(b + d k )
, Var (a k ) = k k k 2 k k k k
nk
nk (nk 1)
2
X MH =
ak
1
E (a k )
2
Var (a k )
sumele fiind extinse la toate straturile k. Dar ceea ce este important este faptul c ea este
distribuit aproximativ 2 (1) .
Exemplu. Ne punem problema s studiem comportarea organismului uman fa de dou
medicamente care au ca scop creterea imunitii organismului. Rezultatul utilizrii oricruia
dintre medicamente (s le identificm ca MedA, respectiv MedB) este dihotomic: se constat
fie creterea imunitii organismului (CI), fie descreterea imunitii organismului (DI). Se
ncearc s se stabileasc dac exist vreo asociere ntre variabila rspuns (evoluia
imunitii, notat Y, avnd valorile posibile CI i DI) i variabila de influen tipul de
medicament (notat cu X, avnd valorile posibile MedA i MedB) sau, dimpotriv, dac
cele dou variabile sunt independente (aadar nu exist asociere ntre modificrile imunitii
organismului i tipul de medicament).
Apare ns o problem suplimentar, deoarece bnuim c asocierea, dac exist, depinde
n mod esenial de vrsta organismului. Aadar, vom considera ca variabil de control
categoria de vrst (notat cu Z, avnd valorile Tnar, Adult, Btrn).
Avem aadar trei straturi, iar datele provenind din eantioane sunt urmtoarele:
Tnr
MedA
MedB
Adult
MedA
MedB
Btrn
MedA
MedB
Evoluia imunitii
CI
DI
17
8
11
15
Evoluia imunitii
CI
DI
59
27
55
48
Evoluia imunitii
CI
DI
21
13
11
10
187
n figura anterioar este prezentat organizarea calculelor necesare ntro foaie de calcul
Excel. Rezultatul final, valoarea p a afirmaiei
exist asociere ntre modificrile imunitii organismului i tipul de medicament
este obinut n celula I19. Concret, numrul 0.0082 este suficient de mic pentru a ne permite
respingerea ipotezei nule.
n continuare este prezentat rspunsul dat de EpiInfo n cadrul comenzii TABLES, mai
nti exemplificarea pentru un strat, apoi sumarul pentru cele trei straturi.
TIPM : REZ, STRAT=Adult
REZ
TIPM
CI
DI
TOTAL
MedA
Row %
Col %
59
68.6
51.8
27
31.4
36.0
86
100.0
45.5
MedB
Row %
Col %
55
53.4
48.2
48
46.6
64.0
103
100.0
54.5
TOTAL
Row %
Col %
114
60.3
100.0
75
39.7
100.0
189
100.0
100.0
Point Estimate
PARAMETERS: Odds-based
1.9071
1.0490
3.4670 (T)
1.9005
1.0467
3.4870 (M)
1.0073
3.6331 (F)
PARAMETERS: Risk-based
1.2848
1.0206
1.6173 (T)
15.2066
1.4580
28.9552 (T)
188
STATISTICAL TESTS
Chi square - uncorrected
Chi square - Mantel-Haenszel
Chi square - corrected (Yates)
Mid-p exact
Fisher exact
Chi-square
4.5279
4.5039
3.9149
1-tailed p
2-tailed p
0.033347973
0.033818255
0.047862308
0.017360730
0.023603184
Point Estimate
95%Confidence Interval
Lower
Upper
1.9159
1.1958,
3.0694 (T)
Crude OR (MLE)
1.9116
1.1940,
3.0763 (M)
1.1645,
3.1576 (F)
Adjusted OR (MH)
1.9538
1.2138,
3.1449 (R)
Adjusted OR (MLE)
1.9426
1.2095,
3.1380 (M)
1.1793,
3.2223 (F)
1.3032
1.0741,
1.5812
Adjusted RR (MH)
1.3122
1.0809,
1.5929
Chi-square
1-tailed p
2-tailed p
7.6223
0.0058
6.9804
0.0082
Mid-p exact
0.0029
Fisher exact
0.0040
In the following two tests, low p values suggest that ratios differ by stratum
Chi-square for differing Odds Ratios by stratum (interaction)
0.7198
0.6978
0.7937
0.6724
189
m(m + 1)
. Ar trebui s ne ateptm ca att T+ ct i T s fie
2
apropiate de
m(m + 1)
m(m + 1)
. Cu ct T+ difer mai mult de
, cu att ipoteza nul devine
4
4
mai implauzibil i drept urmare vom fi nclinai s acordm credit alternativei (Ha).
Calculul valorii p a ipotezei alternative se bazeaz pe faptul c statistica
T+ m(m + 1) / 4
m(m + 1)(2m + 1) / 24
este distribuit (cel puin pentru valori mari ale lui n) aproximativ normal standard.
Ca un exemplu, fie datele din foaia de calcul Excel prezentat n figura urmtoare.
Observm c dintre cele nou valori cinci sunt pozitive iar patru negative (nici una nu este
nul). Abstracie fcnd de semn, ordinea lor este urmtoarea:
0.4 < 0.5 < 0.6 < 1.9 = 1.9 < 2.1 < 3.5...
Dou dintre cele pozitive sunt egale ntre ele, n consecin rangurile lor vor fi ambele
egale cu
4+5
= 4.5 .
2
Efectul comenzii
MEANS valori semn
din Epi Info este prezentat n figura urmtoare. Valoarea p a ipotezei alternative, obinut cu
testul Wilcoxon, este de 0.0139, suficient de mic pentru a ne determina s o acceptm ca
adevrat.
191
Aadar, putem afirma c setul celor cinci valori pozitive difer semnificativ de setul
celor patru valori negative. (De menionat c dac am fi folosit testul t clasic, valoarea p ar fi
fost de 0.0042, de circa trei ori mai mic. ns putem fi siguri c sunt satisfcute toate
condiiile preliminare de normalitate necesare pentru aplicarea testului t?)
Reamintim c testul t (Student) poate fi folosit, n general, n situaii n care:
a)
dispunem de dou eantioane extrase din dou populaii,
b) valorile obinute de la indivizii din eantioane sunt numerice,
c)
dorim s stabilim c centrul (valorilor) primei populaii difer de centrul (valorilor)
celei de-a doua populaii, i
d) localizm centrul unei populaii n media sa.
ns centrul unei populaii poate fi localizat i n median, n condiiile n care suntem
interesai mai mult de ranguri i mai puin de valorile numerice ca atare.
Valori numerice obinute din eantioane (extrase din populaii) pot aprea nu doar prin
msurare, ci i prin transformri ale valorilor ordinale, n mod arbitrar.
Exemple:
hipo = +1, mediu = +2, hiper = +3;
= 3, = 2, = 1, + = 1, ++ = 2.
n asemenea situaii aplicarea testului t (Student) nu este justificat, ns nimic nu ne
mpiedic s aplicm teste neparametrice.
S presupunem c din prima populaie am extras setul de valori numerice x1 , x 2 ,..., x n1 iar
din a doua populaie am extras setul de valori numerice y1 , y 2 ,..., y n2 .
Conform ideii lui Wilcoxon, s ordonm cresctor valorile (reunite ale) celor dou seturi,
apoi fiecrei valori s-i atam rangul ei. (Evident, rangul se recalculeaz n situaii de
egalitate a unor valori.)
Notm cu T1 suma rangurilor obinute de cele n1 valori xi ce formeaz eantionul extras
din prima populaie. Analog, T2 va fi suma rangurilor obinute de cele n2 valori y j ce
formeaz eantionul extras din a doua populaie.
Ipoteza alternativ pe care am dori-o confirmat este urmtoarea
(Ha): distribuia valorilor x n prima populaie difer de distribuia valorilor y n a doua
populaie
iar confirmarea ei va avea loc prin respingerea ipotezei nule:
(H0): distribuia valorilor x n prima populaie coincide cu distribuia valorilor y n a
doua populaie.
n1 (n1 + 1)
n (n + 1)
i valoarea maxim n1n 2 + 1 1
.
2
2
Pe de alt parte, acceptnd adevrul ipotezei nule, ne ateptm ca suma de ranguri T1 s fie
n (n + n + 1)
egal cu 1 1 2
. Cu ct T1 se deprteaz de aceast valoare (spre extremele
2
n1 ( n1 + 1)
n (n + 1)
respectiv n1n 2 + 1 1
), cu att ipoteza nul devine mai puin plauzibil.
2
2
192
yj.
Numrul U XY are valori ntre 0 i n1n2 , iar n cazul adevrului ipotezei nule ne ateptm
ca el s fie egal cu
n1n2
nn
. Cu ct U XY se deprteaz de valoarea 1 2 , cu att ipoteza nul
2
2
n n + n1 (n1 + 1)
U XY = 1 2
T1
2
care leag numrul U XY (Mann-Whitney) de suma rangurilor T1 (Wilcoxon). Nu este de
mirare c n raportrile Epi Info (vezi figura de mai sus) rezultatele aplicrii celor dou teste
sunt prezentate mpreun.
Testul Kruskal-Wallis nu este altceva dect o generalizare a testului Wilcoxon pentru
cazul a mai mult de dou eantioane.
Ca exemplu, s considerm datele prezentate n articolul Factors influencing the rate of
healing of gastric ulcers admission to hospital, phenobarbitone, and ascorbic acid aprut n
Lancet, 1 (1952), pag. 171-175, autori R. Doll i F. Pygott. Este vorba despre schimbrile
procentuale n zona ulcerului gastric dup un tratament de trei luni.
Datele despre 32 pacieni internai i 32 de pacieni externi, ce exprim schimbrile
procentuale, ordonate n ordine cresctoare, sunt prezentate n tabelele urmtoare:
Tabelul pentru pacienii internai:
-100
-100
-100
-100
-100
-100
-90
-85
-83
-34
0
29
Tabelul pentru pacienii externi:
-100
-100
-81
62
-100
-93
-80
75
-100
-92
-78
106
-100
-100
-100
-100
-100
-93
-78
-75
-74
-72
-71
-66
-30
-29
-26
-20
-15
20
55
68
73
75
145
146
Prelucrarea datelor cu Epi Info a condus la urmtoarele rezultate:
-100
-91
-46
147
-89
-59
25
220
-100
-91
-40
1321
-80
-41
37
1044
TP
TP + FN
TN
TN + FP
este de aproximativ 70%, ntruct din 113 pacieni bolnavi 79 au testat pozitiv. Specificitatea
sa este mai ridicat, de aproximativ 94% (doar 13 indivizi din 217 sntoi au testat
pozitiv). Ce se poate deduce odat cunoscute toate aceste date? Informaia cea mai
important poart numele de valoarea predictiv pozitiv a testului, care prin definiie este
probabilitatea ca un individ ce testeaz pozitiv s aib maladia M. Este de fapt probabilitatea
unui eveniment condiionat, n notaii evidente P(M | S). Formula de calcul este simpl:
VPP =
prev Se
prev Se + (1 prev) (1 Sp)
(ea este un caz particular al clasicei formule a lui Bayes!). n cazul nostru, un calcul imediat
arat c VPP = 0.0038, o valoare destul de mic!
A doua informaie important poart numele de valoarea predictiv negativ a testului,
care prin definiie este probabilitatea ca un individ ce testeaz negativ s nu aib maladia M.
i aceasta este o probabilitate condiionat, anume P( M | S ).
n mod evident, atunci cnd dispunem de dou teste biologice cu rspuns binar (fie
pozitiv, fie negativ), pentru a le compara eficacitatea ar trebui s inem seam n primul rnd
de valorile predictive respective, apoi de considerente de costuri (economice i/sau sociale).
Mult mai interesant este cazul n care rezultatul testului biologic nu este binar (pozitiv/
negativ). Exist destule teste biologice care au ca rezultate numere reale. Acceptnd un prag
de separare ntre valorile pozitive i cele negative ale testului, reprezentarea grafic a
acestei situaii este cea din figura de mai jos.
Evident, am presupus c ambele populaii, i cea a celor ce au maladia M, i cea a celor ce
nu au maladia M, au anumite distribuii, reprezentate prin curbele densitilor.
O deplasare spre stnga a pragului, de la valoarea la valoarea ', va conduce la mai
puini indivizi false negatives, de asemenea la mai puini indivizi true negatives, dar la mai
muli indivizi true positives. n consecin, senzitivitatea va fi mai ridicat, dar specificitatea
va fi mai sczut.
Repartizarea teoretic a indivizilor n funcie de rezultatul numeric al unui test biologic
195
Pentru fiecare valoare a pragului de separare, vom obine aadar o pereche de valori
(Se, Sp) ce ar corespunde unui test cu rezultat binar (obinut din testul nostru biologic prin
fixarea pragului de separare la valoarea ). Se obinuiete ca perechile (Se, 1 Sp) s fie
reprezentate grafic ntro diagram numit curb ROC (iniialele de la receiver operating
characteristic).
Compararea a dou teste biologice cu rezultate numerice se va face prin compararea
curbelor ROC corespunztoare. n figura alturat exemplificm aceast situaie.
Curbe ROC corespunztoare unor teste biologice cu rezultate numerice
n general, evaluarea unui test biologic cu rezultate numerice se face prin evaluarea ariei
de dedesubtul curbei ROC corespunztoare. Valoarea 0.5 a acestei arii corespunde unui test
cu rezultate total ntmpltoare, iar valoarea 1 corespunde unui test perfect de identificare
a maladiei M.
196
198
198
202
204
197
Mesajele sunt combinaii de simboluri formate dup reguli cunoscute, bine specificate.
Simbolurile reprezint semnale particulare, iar semnalele sunt variaii ale strii unui obiect
(de obicei variaii n timp).
Pentru a nelege problema segmentrii, s lum ca exemplu variaia unui curent electric
reprezint
iar 0 reprezint
.
S nu rmnem cu impresia c variaiile de stare considerate trebuie s fie reprezentate
printrun mesaj regulat, iar cel de mai sus este cel mai lung posibil. Felul n care
reprezentm variaia de stare depinde de posibilitile noastre de a diviza timpul.
De obicei, prelevarea modificrii strii se face prin eantionare la momente de timp
echidistante, iar valorile obinute se codific.
01
Valori
codificate
prin:
00
11
10
Sunetele auzite de ctre oameni au drept cauze principale semnale auditive, adic
modificri rapide ale presiunii aerului n jurul presiunii atmosferice, care i ea are o
evoluie n timp, dar mult mai lent iar drept cauze secundare posibilele defecte ale
sistemului auditiv.
Caracterul analogic al variaiilor de presiune face ca acestea s nu poat fi prelucrate
direct cu ajutorul calculatoarelor, care opereaz doar cu date digitale (secvene de bii).
Pentru prelucrarea cu calculatorul a semnalului auditiv este necesar o conversie analogdigital preliminar, realizat de obicei cu ajutorul unui dispozitiv denumit placa de sunet
ce preia datele capturate de microfon.
Trebuie menionat de la nceput faptul c prin orice conversie analog-digital (A-D),
orict de precis ar fi, o parte a informaiei totale din semnalul auditiv se va pierde.
198
Aceast pierdere de informaie trebuie s fie, dac nu minimizat, mcar inut sub control,
aa nct ncercarea de a reface semnalul analogic din datele digitale s poat da rezultate
bune. Cu alte cuvinte, este de dorit ca informaia relevant medical s fie, pe ct posibil,
conservat integral.
Conversia analog-digital a unui semnal auditiv are loc n dou etape, identificate de
obicei ca:
1) Etapa de eantionare, urmat de
2) Etapa de cuantificare.
S ncercm o reprezentare grafic a ceea ce se ntmpl n aceste etape.
vor putea fi
2
regsite n urma prelucrrii. n schimb, cele de frecvene peste 2 vor fi repliate peste
componente de frecvene inferioare i nu va exista posibilitatea de a le identifica!
valori reale nu vor putea fi prelucrate cu calculatorul dect dup ce au fost aproximate cu
coduri binare adecvate.
S admitem c putem s asigurm fiecrei valori obinute prin eantionare un spaiu de n
bii pentru a putea fi stocat. Ca urmare, vom putea alege un numr N de nivele de
cuantificare care este o putere a lui 2, mai precis
N = 2n .
Aceste nivele vor fi repartizate (de obicei uniform) ntre valoarea (amplitudinea) maxim
Amax i cea minim Amin a semnalului. Exponentul n exprim astfel precizia cuantificrii. De
exemplu, pentru n = 7 vom dispune de N = 128 nivele diferite de cuantificare, adic de o
rezoluie de aproximativ 1/100 din plaja [Amin, Amax] a valorilor, pentru n = 10 vom dispune
de N = 1024 nivele diferite de cuantificare, adic de o rezoluie de aproximativ 1/1000 din
plaja [Amin, Amax] a valorilor, iar pentru n = 16 vom dispune de N = 65536 nivele diferite de
cuantificare. Pentru unele semnale biologice este suficient o rezoluie de aproximativ 8%
din plaja valorilor. Aceasta nseamn alegerea unui numr N = 16 (cea mai mic putere a lui
2 care depete pe 12.5 = 100%/8%), adic o precizie de 4 bii a cuantificrii.
Calitatea unei prelevri de semnal depinde aadar de numrul n de bii pe care-l rezervm
pentru fiecare valoare eantionat, de felul n care aproximm valorile eantionate prin
coduri (secvene de bii), dar i de nivelul zgomotului care se suprapune semnalului util.
Dac semnalele nu sunt eantionate la o frecven suficient de mare, iar amplitudinile nu
sunt prelevate suficient de precis, atunci prin conversia A-D vom avea o pierdere
semnificativ de informaie, semnalul va fi distorsionat. n figura urmtoare este prezentat un
exemplu.
200
Pentru cea mai mare parte a semnalelor biologice, o precizie a cuantificrii ntre 6 i 12
bii este suficient pentru evidenierea fenomenelor cercetate.
Tabelul urmtor conine domeniile de frecvene i de amplitudine, precizia cuantificrii
precum i spaiul necesar pentru stocare, pentru diferite tipuri de semnale biologice.
Spaiul
Domeniul
Precizia
Domeniul
necesar
Semnalul
frecvenelor
cuantificrii
amplitudinilor
(bii/s)
(Hz)
(bii)
EEG
0.2 - 50
600 V
4-6
Electrooculogram
0.2 - 15
10 mV
4-6
Electrocardiogram
0.15 - 150
10 mV
10 - 12
Electromiogram
20 - 8000
10 mV
4-8
Tensiunea arterial
0 - 60
400 mm Hg
8 - 10
Fonocardiogram
5 - 2000
80 dB
8 - 10
Und sonor
20 - 20000
96 dB
16
640000 (!)
Analiza semnalelor se face urmrindu-se:
evoluia n timp a amplitudinii, pe termen lung. n acest fel se determin, de
exemplu, energia semnalului auditiv i diverse durate dup care se evalueaz o
electrocardiogram;
depistarea componentelor de frecven ale semnalului, de obicei pe termen scurt. Se
obin de obicei grafice care sunt apoi comparate cu modele cunoscute, ntro procedur
de recunoatere a formelor (pattern recognition).
Foarte interesant poate fi spectrul de frecvene al unei unde. Acest spectru ne arat care
componente de frecven i cu ce intensitate sunt prezente ntrun semnal s(t). Spectrul de
frecvene poate fi calculat printro metod numit transformata Fourier i, cel puin teoretic,
poate fi folosit ca punct de plecare n proceduri de recunoatere a formelor.
Transformata Fourier nlocuiete astfel semnalul-und s(t) ce se manifest n timp, cu
spectrul su de frecvene S(f). n figura de mai jos este prezentat reprezentarea grafic n
timp a situaiei unei unde EEG, precum i spectrul su de frecvene (n care este reprezentat
doar puterea ce se asociaz fiecrei valori de frecven, de aceea se mai spune c este un
spectru de putere). Se poate observa n spectru un vrf aproximativ n dreptul frecvenei de
10 Hz determinat de aa-numitele unde alpha i un alt vrf n dreptul frecvenei de 50
Hz determinat, evident, de frecvena curentului electric standard.
Eliminarea anumitor frecvene din spectru cum ar fi cea de 50 Hz din exemplul anterior
se poate face prin filtrare cu diverse tipuri de filtre (trece jos, trece sus, trece band etc.).
Aceste filtre sunt sisteme artificiale care las s treac doar componentele de anumite
frecvene, celelalte fiind micorate pn la anulare.
Folosirea spectrelor de frecven pentru recunoatere este destul de bine exemplificat de
cazul deteciei fonemelor n vorbirea uman. Mai precis, n cazul unei vocale spectrul de
frecven aproximeaz funcia de transfer a tractului vocal (pregtit pentru pronunarea
acelei frecvene), care prezint un aspect tipic (a se vedea n figura urmtoare datele
vocalelor [a] i [i], preluate dup Laboratoarele Haskins). Poziiile frecvenelor ce corespund
vrfurilor n spectru poart numele de formani. Primii trei identific destul de clar vocala
pronunat, indiferent de persoana care o pronun.
201
Pe acest fapt se bazeaz i unele sintetizoare de voce uman, create pentru vocale ca
nite combinaii seriale de cte patru filtre trece-band, fiecare simulnd un formant. De
exemplu, pentru sintetizarea vocalei [o] se fixeaz frecvenele de rezonan la 570, 1030,
2730 i 3630 Hz, iar limile de band respective la 80, 55, 90 i 100 Hz.
n figura de mai sus obinut cu ajutorului softului Computerized Speech Lab sunt
marcate poziiile standard ale vocalelor limbii engleze. Se observ diferene de poziionare!
Pentru semnalele digitizate formate dintrun numr N = 2n de valori, Cooley i Tukey au
imaginat n anul 1954 o metod special de obinere a (unei aproximri a) spectrului de
frecvene. Metoda lor este cunoscut sub numele de transformata Fourier rapid (FFT = fast
Fourier transform) deoarece necesit un timp mult mai scurt de obinere a rezultatului dect
metodele clasice. FFT este implementat astzi n toate aplicaiile de prelucrare a
semnalelor biologice.
Metoda Cooley-Tukey are ca rezultat doar o aproximare a spectrului, producnd i unele
artefacte neplcute atunci cnd are loc o variaie brusc a frecvenelor. Pentru eliminarea
acestor artefacte, precum i pentru accelerarea obinerii componentelor importante ale
spectrului se obinuiete s se foloseasc tehnici de ponderare a valorilor semnalului. Cele
mai utilizate ponderi sunt cele Hamming, probabil universal implementate n softul de
analiz.
11.3. Prelucrarea imaginilor
Sunetele (ideale) pot fi reprezentate prin variaii de presiune n timp i descrise prin
funcii reale
t 6 S (t ) .
202
n mod analog, imaginile ideale pot fi descrise prin funcii de dou argumente
x, y 6 I ( x, y ) .
Calculatoarele sunt folosite n:
construirea imaginii din datele msurate;
mbuntirea calitii imaginii;
extragerea optim a unor trsturi particulare dintro imagine;
prezentarea imaginii pe ecran sau redarea ei pe film;
stocarea i regsirea imaginilor n bazele de date.
Prelucrarea computerizat a imaginilor impune:
discretizarea absciselor x i ordonatelor y, la un nivel comparabil cu puterea de
a)
rezoluie a ochiului uman, adic de peste 25 de puncte pe milimetru, ceea ce
nseamn peste 625 pixeli pe milimetrul ptrat. (n consecin o imagine de
dimensiuni 10 10 = 100 cm2 va fi format din peste 6.2 megapixeli.)
folosirea unui model de culoare care s permit descrierea distinct a unui numr de
b)
nuane suficient de mare. (Din acest punct de vedere, modelele pe 24 bii, care
permit distingerea ntre peste 16 milioane de nuane diferite, pare satisfctoare.)
Stocarea direct a informaiei brute coninut ntro imagine discretizat i cuantificat
(codificat) necesit aadar cantiti uriae de memorie, de ordinul zecilor de megaoctei.
Acesta este motivul principal pentru crearea mai multor algoritmi de compresie a imaginilor,
cu sau fr pierdere de informaie, capabili s reduc drastic cantitatea de memorie
necesar stocrii unei imagini.
Prelucrarea imaginilor presupune:
- transformri geometrice: translaii, rotaii, simetrii ...
- transformri de culoare, avnd ca scop extragerea trsturilor importante din
imagine,
- compresii/expandri, cu pstrarea a ct mai mult informaie relevant.
Sintagma prelucrarea digital de imagine se refer la:
a) achiziia imaginii,
b) reprezentarea digital i stocarea imaginii,
c) analiza i manipularea datelor obinute, n scopul mbuntirii calitii imaginii, dar
mai ales n scopul obinerii de informaii.
Evident, toate acestea sunt fcute cu ajutorul unor procesoare, a cror activitate ncearc
s imite vederea uman, care este poate cel mai dezvoltat sim.
Imaginile digitale sunt reprezentate matematic cu ajutorul funciilor bidimensionale
f ( x, y ) ; mai precis, pentru fiecare punct dat de coordonate ( x, y ) , valoarea funciei este de
fapt asociat culorii punctului respectiv. n acest fel, destul de multe rezultate aplicabile
funciilor-semnal obinuite pot fi adaptate i utilizate pentru imagini digitale. Fizica i
matematica joac un rol important n rezolvarea problemelor de prelucrare digital i
computer vision, ncepnd chiar cu nelegerea modului de achiziie a imaginii (deci n
achiziia de informaie vizual), continund cu nelegerea operaiilor de transformare a
informaiilor n mesaje utilizabile de ctre dispozitivele de prelucrare. Destul de multe
metode de prelucrare de imagine i computer vision se bazeaz pe statistic, optimizare i
geometrie; identificarea obiectelor fiind doar unul din multele exemple n acest sens.
Primele sisteme de achiziie de imagini aparatele fotografice dateaz din secolul al
XIX-lea. ncepnd din anii 60 i pn n prezent domeniul prelucrrii digitale a imaginii a
cunoscut o dezvoltare rapid, dezvoltarea spectaculoas a tehnicii de calcul oferind
posibilitatea achiziionrii de imagini din domeniul micro i macroscopic n condiiile cele
mai diverse, precum posibilitatea efecturii de operaii complexe n timp real. Aria de
203
utilizare s-a extins de la aplicaii medicale i spaiale la mai toate domeniile economiei i
vieii curente, de la industria fotografic la automatizarea proceselor de producie,
microbiologie, tehnic militar, dar i supravegherea traficului i pn la recunoaterea
automat a produselor n supermarket.
Dup gradul de complexitate putem mpri procedeele i algoritmii din prelucrarea
digital de imagine n trei mari clase:
a) clasa algoritmilor de nivel sczut (low-level algorithms), n care se ncadreaz toate
tehnicile destinate n principal mbuntirii calitii imaginii (prin reducerea zgomotului
sau mbuntirea contrastului);
b) clasa metodelor de procesare de nivel mediu (mid-level processing), metode care
presupun segmentarea/partiionarea n zone de interes sau n obiecte, apoi descrierea
obiectelor i recunoaterea lor, i
c) clasa metodelor de procesare de nivel nalt (high-level processing), metode care
presupun extragerea de informaii n urma analizarii imaginii i obiectelor recunoscute,
apoi efectuarea de sarcini cognitive, asociate cu computer vision.
Computer vision este o extindere a prelucrrii digitale de imagine ctre aplicaii i
probleme rezolvabile eminamente n spaiul tridimensional. Cteva dintre principalele sarcini
ale computer vision sunt:
Recunoaterea obiectelor. Aceast problem nu a fost dect parial rezolvat, pn
n prezent, i anume pentru cazul obiectelor geometrice simple, fizionomiilor umane,
vehiculelor auto, textelor scrise, dar n situaii bine stabilite de iluminare i fundal.
Urmrirea i controlul micrilor unui obiect, vehicul sau persoan.
Reconstrucia scenelor tridimensionale din seturi de imagini bidimensionale.
Construirea sistemelor de computer vision.
Multe dintre procedeele i metodele utilizate n prelucrarea digital de imagine sunt parte
integrant a unor sisteme de computer vision, fiind adaptate i dezvoltate n funcie de
aplicaia concret din care fac parte.
n tehnic, spre deosebire de medicin, obiectele cu care se lucreaz sunt structuri bine
conturate, relativ simple, care permit modelare matematic i aplicarea unor metode standard
de mbuntire a imaginii sau detectare de contur. Unul dintre principalele obiective ale
prelucrrii digitale de imagine n industrie este acela de a crete autonomia utilajelor
(robotizate) pn la funcionare independent, care s nlocuiasc componenta uman.
Aceasta, chiar dac este posibil, nu este de dorit n domeniul medical, acolo unde
calculatorul are doar rolul de a asista medicul n activitatea de diagnosticare i tratare a
pacienilor.
Trecem rapid peste cele mai importante aplicaii industriale sau sociale:
supravegherea i dirijarea computerizat a proceselor de producie
controlul calitii obiectelor produse
citirea, recunoaterea i interpretarea automat de coduri (cel mai cunoscut exemplu
este cel al codurilor de bare pentru identificarea produselor)
supravegherea i reglarea traficului rutier
11.4. Imagistica medical
abordare specific dat fiind cerinele acestui domeniu special care este medicina. Majoritatea
aplicaiilor sunt interactive, presupunnd intervenie uman permanent peste efortul de
calcul. n medicin rolul sistemelor de calcul este n principal acela de asistent al medicului.
Dac iniial scopul imagisticii medicale era cel de a permite medicilor vizualizarea
interiorului corpului uman iar interesul primar era cel de a mbunti calitatea imaginilor
obinute, n ultimii anii au fost dezvoltate cu ajutorul calculatoarelor o serie de aplicaii care
au ca scop asistarea medicului att n procesul de stabilire a diagnosticului, ct i n procesul
de pregtire a interveniei chirurgicale sau chiar a execuiei acesteia.
Problemele prelucrrii digitale de imagine de tip medical pot fi clasificate n trei mari
categorii:
filtrare (ceea ce presupune preprocesarea datelor nainte de analiz),
segmentare (ceea ce nseamn partiionarea imaginii n regiuni contigue cu proprieti
specifice),
identificare (inclusiv poziionarea obiectelor/organelor).
Iar printre numeroasele aplicaii ale prelucrrii digitale de imagine de tip medical se
afl:
redarea/vizualizarea, adic transformarea datelor bidimensionale sau tridimensionale,
obinute prin diferite sisteme de achiziie, n imagini care pot fi ulterior studiate i
prelucrate;
alctuirea de atlase ale organelor, printre care cele mai interesante i relevante sunt
cele ale creierului uman;
segmentarea imaginii, pentru identificarea tumorilor i studierea organelor;
planificarea radioterapiei sau a interveniei operaionale astfel nct riscurile i
efectele secundare pentru organele din jur s fie minimizate;
asistarea de ctre roboi a interveniilor chirurgicale (domeniu aflat nc n faza de
cercetare).
Majoritatea aplicaiilor medicale au la baz imagini achiziionate direct de la pacient.
Imaginile obinute prin tehnicile de achiziie existente sunt alterate de zgomot (inerent atunci
cnd folosim tehnici digitale!) sau de defeciuni ce pot aprea n timpul achiziiei datorate
poziionrii incorecte sau micrii pacientului. Metodele de eliminare a zgomotului sunt de
interes, mai ales n faza de preprocesare imagistic.
Coninutul informaional al imaginilor medicale variaz destul de mult n funcie de
sistemul de achiziie de imagine utilizat. O prim etap n imagistica medical const n
selectarea sistemului de achiziie potrivit scopului urmrit. n acest scop sunt necesare
cunotine despre modul n care funcioneaz diversele sisteme de achiziie i despre
calitatea imaginilor obinute prin intermediul acestora. n funcie de aceste cunotine se pot
apoi selecta i metodele adecvate de procesare a imaginii i de extragere de informaii utile.
S descriem pe scurt cele mai utilizate tehnici de achiziie a imaginilor n domeniul
medical.
(1) Ecografele aparate cu ultrasunete obin imagini emind semnale acustice de
frecven nalt (ultrasunete). Sonda ecografic are drept component principal un cristal
piezoelectric, care sub aciunea ultrasunetelor dezvolt sarcini electrice de semne contrare pe
feele lui opuse (deci o tensiune electric alternativ), dar i invers, la aplicarea unei tensiuni
alternative de o anumit frecven, emite ultrasunete. Astfel, cristalul poate fi utilizat att ca
emitor ct i ca detector de ultrasunete. Ultrasunetele emise sunt trimise asupra zonei de
investigat. Ele sunt reflectate de ctre suprafeele organelor i captate de ctre dispozitivul
ecografic de achiziie a datelor. Imaginile obinute sunt felii bidimensionale de forma unui
sector de disc, ce reprezint zona din organism aflat sub dispozitivul de achiziie.
205
Imagine ecografic
Avantajele ecografelor sunt obinerea n timp real a imaginilor i costurile relativ sczute
ale echipamentului. ns imaginile obinute sunt perturbate de zgomot semnificativ, ceea ce
ngreuneaz detectarea structurilor/organelor. Este destul de dificil obinerea de informaii
spaiale, n prezent fiind studiate diverse posibiliti de obinere a unor imagini
tridimensionale cu ajutorul ecografelor.
(2) Efectul Doppler se refer la modificarea frecvenei semnalului recepionat fa de
frecvena semnalului emis, atunci cnd sursa i receptorul se afl n micare relativ. Prin
ecografie Doppler se poate studia curgerea sngelui prin vase, viteza de curgere fiind
determin n funcie de modificarea frecvenei semnalului receptat fa de frecvena
semnalului emis.
(3) Cel mai cunoscut dispozitiv de achiziie a imaginilor medicale tridimensionale este
tomograful computerizat cu raze X. Acesta este un scaner de dimensiuni mari, care se
bazeaz pe utilizarea razelor X emise de un tub care care se deplaseaz circular n jurul
pacientului ntins pe un pat. Detectoarele de raze X sunt montate opus fa de emitor, astfel
nct s capteze razele X emise, dup trecerea lor prin corpul pacientului. n urma fiecrei
rotaii a tubului emitor se obine o imagine bidimensional, seciune a corpului pacientului.
Tomografele moderne permit achiziia n spiral a imaginilor, astfel timpul de expunere a
pacientului la raze X scade. Informaia tridimensional se obine prin reconstrucie pe baza
imaginilor bidimensionale achiziionate.
Noiunea de rezoluie a imaginilor tridimensionale obinute se exprim n voxeli (care
este unitatea tridimensional elementar, analoag pixelului bidimensional. Cu tomografele
obinuite se obin secvene de imagini bidimensionale coninnd proiecia a 512512 voxeli,
iar n direcie longitudinal spaierea ntre imaginile consecutive este de aproximativ 1 mm.
(n direcie transaxial dimensiunea unui voxel poate lua valori de la 0.5 mm la 2 mm).
Din cauza discretizrii, imaginile obinute prin tomografia computerizat conin artefacte,
cu care utilizatorul-medic trebuie s se familiarizeze, pentru a da o interpretare corect a
imaginilor.
206
Tomograf computerizat
Imaginile obinute prin tomograf redau bine structurile osoase dar nu sunt utilizabile
pentru vizualizarea esuturilor moi.
(4) Scanarea prin rezonan magnetic este mai recent. (La cuvntul nuclear s-a
renunat din cauza conotaiilor negative.). Scanerul RM este de dimensiuni mari cu o
adncime de circa 2 metri i conine un magnet de dimensiuni mari, un transmitor i un
receptor de microunde. Momentelor magnetice ale atomilor de hidrogen ai pacientului se
aliniaz dup direcia magnetului scanerului, iar microundele emise de ctre corpul
pacientului sunt capturate, amplificate i transformate n secvene de imagini.
Imaginile obinute folosind scanerul RM sunt asemntoare cu cele obinute prin
tomografia computerizat. esuturile rezoneaz n mod diferit la microunde, permind
discriminarea lor, n imagini aprnd redate n special esuturile moi. Un avantaj deosebit
pentru imagistic, fa de tomografia computerizat cu raze X const n faptul c nu sunt
obinute doar imagini transaxiale, cu scanerul RM se pot obine imagini bidimendionale
orientate perpendicular pe orice direcie.
n general pentru o direcie dat se obin cu scanerul RM n jur de 50 de imagini
bidimensionale cu rezoluia de 256256 pixeli, distanate ntre ele cu 2 pn la 10 mm.
Cu ajutorul imaginilor obinute cu scanere RM s-au alctuit atlase ale creierului uman.
Imagine obinut prin rezonan magnetic
(6) n cazul imaginilor generate prin emisie de pozitroni (PET), tehnologia este mai
complex; substanele injectate emit pozitroni care, la ntlnirea unui electron, dau natere la
doi fotoni gamma care se deplaseaz n sens opus, acetia fiind captai de senzor. Cu aceast
tehnic se obin 10-30 de imagini transaxiale, distanate la 5-10 mm una de alta, destul de
grosiere (pixeli de dimensiune 5-10 mm); ele permit studierea activitii fiziologice a
organismului.
Imagine obinut prin emisie de pozitroni
Segmentarea nseamn partiionarea unei imagini sau a unui set de imagini n regiuni
contigue, ale cror elemente (pixeli, respectiv voxeli) sunt caracterizate prin anumite
proprieti comune. Aceasta este o etap premergtoare detectrii/identificrii i clasificrii
obiectelor n analiza imaginii.
Segmentarea imaginii este fundamental pentru detectarea i recunoaterea de obiecte.
Pentru imagini complexe acest proces este destul de dificil, iar perturbaiile i zgomotul din
imagine pot influena mult rezultatul!
Algoritmii de segmentare se bazeaz n general pe dou proprieti ale pixelilor:
discontinuitatea i similitudinea. n primul caz segmentarea se face pe baza modificrii
brute a valorilor de culoare, deci pe baza detectrii de contururi, iar n al doilea caz pe baza
similitudinii valorilor de culoare, prin selectarea suprafeelor care au pixeli similari relativ la
un anumit criteriu.
Dei exist numeroi algoritmi de detectare de contur, utiliznd filtre trece jos, problema
segmentrii nu este rezolvat n mod satisfctor pentru orice tip de imagine. Imaginile
medicale, prin natura lor i prin sistemele de achiziie utilizate care induc nivele apreciabile
de zgomot, sunt un exemplu de imagini n care detectarea de contur este nc n dezvoltare,
cutndu-se pentru diferite aplicaii algoritmi mai eficieni, robuti la zgomot sau la detalii
neinteresante.
Exist i metode interactive de detectare de contur i separare de obiecte, care se bazeaz
pe trasarea manual a unui contur iniial, n interiorul zonei/obiectului care trebuie
segmentat, dup care acest contur este extins de ctre algoritm, pn cnd se suprapune peste
conturul efectiv al obiectului.
Imagine n tonuri de gri care trebuie segmentat
Reprezentare topografic
209
Fiecare fiier-imagine conine, n afara datelor ce descriu imaginea propriu-zis (ce poate
fi comprimat JPEG sau necomprimat), destul de multe aa-numite meta-date: numele
pacientului, sexul, data naterii, spitalul, numele medicului, data i momentul prelevrii
imaginii, poziia fizic a imaginii etc. (vezi figura urmtoare).
210
Specificul acestui soft l constituie apariia unor bare de instrumente n lateral i n partea
inferioar a ferestrei (vezi figura), cu posibilitatea de a alege comenzi uzuale altfel dect din
meniuri. De asemenea, exist posibilitatea adaptrii n limba romn a textelor afiate, ele
fiind controlate ntrun fiier de configurare denumit custom.ini. (Limba originar este
germana.)
Un alt exemplu de soft de imagistic l constituie eFilm, creat de Merge Technologies
Inc. Baza sa de date este constituit din aceleai fiiere create n standardul DICOM.
211
212
213
216
217
220
223
celula 0
celula 1
celula 2
celula 3
obiect 0
obiect 1
obiect 2
obiect 3
+
+ 2
+ 3
Celulele tabloului sunt pregtite pentru a fi stocate n ele obiecte similare iar numrul
maxim al celulelor trebuie s fie declarat la construirea tabloului i nu mai poate fi modificat
ulterior. Celulele sunt identificate, evident, cu ajutorul unui index care ia valorile 0, 1, 2, 3,
i aa mai departe.
Principalele metode ale unei clase Array sunt cele de stocare n celule i regsire de
obiecte din celule, prin intermediul indexului. Aceste metode sunt identificate de obicei
astfel:
void setElement(int index,Object value)
Object getElement(int index)
aceasta returneaz indexul primei celule n care se afl stocat obiectul object. (Eventual
returneaz 1 dac n tablou nu exist stocat un asemenea obiect.)
boolean find(Object object)
aceasta returneaz true dac i numai dac obiectul object este gsit ntro celul a
tabloului.
boolean insert(Object object)
insereaz obiectul object n prima celul liber a tabloului (dac aceasta nu exist,
returneaz false; n caz contrar, returneaz true).
boolean delete(Object object)
dac exist obiectul object ntro celul a tabloului, l elimin i returneaz true.
Coninutul celulelor urmtoare este deplasat, ca n figura urmtoare.
213
object
Pentru a regsi un obiect depus ntro celul a tabloului nu avem alt posibilitate dect cea
de a explora, una dup alta, celulele tabloului. Avem ansa s regsim obiectul n chiar prima
celul, ns avem i ansa de a-l regsim exact n ultima! n medie, regsirea unui obiect
n +1
oarecare necesit
comparri, unde n este umrul de celule ocupate ale tabloului.
2
S facem observaia c obiectele ce sunt stocate n celulele tabloului sunt secvene de bii.
Toate pot fi considerate de aceeai lungime, adic avnd acelai numr de bii. Ordinea
lexicografic ne asigur c oricare dou asemenea obiecte (considerate ca secvene de bii)
pot fi comparate ntre ele. Ar fi foarte economic ca obiectele din celulele tabloului s nu fi
fost stocate n dezordine, ci n ordine cresctoare. ntro asemenea situaie regsirea unui
obiect se va putea face prin cutare binar, care va necesita doar log 2 n + 1 comparri.
(Pentru tabele de circa 2000 de celule ocupate, va fi nevoie de doar 11 comparri, i nu de
1000. Iar pentru tabele n care sunt circa 1 milion de celule ocupate, n doar 20-21 de
comparri vom regsi obiectul.)
Aadar, pentru a asigura o regsire eficace a datelor stocate n tabele, ele trebuie depuse n
ordine. Din pcate, nu ntotdeauna depunerea datelor poate fi fcut ordonat.
O alt aspect destul de important, care restricioneaz folosirea tablourilor, este faptul c
dimensiunea lor este fixat din momentul crerii. n caz c tabloul se va dovedi supradimensionat, vom rezerva degeaba o cantitate de memorie care nu va fi folosit. Iar n caz c
dimensiunea estimat iniial se va dovedi insuficient, va aprea un blocaj care nu va putea fi
deblocat dect prin declararea altui tablou, de dimensiune mai mare, urmat de transferul
datelor.
Spre deosebire de tablou, structura de list este mult mai flexibil. Lista nlnuit poate fi
utilizat ca substitut al tabloului, oferind mecanisme extrem de eficiente.
Componentele unei liste nlnuite nu mai sunt celule (contigue) avnd aceeai lungime;
dimpotriv, sunt elemente mai complexe, numite noduri. Un nod poate fi definit simplu, ca
pereche format dintrun obiect-coninut i un pointer (indicator). Pointerul indic spre
adresa ncepnd de la care este stocat nodul urmtor al listei.
content
Valorile pointerilor sunt aadar adrese (cu o singur excepie, valoarea special null).
Descrierea formal a unei liste:
Class List
{ Node first;
List()
{ first = null;
}
...
}
Operatorul new este implementat n aa fel nct se exploreaz mai nti memoria
neocupat, n cutarea unui spaiu de memorare suficient. Odat acesta gsit, acolo se va
plasa noul nod.
nod nou
coninut
componente existente
n +1
cutri, ceea ce
2
nseamn c aceste dou operaiuni sunt lente, neeficiente. Aadar, listele au avantajul c
exploateaz eficient memoria i permit inserarea rapid de noi elemente. Dezavantajele sunt
ns majore: regsirea datelor din liste, precum i eliminarea de noduri devenite inutile, sunt
operaiuni lente.
n listele definite anterior ca obiecte ale clasei List nu apare nici o restricie privind
ordinea de stocare/reinere a datelor (mai precis, datele sunt memorate n ordinea
temporal a apariiei lor). ns, n multe situaii este extrem de util ca datele s fie reinute
ntro ordine specificat.
n listele sortate componentele sunt plasate n ordinea cresctoare a valorilor unei chei.
Aceasta face ca eliminarea celei mai mici componente s fie foarte rapid. Inserarea unei
componente noi devine neeficient, ntruct trebuie s i se caute poziia.
Mai eficient este o soluie de compromis, ce const n folosirea unei liste sortate doar ca
auxiliar, n care se preiau componentele unui tablou nesortat i din care componentele se
depun, sortate, ntrun alt tablou.
O alt structur de date des utilizat este cea de list dublu nlnuit. Nodurile ei au, n
plus, un pointer suplimentar a crui valoare este adresa la care este depus nodul anterior.
Astfel, trecerea de la un nod la altul se poate face n ambele direcii.
215
Pentru a combina avantajele oferite de tablouri cu cele oferite de liste au fost imaginate
alte tipuri de structuri de date. Dintre acestea, vom prezenta arborii binari, care prezint
avantajul inserrii rapide, dar i pe cel al cutrii rapide.
Arborii binari sunt alctuii i ei din noduri. De data aceasta un nod nu mai este o pereche,
ci o triplet (coninut, pointer spre nodul fiu stng, pointer spre nodul fiu drept).
Evident, nodul n cauz este printe pentru cele dou noduri fiu.
Construcia efectiv a unui arbore binar ncepe prin utilizarea unei metode-constructor, de
exemplu astfel:
BinaryTree tree = new BinaryTree();
Aceasta nu nseamn altceva dect declararea unui nod rdcin (deocamdat fr nici
un fiu).
Cea mai important operaiune ce se poate efectua asupra unui arbore binar este cea de
traversare. Ea const n vizitarea sistematic a nodurilor, efectundu-se cu aceast ocazie
aciuni asupra coninuturilor.
Exist mai multe feluri de traversare, depinznd de ordinea n care sunt procesate
elementele componente ale tripletei unui nod vizitat. Iat dou dintre acestea:
1) acioneaz asupra coninutului,
viziteaz fiul din stnga,
viziteaz fiul din dreapta;
2) viziteaz fiul din stnga,
acioneaz asupra coninutului,
viziteaz fiul din dreapta.
216
statistica
156
informatica
514
medic
Alte cteva structuri de date: stiva (stack), coada (queue), movila (heap), arborele bicolor.
12.3. Arbori de decizie
Medicii fac parte dintre acei oameni care iau un numr mare de decizii, iar deciziile pe
care le iau, ca urmare a consultrii pacienilor, sunt uneori foarte rapide i nu ntotdeauna au
justificri evidente, solid fundamentate. n alte profesii umane procesele de luare a
deciziilor au fost analizate i formalizate, iar alegerea deciziei optime ntro situaie dat a
fost implementat n soft. n domeniul medical situaiile ntlnite sunt mult mai complexe,
nc suntem departe de a spune c dispunem de soft care ofer decizia optim; deocamdat
ne aflm n faza de analizare a deciziilor.
Atunci cnd urmrim s lum o decizie optim trebuie s ne punem problema identificrii
criteriului de optimizare. n economie situaiile par simple: minimizm costuri de producie,
cheltuieli de transport sau de stocare, maximizm profitul etc. Folosirea simultan a mai
multor criterii de optimizare conduce la complicaii matematice considerabile, de aceea este
de preferat identificarea unui singur criteriu de optimizare.
217
Care s fie acesta, n medicin? Evident, el depinde de nivelul la care se afl decidentul.
Un medic ce ocup funcia de director de spital va alege un alt criteriu de optimizare dect
medicul aflat n gard
Poate c este cazul s privim situaia din punctul de vedere al pacientului. La sfritul
tratamentului la care a fost supus, ca urmare a relaiei sale cu domeniul medical reprezentat
de unul sau mai muli medici dup ce toate deciziile medicale au fost luate, pacientul se va
afla ntro anumit stare de sntate. Evident, ar fi de dorit ca starea sa de sntate s fie
catalogat drept bun i pacientul s fie vindecat complet. tim ns c situaia nu este
ntotdeauna aa, c pot aprea complicaii mai mult sau mai puin grave, c exist ansa unor
tratamente ineficace sau chiar duntoare.
Rezultatele posibile ale tratamentului, anume vindecare complet, vindecare parial,
, deces sunt evident discrete. Teoria deciziei necesit ns ca variabila ce servete drept
criteriu de optimizare s ia valori continue, de aceea se impune adoptarea unei variabile
continue care s reflecte rezultatul posibil al tratamentului aplicat asupra unui pacient.
Utilitatea poate fi considerat a fi o asemenea variabil continu. Cu toate c, instinctiv,
ne dm seama despre ce este vorba, definiia ei nu este ns evident!
Teoria deciziei are ca instrument principal de lucru arborele de decizie. Un arbore de
decizie este un graf special, cunoscut sub numele de arbore orientat bicolor. De fapt, ntrun
arbore de decizie distingem noduri de trei tipuri:
a) noduri de decizie , care reprezint posibilitile decidentului (n cazul pacientului,
diversele examinri sau tratamente pe care le prescrie medicul);
b) noduri ale hazardului , care reprezint diversele evenimente aleatoare, ce nu se afl
sub controlul decidentului (n cazul pacientului, rezultatele examinrilor, efectul terapiilor);
c) noduri rezultat, care reprezint diversele situaii finale, crora li se asociaz cte o
utilitate (apreciat aprioric de ctre un pacient generic).
ntrun arbore de decizie, pe fiecare drum posibil nodurile de decizie i cele ale hazardului
alterneaz, iar nodurile rezultat sunt exact nodurile terminale, adic frunzele. Ct despre
muchiile-sgei, ele reprezint consecinele n timp. Cele care ies din nodurile hazardului
corespund realizrii evenimentelor aleatoare (i sunt nsoite de probabilitile respective),
iar cele care ies din nodurile de decizie corespund deciziilor ce pot fi luate.
S considerm, pentru ilustrarea conceptelor, dou exemple simple de arbori de decizie.
1) Prima problem pe care o vom aborda din punctul de vedere al pacientului este
urmtoarea: trebuie s tratm sau nu o grip obinuit cu antibiotice i, n caz afirmativ,
trebuie s o tratm imediat ce se declaneaz sau dup dou zile din momentul declanrii?
Arborele de decizie este prezentat n figura urmtoare.
Rdcina arborelui este un nod de decizie, pacientul putnd decide s trateze imediat
gripa, s atepte dou zile, sau s neglijeze tratamentul. Fiecare decizie posibil a sa este
urmat de un nod al hazardului; n majoritate situaiile posibile sunt vindecare i
complicaii, iar n arbore sunt trecute i probabilitile estimate ale acestor situaii. Decizia
de ateptare 2 zile este urmat de alternativa vindecare/nu, iar a doua posibilitate este
urmat de un alt nod de decizie, pacientul putnd decide s trateze sau s neglijeze gripa.
Arborele are un numr de 9 frunze, fiecreia corespunzndu-i cte o utilitate. S
observm c pacientul nostru apreciaz vindecarea spontan prin neglijarea tratamentului
ca avnd utilitatea maxim, iar utilitatea minimal (negativ!) corespunde situaiei
complicaii dup tratarea imediat.
Fiecrui eveniment aleator i se ataeaz probabilitatea sa; mai precis, este vorba despre
probabilitatea evenimentului, condiionat de situaia concret n care se afl pacientul.
Probabilitile se estimeaz conform metodelor standard de estimare; de exemplu, se tie
c procentul de vindecri spontane dup dou zile de la declanarea gripei este de circa 30%,
iar dup un tratament se ridic la 95%.
218
Medicul va putea lua acele decizii care conduc la utilitatea maxim. S considerm
probabilitile i utilitile trecute n figur:
Pentru fiecare nod intern, de la care pleac dou ramuri de probabiliti p1 respectiv p2
spre noduri avnd utilitile U1 resp. U2, utilitatea U se va calcula ca medie ponderat:
U = p1 U1 + p2 U2
Calculele arat c a doua alternativ are o utilitate mai mare.
Deseori ns nu este recomandat folosirea utilitii medii, ci strategii de maximizare a
utilitii combinate cu minimizarea riscurilor.
12.4. Reprezentarea cunotinelor
Este dificil s definim ce nseamn cunotinele. O ntreag ramur a tiinei, epistemologia, are ca obiect de studiu natura, structura, originea cunotinelor.
Reprezentarea cunotinelor din diversele domenii de activitate uman constituie obiectul
mai multor tiine, att clasice ct i moderne. Dezvoltarea informaticii a impus aceast
activitate ca parte principal a Inteligenei Artificiale.
Cea mai mare parte a cunotinelor medicale sunt de tip a posteriori, adic sunt deduse
cu ajutorul simurilor noastre; gradul lor de adevr poate fi stabilit sau modificat ca urmare a
experienei personale.
Noiunea de cunotin poate fi neleas n contextul umtoarei ierarhii de termeni:
1. Variaii de stare (ale unui obiect)
2. Date
3. Informaii
4. Cunotine
5. Meta-cunotine.
Ca exemplu, s considerm un cablu n care variaz parametrii unui curent electric iar
variaiile sunt convertite la o extremitate n secvena de cifre binare 00001101 01010100
01000001 01010011 00100000 00111001 00110000 00101011 00000000 00001111. Am
trecut astfel de la nivelul 1 la nivelul 2. S presupunem acum c dispunem de urmtoarea
cunotin: trebuie s grupm cifrele cte opt, s interpretm grupele ca semne (caractere)
conform alfabetului ASCII. Aceast cunotin ne permite s interpretm datele i s
extragem din ele esena TAS 90+, care prin interpretare devine informaia: tensiunea
arterial sistolic este peste 90. Am trecut astfel de la nivelul 2 la nivelul 3.
n general, se consider c datele i informaiile sunt fapte.
Oamenii posed cunotine care le permit s separe, n variaiile de stare ale corpurilor,
datele eseniale de zgomot. Informaiile sunt date interpretate. Cunotinele sunt dobndite
(n mod experimental, sau prin transmitere). Unele cunotine speciale ne permit s
transformm datele n informaii.
220
antecedent
premis
condiie
THEN
consecin
concluzie
aciune
(n logic)
(n practic)
Antecedentul poate fi multiplu, adic format din mai multe elemente conectate ntre ele
prin AND sau OR. Consecina poate fi, de asemenea, multipl. Elementele componente
sunt de obicei fapte.
Structura unui fapt este foarte simpl: n el intervine o variabil (ce reprezint o
caracteristic a unui obiect oarecare), o valoare posibil a acestei variabile i un operator ce
leag variabila de valoarea ei.
Toate acestea pot fi exprimate formal cu ajutorul predicatelor, astfel
operator(variabil, valoare)
sau ntro form uman astfel
variabil operator valoare.
Marea majoritate a variabilelor folosite n medicin au valori vagi (NALT, RIDICAT,
ANORMAL). Exist destule probleme n a programa un calculator n aa fel nct s opereze
cu valori vagi, dar aceasta nu este deloc imposibil!
Despre operatorii ce leag variabilele de valori putem spune c sunt de tip matematic
=, <, etc.
sau de tip lingvistic
este, are etc.
Regulile de producie pot exprima: simple relaii, recomandri de urmat, ordine de
executat, strategii de cutare, euristici dobndite ca urmare a experienei din trecut.
Regulile de producie pot avea, aa cum am precizat anterior, exprimri destul de
complexe. Iat dou exemple:
Atunci cnd pacientul are concentraia troponinei crescut semnificativ i are electrocardiograma anormal, este probabil ca s fi suferit un infarct miocardic.
221
Dac pacientul are durere n piept i/sau angin stabil, dar concentraiile troponinei,
creatin-fosfazei i CK-MB sunt normale, este probabil ca s nu fi suferit un infarct
miocardic.
Ar trebui s le recunoatem datorit apariiei cuvintelor dac, atunci (eventual
subnelese).
Primele sisteme expert medicale, create acum mai bine de trei decenii este cazul s
menionm ca exemplu MYCIN au utilizat ca limbaj de reprezentare a cunotinelor
regulile de producie. Orice regul de producie din MYCIN are forma
dac (condiii), atunci (concluzie) cu credibilitatea (sau factorul de certitudine)
Factorul de certitudine ine locul probabilitii din exemplele de mai sus.
Se pare, dup experiena acumulat pn n prezent, c principalul dezavantaj al
sistemelor de reguli de producie (sisteme expert sau sisteme de suport a deciziei
medicale), ca limbaje de reprezentare a cunotinelor, este lipsa de eficien in tratarea
cunotinelor incerte i/sau imprecise.
Un alt tip de reprezentare a cunotinelor l constituie reelele semantice. Reelele
semantice sunt fundamentate pe intuiia c memoria uman const dintrun numr mare de
conexiuni i asociaii ntre diverse informaii pariale nmagazinate n interior. De fapt, din
punct de vedere strict matematic, reelele semantice nu sunt altceva dect grafuri
orientate (i etichetate). Nodurile unui astfel de graf reprezint obiecte, reale sau abstracte.
Arcele (sgeile, legturile) sunt utilizate pentru a exprima relaii ntre obiecte.
Cele mai des folosite legturi n reelele semantice sunt exprimate prin sintagmele:
este_un, nsemnnd este o instan a, adic apartenena la o clas, i
este_un_fel_de, nsemnnd subordonarea ntre o clas i o super-clas.
Ca exemplu tipic, virus H5N1, grip aviar, sindrom sunt noduri (clase), iar
poate_cauza este un arc ce pleac din virus H5N1 i ajunge n grip aviar (eventual
n sindrom). Interpretrile uzuale ale arcelor sunt urmtoarele: este_o_parte_a,
este_proprietate_a, trateaz, determin etc. De obicei arcele apar n perechi, de
exemplu trateaz i este_tratat_de, determin i este_determinat_de.
Utilizarea n medicin a limbajelor care se bazeaz pe reele semantice este obstrucionat
de complexitatea enorm a reprezentrilor grafice legate de situaiile reale.
Atunci cnd ntlnesc o situaie complet nou, pentru a o reprezenta oamenii adapteaz
cea mai apropiat schem pe care o gsesc n memoria lor. Adaptarea are loc prin
comparare cu prototipurile existente, iar descrierea unui univers de cunotine se precizez
pe msur ce crete experiena pe care o avem n acest univers. Pentru reprezentarea
cunotinelor umane Minsky a propus utilizarea cadrelor (frames), adic a unor abstracii
prin care obiectele sunt clasificate dup proprietile lor generale, cele mai importante
proprieti fiind luate n considerare cu prioritate. Cadrele constituie una dintre modalitile
de implementare a prototipurilor. Dac utilizm cadre putem raiona fr s ne mpiedicm
de detalii irelevante.
Pentru a da o definiie general, vom admite c un cadru este un grup de fante (slots) i
de valori care umplu aceste fante (fillers). Fiecare fant are propriul su tip. Tipurile
sunt extrem de diverse, ntre tipul clasic boolean pn la tipul cadru nsui.
Trebuie subliniat faptul c fiecare fant este umplut, nc de la crearea unui cadru, cu o
valoare implicit (default value). Fantele pot fi umplute oricnd, eventual n ordinea
importanei sau relevanei, prin nlocuirea valorii implicite cu una semnificativ. Este
posibil de asemenea ca valoarea s fie motenit de la un alt cadru.
Utilizarea cadrelor n scopul reprezentrii cunotinelor necesit funcionarea a dou
procese: primul, ghidat de problem, permite modificarea valorii unei fante-atribut; cel de-al
doilea proces este ghidat de ctre datele concrete i efectueaz activitile cerute de aceste
date.
222
THEN
AND
AND
223
i iat cum apare concret o regul asemntoare n limbajul primitiv, ne-evoluat, n care a
fost creat MYCIN:
($AND (SAME CNTXT GRAM GRAMPOS)
(SAME CNTXT MORPH COCCUS)
(SAME CNTXT CONFORM CLUMPS))
(CONCLUDE CNTXT TALLY STAPHYLOCOCCUS TALLY 700)
i s ncheiem prin a preciza c n limbajele actuale descrierea regulilor este mult mai
comod.
Specificul cunotinelor medicale este gradul de incertitudine (certainty factor) ce
nsoete faptele, cunotinele, ba chiar i regulile de raionament, iar n implementarea
raionamentelor este necesar i implementarea unor reguli de calcul cu aceste grade de
incertitudine. Un exemplu istoric este dat de aa-numita algebr Stanford care a fost
implementat pentru prima dat n MYCIN.
224
225
p1
E2
p2
...
...
Conform lui Shannon, aceast cantitate de informaie va reflecta surpriza pe care o vom
resimi la primirea mesajului. Intuitiv, dac am estimat a priori c apariia evenimentului E
este aproape sigur, cu alte cuvinte am estimat c P( E ) este apropiat de 1, nu vom fi prea
surprini de coninutul mesajului. Dimpotriv, dac am estimat o valoare mic, apropiat de
0, a lui P( E ) , atunci surpriza noastr la apariia mesajului va fi mare, i cu att mai mare cu
ct valoarea p = P( E ) a fost mai mic.
S notm cu J ( E ) cantitatea de informaie existent n mesajul
a aprut evenimentul E
i s admitem c surpriza pe care o resimim la primirea mesajului nu depinde de coninut,
ci numai de probabilitatea a priori P( E ) . Aceasta nseamn c putem echivala
J ( E ) = I ( p) = I (P( E ))
Cazul cel mai simplu este cel al unui experiment de tip alternativ echiprobabil
(reprezentat de aruncarea unei monede subiri, perfect omogene i simetrice). Rezultatul
experimentului este rezumat n tabelul
H T
1 1 .
2 2
Cantitatea de informaie J ( H ) existent n mesajul
n urma aruncrii monedei a aprut deasupra faa H
poate fi aleas ca unitate de msur pentru cantitile de informaie. Notaia uzual pentru
aceast unitate de msur este de bit.
Aadar,
J (H ) = I
( ) = 1 (bit).
1
2
1
p
n figura urmtoare prezentm graficul funciei lui Shannon.
I ( p) = log 2
227
S considerm acum toate mesajele ce sunt posibile a aprea, care s ne anune rezultatul
unui experiment viitor. Cantitatea de informaie coninut n mesajul
a aprut evenimentul Ei
1
, unde pi este estimarea fcut acum
este, conform celor stabilite anterior, I ( pi ) = log 2
pi
asupra probabiltii de apariie a evenimentului Ei .
Ce se poate spune acum despre ansamblul acestor mesaje? Care este cantitatea de
informaie coninut n mesajul care ne va anuna rezultatul experimentului? Evident, aceasta
este rezumat n tabelul cu dou linii
1
1
log 2
...
log 2
p1
p2
p
...
1
2
log 2
... log 2
log 2
p1
p2
pK
p
p2
pK
...
1
Compresia datelor este posibil deoarece datele obinute din lumea real sunt
redundante. Redundana R a unui mesaj este definit, n teoria informaiei, ca abatere a
entropiei sale fa de entropia maxim
R = N log 2 K N H ( p1 , p 2 ,..., p K ) .
Este evident c transmisia unui mesaj cu redundan mic cu toate c pare economic
nu este recomandat: orice perturbaie care afecteaz transmisia mesajului pe canalul de
comunicaie ar putea provoca imposibilitatea nelegerii sale de ctre destinatar.
Acelai argument este valabil i n ceea ce privete stocarea datelor pe termen lung.
Este motivul principal pentru care, de exemplu, stocarea unui bit de date pe suprafaa unui
disc compact se efectueaz destul de redundant, pe 3 poziii consecutive i nu pe una!
A1.3. Codificarea Huffman
Codificarea Huffman este o metod de reprezentare a literelor unui alfabet obinuit prin
cuvinte de lungime diferit formate cu bii.
Aceast metod poate fi folosit pentru compresia unui mesaj exprimat ca o secven de
litere ale alfabetului. Metoda exploateaz puternic frecvenele de apariie ale literelor n
mesaj sau, n lipsa acestora, estimri ale lor.
Este binecunoscut faptul c n limbile naturale exist diferene mari ntre frecvenele de
apariie ale diverselor litere. Astfel, de exemplu, n toate limbile europene vorbite cea mai
frecvent este litera [e]; ea este folosit cu o frecven de aproximativ 13%. Instinctul ne
spune c, pentru a economisi spaiu de stocare i/sau de timp de transmisie, litera [e] ar
trebui s fie codificat printro secven scurt de bii.
Aceasta este ideea care st la baza codificrii Huffman. Pentru a o preciza, s considerm
c dorim s transmitem un mesaj lung
M = l1l 2 ...l N
format din litere ale alfabetului A, alfabet care are K litere
A = {a1 , a 2 ,..., a K }
i c tim frecvenele de apariie ale acestor litere n mesaj, fie acestea respectiv
F1 , F2 ,..., FK .
Evident, F1 + F2 + ... + FK = N deoarece nu folosim alte litere!
S presupunem c vom codifica fiecare liter ak din alfabet printro secven specific de
exact Lk bii, dup care vom folosi aceasta pentru a codifica mesajul M ca o secven de
bii. Numrul acestor bii, adic lungimea mesajului codificat C, se obine cu uurin
F1 L1 + F2 L2 + ... + FK LK .
Se pune problema alegerii unei codificri care s asigure o lungime minim a mesajului
codificat C i s permit, de asemenea, o decodificare lipsit de orice posibil eroare sau
confuzie.
Huffman a demonstrat c lungimea minim nu poate fi mai mic dect entropia
mesajului, dat de
F
F
N F2
N
N
H = 1 log 2
+
log 2
+ ... + K log 2
.
N
F1 N
F2
N
FK
n esen, metoda lui Huffman ncearc s creeze un arbore binar, ale crui noduri
frunze, nemarcate, sunt exact literele alfabetului A, mpreun cu frecvenele lor. La fiecare
nou etap cele dou noduri nemarcate care au frecvenele minime vor fi marcate i unite
ntrun nod nou nemarcat, a crui frecven se va obine prin nsumare. Construcia se oprete
229
odat cu crearea nodului rdcin. Arborele creat permite recodificarea fiecrei litere prin
drumul urmat de la rdcin pn la acea liter. Convenional, ramificaiile spre stnga pot fi
codificare cu 0, iar cele spre dreapta cu 1.
S considerm, de exemplu, mesajul
prepararea_raportului
Un calcul al frecvenelor de apariie a literelor arat urmtoarele date iniiale:
Litera
Frecvena
e
2
i
1
l
1
_
1
o
1
p
3
r
5
t
1
u
2
a
4
l
1
e
2
_
1
o
1
t
1
u
2
p
3
a
4
r
5
12
21
Folosind acest arbore vom recodifica fiecare liter dup ramificaiile drumului de la
rdcin:
i
l
0
_
1
o
0
u
0
p
0
a
0
r
0
0
root
Litera
Codul
Litera
Codul
a
111
p
011
e
000
r
10
i
0010
t
1100
l
0011
u
1101
o
0101
_
0100
iar mesajul va fi codificat, ca secven de bii, astfel:
01110000011111101111000011101001011101101011011001101001111010010
Pentru a-l decodifica, s folosim tabloul invers de coduri:
Codul
Litera
Codul
Litera
000
e
011
p
0010
i
10
r
0011
l
1100
t
0100
_
1101
u
0101
o
111
a
i s observm c 011 identific fr dubii pe p, apoi 10 identific pe r .a.m.d.
S facem observaia c orice modificare a vreunui bit este catastrofal pentru
decodificare, fcnd imposibil recuperarea mesajului iniial.
A1.4. Alte metode de compresie a datelor
Vom trece n revist cteva metode de compresie a datelor. S ncepem cu metoda RLE
(iniialele de la run-length encoding), care este poate cea mai simpl procedur de compresie
de date. Ea poate fi folosit cu succes atunci cnd gradul de repetabilitate al datelor (adic
redundana) este mare, aa cum este cazul imaginilor n alb-negru.
De exemplu, secvena de 30 de bii
000001111000000011100001111111
poate fi recodificat n secvena de 24 de bii
101010011110011110001111
care trebuie interpretat astfel: 5 bii consecutivi 0, urmai de 4 bii consecutivi 1, apoi de 7
bii consecutivi 0 .a.m.d.:
101 0 100 1 111 0 011 1 100 0 111 1
(5)
(4)
(7)
(3)
(4)
(7)
O variant a acestei metode este folosit n crearea coninutului fiierelor grafice PCX n
care se stocheaz imagini standard alb-negru.
Pentru a da un exemplu, s considerm doar rnduri consecutive ale unei imagini, cu
pixelii organizai n octei. n mod normal, al doilea rnd prezint puine modificri fa de
primul. Prin recodificarea sa, primul octet va indica prin valori 1 care octei din rndul al
doilea au suferit modificri fa de octeii corespunztori din rndul anterior. (n exemplul de
mai jos acetia sunt octeii 2, 3 i 7.) Dup el urmeaz imediat cei 3 octei care au suferit
modificri .a.m.d..
1
10
11
...
Rndul 1
Rndul 2
original
Rndul 2
recodificat
01100010
10100000
231
Ca observaie general, este posibil ca n urma aplicrii metodelor de tip RLE, n anumite
situaii s nu obinem o micorare a spaiului de memorare ocupat, ci dimpotriv!
Metoda LZW (iniialele numelor autorilor, Lempel Abraham, Ziv Jacob, Welch Terry)
este o procedur uzual de compresie a textelor, dar i imaginilor digitale.
Principiul metodei este simplu: se trateaz coninutul original ca o secven de simboluri
(de obicei de 12 bii) ncercndu-se codificarea subsecvenelor pe msur ce ele sunt
identificate (de obicei n semne de 8 bii) Alfabetul de semne se extinde prin introducerea de
noi semne care reprezint subsecvenele nou ntlnite, crendu-se o tabel de compresie, care
se completeaz n etape. La fiecare nou etap se preia prima subsecven care nu se
regsete n tabel; ea trebuie s fie de forma
Ss
unde S este o subsecven ce se regsete deja n tabel, iar s este simbolul urmtor. Aceast
subsecven Ss va fi nlocuit prin semnul urmtor al alfabetului, iar nlocuirea va fi
nregistrat n tabela de compresie.
Ca exemplu, s aplicm algoritmul LZW secvenei de 21 de simboluri (atenie, spaiul
alb este i el unul, l vom nota prin _ !)
prepararea_raportului
ntocmim, n etape succesive, tabela de conversie urmtoare:
Etapa
subsecvena
semnul
Etapa
subsecvena
semnul
1
p
8
_
A
H
2
r
9
B
Ep (rap)
I
3
e
10
o
C
J
4
11
Aa (pa)
D
Bt (rt)
K
5
12
u
Ba (ra)
E
L
6
13
l
Be (re)
F
M
7
a
14
G
Li (ui)
N
Ca urmare a recodificrii, vom obine secvena de 14 semne:
AB C D E FG H I J K L MN
(p)(r)(e)(pa)(ra)(re)(a)(_)(rap)(o)(rt)(u)(l)(ui)
(Atenie, exemplul anterior este artificial i incorect: algoritmul se aplic unor simboluri
care nu sunt caractere pe 8 bii!)
Implementri ale metodei sunt folosite n crearea coninutului fiierelor-imagine GIF,
precum i a fiierelor-document portabil create cu aplicaia Acrobat a firmei Adobe.
A1.5. Transmisia sigur a datelor
Odat ce cheia K este cunoscut de ctre prietenul nostru, el va putea recupera informaia
originar efectund aceeai operaiune, cci M xor K = I . (Cu alte cuvinte, decriptarea se
efectueaz cu exact aceeai procedur ca i criptarea.)
Din nefericire, vom fi nevoii s-i comunicm prietenului, anterior trimiterii mesajului,
cheia K. n codiiile n care comunicaiile ne-au fost interceptate, este clar c decriptarea
mesajului este la ndemna celor ce ne supravegheaz comunicaiile.
Ar exista oare posibilitatea ca s trimitem prietenului, n clar, suficiente informaii pentru
ca s putem comunica ulterior fr a ne teme de succesul interceptrii? Rspunsul este
afirmativ, iar una dintre posibiliti poart numele de criptarea cu chei publice. S-i facem
o prezentare, la ndemna oricui are cunotine despre operaiile aritmetice modulo p.
Metoda criptrii cu chei publice se bazeaz pe o proprietate elementar a numerelor prime
p: exist numere g cu proprietatea c puterile g , g 2 , g 3 , g 4 ,..., g p 1 sunt toate diferite ntre
ele modulo p. Cu alte cuvinte, primele p 1 puteri ale generatorului p acoper (modulo p)
toate numerele ntre 1 i p 1 (inclusiv).
De exemplu, pentru p = 7 numrul g = 3 este generator, ntruct
g = 3, g 2 2, g 3 6, g 4 4, g 5 5 i g 6 1 (mod 7) ,
233
234
235
236
240
243
244
246
Experiena jocurilor, cum este cel de ah, arat c performana uman apare dup o
perioad, mai lung sau mai scurt, de nvare. Pentru a putea aciona uman la nivel
performant, calculatoarele trebuie s fie capabile i ele s nvee. Se poate nva din
experien personal, prin exemple, prin analogie. n general, procesele de nvare includ
mecanisme simple de adaptare, iar aceste mecanisme constituie fundamentul sistemelor
adaptive mai complexe. n cazul calculatoarelor, n prezent cele mai utilizate mecanisme de
adaptare sunt reelele neurale i algoritmii genetici. Vom aborda n cele ce urmeaz doar
reelele neurale.
O reea neural poate fi definit, evident, ca model de raionament abstract bazat pe
ceea ce tim despre creierul uman. Se tie c acesta const din celule nervoase (neuroni)
interconectate. Numrul acestor celule este imens, de circa 10 miliarde; de asemenea,
numrul conexiunilor (sinapselor) este de peste 50 de mii de miliarde, iar unele celule
nervoase au chiar n jur de o sut de mii de conexiuni cu alte celule.
Fiecare neuron n parte are o structur anatomic destul de simpl: un corp central
(soma), un numr de fire (dendrite) ce converg spre soma, un unic fir lung (axonul) conectat
prin sinapse la dendritele altor neuroni. Funciunea principal a neuronului este cea de
colectare, prelucrare i diseminare de semnale electrice.
Funcionarea creierului uman se bazeaz pe semnalele electrice care se propag de la un
neuron la altul prin reacii electrochimice complexe ce au loc n vecintatea sinapselor.
Reaciile electrochimice produc schimbri n potenialul electric al celulei nervoase, iar
atunci cnd este depit un anumit prag, este produs i se transmite de-a lungul axonului un
puls ce modific starea electric a sinapselor.
Se tie de asemenea c neuronii pot forma conexiuni noi, i c ntregi sub-reele de
neuroni pot migra. Toate acestea constituie fundamentul proceselor de nvare ce au loc n
creierul uman. Ca o concluzie general, creierul uman poate fi considerat ca un sistem
(neliniar) de prelucrare paralel a informaiei, avnd o nalt complexitate.
Prin analogie, n reelele neurale informaia va fi distribuit n ntreaga reea i va fi
prelucrat n paralel. Conexiunile ntre componentele reelei au ponderi ce variaz n timp;
cele ce conduc spre rspunsul corect se vor ntri, iar cele care conduc spre rspunsuri
greite se vor atrofia. n acest fel reelele neurale dobndesc capacitatea de a nva prin
experiene.
Cele mai cunoscute aplicaii ale reelelor neurale se regsesc n problemele de
recunoatere a formelor: identificarea scrisului de mn, recunoaterea cuvintelor n acustica
digital etc. Astzi ele sunt folosite n extragerea informaiei tipice din cantiti mari de date
(data mining) dovedindu-se uneori mai bune dect experii umani.
O reea neural const dintrun numr (relativ mare, dar foarte mic comparativ cu cel al
celulelor nervoase din creierul uman) de elemente de procesare simple, ns puternic interconectate ntre ele. Legturile ntre elementele de prelucrare sunt uni-direcionale i
ponderate, ele permind transmiterea ponderat a semnalelor de la un element de prelucrare
la altul. Fiecare element de prelucrare primete un numr (mare) de semnale de intrare prin
conexiunile sale. El nu produce dect un singur semnal de ieire, care este dirijat spre
exterior prin axon; totui, acesta din urm se separ n multe ramuri prin care semnalul
(unic) de ieire este direcionat spre alte elemente de prelucrare. n tabelul urmtor se
prezint analogia ntre reelele neuronale biologice i reelele neurale artificiale:
Reele
biologice:
Reele
artificiale:
Neuron
Soma
Dendrit
Axon
Sinaps
Element de
prelucrare
Neuron
Intrare
(input)
Ieire
(output)
Pondere
235
iar n figura urmtoare este reprezentat o reea neural simpl, ale crei elemente de
prelucrare sunt plasate pe trei straturi:
Este destul de uor de explicat modul n care nva o reea neural. Am precizat
anterior c fiecrei conexiuni (orientate) ntre dou elemente de prelucrare (se prefer
aceast denumire celei de neuron, pentru a nu se face confuzii cu creierele animalelor) i se
ataeaz o pondere numeric, a crei valoare exprim importana semnalului ce circul pe
acea conexiune. O reea neural va nva prin modificarea repetat a ponderilor
conexiunilor. Informaia se stocheaz de fapt n ponderile conexiunilor dintre elementele
de prelucrare. O reprezentare adecvat a informaiei stocate ntro reea neural este
urmtoarea (n care intensitile ponderilor sunt prezentate prin culori):
1
pentru
wi xi
i =1
Y =
n
0 pentru w x <
i i
i =1
sau
Y = step wi xi
i =1
funcia real pas (step, vezi figura urmtoare) fiind descris n mod evident de formula
1 pentru x 0
.
step( x) =
0 pentru x < 0
Nu este deloc natural presupunerea c semnalul de ieire este sau nul sau constant.
Dimpotriv, experimentele efectuate cu celule nervoase reale arat c rspunsul crete odat
cu valoarea de activare, dar pn la un nivel de blocare. Un model matematic simplu al
acestei comportri este funcia sigmoidal (numit i funcia logistic), avnd expresia
Y = sigmoid(a) =
1
1 + exp(a)
S presupunem c sarcina acestui element de prelucrare este cea de a separa punctele din
clasa A de punctele din clasa B (din planul x1x2 vezi figura urmtoare).
tim c
w1 x1 + w2 x 2 = 0
este ecuaia unei drepte n plan, iar parametrii w1 , w2 i determin aceast dreapt.
Dreapta separ planul n dou semiplane; pentru unul dintre acestea, de exemplu pentru cel
haurat din figur, vom avea
w1 x1 + w2 x 2 < 0
ceea ce corespunde unei valori de ieire Y = 0.
Dimpotriv, pentru toate punctele (x1, x2) din cellalt semiplan vom avea
w1 x1 + w2 x 2 0
ceea ce corespunde unei valori de ieire Y = 1. (Am admis implicit c limitarea este dat de
funcia step.)
Elementul de prelucrare ar putea s separe clasele A i B dac valoarea de ieire ar fi 1
pentru toate punctele clasei A i 0 pentru toate punctele clasei B, ceea ce nu este cazul n
figur! Dar prin modificarea parametrilor w1 i w2 se pot obine diverse modificri ale
orientrii dreptei. Este evident c elementul de prelucrare i va ndeplini sarcina n caz c
dreapta de separare va avea o poziie ca i cea din figura urmtoare.
Rspunsul este simplu. Dac vom considera punctele claselor A i B, atunci vom constata
c pentru fiecare punct P = (x1, x2) avem o valoare dorit de ieire Yd(P) egal cu 1 dac
punctul P aparine clasei A, respectiv egal cu 0 dac punctul P aparine clasei B.
Pe de alt parte, pentru valorile date ale parametrilor w1 i w2, putem calcula rspunsul
Y(P) al elementului de prelucrare:
Y (P) = step( w1 x1 + w2 x 2 ) .
n caz c valoarea calculat Y(P) coincide cu valoarea dorit Yd(P), elementul de
prelucrare funcioneaz perfect i nu avem motive s efectum vreo corecie. n caz contrar,
s exprimm eroarea de funcionare
e(P) = Yd (P) Y (P) .
Dac aceast eroare este pozitiv, se impune creterea valorii de ieire Y(P). Aceasta are
loc prin modificarea ponderilor, dup o regul propus de ctre Rosenblatt (n 1960), numit
regula delta:
winou = wivechi + xi e(P) .
unde este o constant pozitiv subunitar, numit rata de nvare.
S exprimm algoritmul de nvare pentru elementele de prelucrare ce au ca sarcin
clasificri:
Pasul 1 (iniializarea). Se alege constanta (de exemplu, 0.5). Se alege pragul . Se
stabilesc, prin tragere la sori n intervalul [0.5, 0.5], ponderile iniiale w1, w2.
Pasul 2 (calculul nivelului de activare i al semnalului de ieire). Se alege un punct
P = (x1, x2) i, pentru acesta, se calculeaz valoarea de ieire corespunztoare
Y (P) = step( w1 x1 + w2 x 2 )
apoi eroarea corespunztoare
e(P) = Yd (P) Y (P) .
n caz c pentru toate punctele de control P s-a obinut e(P) = 0, algoritmul se ncheie (i
odat cu el etapa de nvare). n caz contrar, se continu cu:
Pasul 3 (modificarea ponderilor). Se calculeaz coreciile ponderilor, cu formula
wi = xi e(P)
apoi ponderile wi sunt nlocuite cu wi + wi . Se reia cu pasul 2.
Se poate stabili cu uurin c un element de prelucrare simplu, cu dou intrri, poate fi
antrenat rapid pentru a emula rspunsul funciilor logice AND i OR descrise de:
x1
x2
x1 AND x2
x1 OR x2
0
0
0
0
0
1
0
1
1
0
0
1
1
1
1
1
fundamentale pentru logica clasic. n general, se poate stabili c datorit formulei liniare de
calcul a nivelului de activare, un element de prelucrare poate fi antrenat pentru a efectua o
activitate de clasificare doar n cazul n care punctele celor dou clase sunt separate liniar.
Nu va putea fi antrenat niciodat pentru a separa clase de tipul celor din figura urmtoare.
Doar reelele cu mai muli neuroni vor putea face acest lucru.
239
Fiecare strat dintrun perceptron multi-strat i are rolul su. Stratul de intrare este format
din elemente de prelucrare de tip senzor care doar accept semnale de intrare dinspre
exterior i le redistribuie tuturor neuronilor de pe primul strat intermediar. (Cu alte
cuvinte, neuronii de pe stratul de intrare nu efectueaz nici un fel de calcule cu semnalele
de intrare; de aceea reprezentarea lor grafic difer de a celorlali.)
De fapt, neuronii de pe straturile intermediare detecteaz trsturile caracteristice ale
semnalului de intrare. Aceste trsturi caracteristice vor fi exploatate de neuronii de pe
stratul de ieire pentru a determina clasarea semnalului. Neuronii de pe straturile
intermediare sunt numii ascuni deoarece rspunsul lor nu poate fi detectat prin studierea
comportrii reelei fa de intrri i ieiri.
Cel mai cunoscut algoritm de nvare pentru perceptroni multi-strat este metoda cu
propagarea spre napoi a erorilor (error back-propagation). Principiul de baz al nvrii
este acelai: perceptronului multi-strat i se prezint un ansamblu de antrenament, constnd
dintrun numr de semnale de intrare clasificate. Perceptronul calculeaz, pentru fiecare
semnal de intrare din setul de antrenament, cte un semnal de ieire care este comparat cu
clasificarea dorit; n cazul apariiei unor erori de clasificare vor fi ajustate ponderile, n
scopul reducerii erorii totale de clasificare.
Erorile de clasificare sunt constatate analiznd rezultatele neuronilor de pe stratul de
ieire. Prin metoda propagrii spre napoi, din acestea se vor deduce i erorile de funcionare
ale neuronilor de pe stratul intermediar. i acestea din urm vor fi folosite n formulele de
ajustare a ponderilor.
S precizm formulele de calcul pentru un caz simplu, anume cel n care exist doar un
singur strat intermediar, presupunnd c funcia de activare este sigmoidal.
S presupunem c neuronii de pe stratul de intrare sunt identificai prin numerele 1, 2,
i, , I, cei de pe stratul de ieire sunt identificai prin 1, 2, , o, , O, iar cei de pe stratul
intermediar sunt identificai prin 1, 2, , h, , H.
Dup cum am precizat anterior, semnalele de intrare X1, X2, , Xi, , XI constituie exact
ieirile neuronilor din stratul de intrare. Notm cu wih(1) ponderea legturii dintre neuronul i
de pe stratul de intrare i neuronul h de pe stratul intermediar.
La intrarea n neuronul h de pe stratul intermediar se prezint semnalul Xi provenit de la
neuronul i de pe stratul de intrare. Acest semnal va fi nmulit cu ponderea wih(1) . Prin urmare,
neuronul h va calcula mai nti activarea
I
Ah = wih X i h
(1)
i =1
Z h = sigmoid( Ah ) .
Cunoatem aadar semnalele de ieire Z1, Z2, , Zh, , ZH cale neuronilor de pe stratul
intermediar. La intrarea n neuronul o de pe stratul de ieire se prezint semnalul Zh provenit
( 2)
. Prin
de la neuronul h de pe stratul intermediar. Acest semnal va fi nmulit cu ponderea who
urmare, neuronul o va calcula mai nti activarea
H
(2)
Ao = who
Zh o
h =1
e h = who eo dersigmoid( Ao ) .
(2)
o =1
241
(T
o =1
Yo ) 2 .
Formulele de modificare a ponderilor, prezentate mai sus, au acel aspect tocmai datorit
unor raionamente matematice care au ca scop minimizarea acestei erori globale de
funcionare.
Pentru a fi precii pn la capt, s admitem c dorim ca perceptronul s clasifice ct mai
corect un numr de S seturi de antrenament, fiecare constnd dintrun ansamblu de semnale
de intrare i un ansamblu de semnale-int de ieire
X 1s , X 2s ,..., X is ,..., X Is , T1s , T2s ,..., Tos ,..., TOs (s {1, 2,. , S})
Etapa de nvare a perceptronului va consta din mai multe epoci, n fiecare epoc fiind
tratate toate cele S seturi de antrenament evident, prin modificarea ponderilor conform
formulelor de mai sus urmrindu-se minimizarea erorii globale
S
s =1
o =1
E = ( (Tos Yos ) 2 )
n figura de mai sus este prezentat, n scar logaritmic, evoluia tipic a erorii globale
de antrenare a unui perceptron, ca funcie de numrul de epoci parcurse.
Etapa de nvare poate fi considerat ncheiat atunci cnd eroarea global a sczut sub
un nivel acceptat ca foarte mic.
La pasul 1 al algoritmului de mai sus se specific faptul c valorile iniiale ale ponderilor
sunt alese n mod aleator. Aceasta determin faptul c, n urma etapei de nvare, pot fi
obinute valori diverse ale ponderilor. n general exist muli perceptroni care rezolv
problema de clasificare dorit!
242
Reelele neurale de tip perceptron multi-strat sunt folosite pentru clasificri automate, fr
intervenia omului. Ele sunt nvate s clasifice pe baza unui set de antrenament; n etapa
preliminar, anterioar funcionrii efective, sunt antrenate s clasifice corect un numr dat
de configuraii.
Reamintim c nvarea const n modificri iterative ale valorilor ponderilor legturilor
dintre elementele de prelucrare, urmrindu-se micorarea erorii globale de rspuns, pe ct
posibil sub un nivel de toleran admis.
Dar ce se intmpl dac n urma unui numr foarte mare de iteraii efectuate eroarea
global nu scade deloc sub nivelul de toleran? Evident, un perceptron reglat n acest fel nu
este capabil s clasifice corect nici mcar configuraiile din setul de antrenament; el este
inutilizabil.
Ce soluii se ntrevd n asemenea situaii? Un rspuns ne este dat de teoria evoluiei
speciilor.
Mai precis, perceptronul va fi considerat ca un individ al speciei perceptronilor,
identificat de un genotip particular. I se va ataa un indicator de performan legat de
eroarea global de rspuns asociat. n cadrul unui aa-numit algoritm genetic, vor fi creai,
n generaii succesive, perceptroni din ce n ce mai performani, care vor nocui pe cei mai
puin performani.
Figura urmtoare arat cum se creaz genotipul unui perceptron: se iau n considerare, n
ordine, legturile dintre elementele de prelucrare, iar ponderile lor se codific binar.
Principala proprietate a unei reele neurale este capacitatea de a-i mbunti performana
prin nvare, Pn acum am considerat doar cazuri de reele care nva din seturi de
antrenament, ceea ce corespunde nvrii umane sub supravegherea unui profesor.
Vom prezenta n continuare cazuri de reele neurale care, pentru a nva s funcioneze
corect, nu au nevoie de un profesor extern. n timpul etapei de nvare reelele neurale cu
auto-organizare analizeaz seturile de date pe care le primesc, descoper trsturile
principale ale acestor date, nva cum s clasifice datele n grupe (clase) coerente. Acest tip
de nvare tinde s reproduc modul n care funcioneaz creierul uman.
Reelele neurale cu auto-nvare sunt foarte eficiente atunci cnd au de-a face cu date
care se schimb brusc sau neateptat.
Vom considera dou tipuri de asemenea reele, anume cele care folosesc nvarea
hebbian i cele care folosesc nvarea competitiv, aa-numitele reele Kohonen.
Una dintre metodele fundamentale folosite n nvarea biologic a fost propus n anul
1949 de ctre Hebb i este cunoscut sub numele de legea lui Hebb:
dac neuronul i este capabil s excite neuronul j i dac particip n mod repetat la activarea
acestuia, atunci legtura sinaptic ntre cei doi neuroni este ntrit, iar neuronul j devine mai
senzitiv la stimulii venii dinspre neuronul i.
Legea lui Hebb ofer fundamentul pentru nvarea hebbian fr profesor. Anume,
dac Xi este valoarea de ieire a neuronului i iar Yj este valoarea de ieire a neuronului j,
atunci modificarea ponderii wij a legturii ntre neuronul i i neuronul j are loc dup o
formul:
wij = F (Y j , X i )
unde F este o funcie de activitile pre-sinaptice i post-sinaptice.
Cea mai simpl expresie a acestei funcii este regula produsului activrilor
wij = Y j X i
n care este o constant pozitiv ce exprim rata de nvare a reelei.
Exist i alte expresii utilizate n ncercrile de construire de reele concrete, de exemplu
urmtoarea, n care se ine seam de un coeficient de uitare (care exprim rata de
uitare a reelei)
wij = Y j X i Y j wij .
244
Se poate observa c un neuron de pe stratul de ieire are nivelul maxim de activare; el este
aa-numitul neuron ctigtor. Neuronii din vecintatea sa au nivele de activare ce depind de
distana pn la el. Aceast situaie este general n reelele Kohonen.
n general, nvarea unei reele Kohonen ncepe prin considerarea unei vecinti destul
de ntinse a neuronului ctigtor. Pe msur ce se desfoar procesul de nvare, aceast
vecintate se restrnge.
ntro reea Kohonen general exist, aa cum am specificat mai sus n cazul particular
prezentat n figur, dou tipuri de conexiuni:
a) spre nainte, ce leag neuronii stratului de intrare de toi neuronii stratului de ieire,
b) laterale, ce leag neuroni din stratul de ieire.
n figura urmtoare prezentm un exemplu simplu, cu doar patru neuroni pe stratul de
ieire.
Regula de nvare competitiv a lui Haykin (1994) definete variaia ponderii legturii
sinaptice ntre neuronul i i neuronul ctigtor k prin formula
wik = ( X i wik ) .
Restul ponderilor rmn nemodificate. Evident, rata de nvare este un parametru cu
valori ntre 0 i 1.
nvarea ntro reea Kohonen const aadar n trecerea unor conexiuni laterale din stare
inactiv (cu pondere nul) n stare activ (cu pondere nenul). Modificrile de ponderi au loc
de regul doar pentru neuronii i aflai ntro vecintate a neuronului ctigtor k.
Reelele Kohonen sunt adecvate reprezentrii unui numr mare de seturi de date de
intrare, prin reprezentani care s acopere uniform regiunile din care provin datele.
Reelele Kohonen s-au dovedit instrumente foarte interesante pentru clasificri n timp
real ale unor semnale extrem de complexe, cum sunt cele acustice. Ele au fost folosite n
sisteme de recunoatere a vocii umane.
A2.6. Memorii asociative bi-direcionale
Modelul unei memorii asociative bi-direcionale a fost propus de ctre Kosko n anul
1987. n principiu, o astfel de memorie asociaz elemente dintro mulime A cu elemente din
alt mulime B, asocierea putndu-se face n ambele direcii. Ele pot funciona i n cazul
unor date de intrare corupte sau incomplete.
O memorie asociativ bi-direcional este de fapt o reea neural cu dou straturi de
neuroni, avnd legturi bi-direcionale ntre neuronii unui strat i neuronii celuilalt strat.
n figura urmtoare prezentm dou etape succesive de funcionare ale unei asemenea
reele. n prima etap, din valorile de intrare X se vor obine valorile de ieire Y; n a doua
etap, valorile de ieire Y vor deveni valori de intrare iar pe baza lor reeaua va calcula noi
valori X'.
Evident, n procesele de calcul intervin ponderile wio ale legturilor ntre neuronii i i
neuronii o. Aceste procese de calcul sunt repetate pn cnd ansamblurile de valori X i Y se
stabilizeaz.
Ideea fundamental a folosirii unei memorii asociative bi-direcionale este urmtoarea:
vom stoca perechi de clase (A, B) n aa fel nct atunci cnd un X aparinnd clasei A este
prezentat reelei ca set de valori de intrare, reeaua va identifica (i va aminti) setul de
valori Y aparinnd clasei B. De asemenea, atunci cnd Y va fi prezentat reelei ca set de
valori de intrare (dar neuronilor din cel de-al doilea strat), reeaua va identifica setul de
valori X.
S presupunem c vrem s stocm ntro asemenea reea un numr de perechi (Xp, Yp) cu
p{1, 2, , P}. Ponderile legturilor se calculeaz simplu:
P
W = X p Y pT .
p =1
Odat reeaua nvat, s-i prezentm un set X de valori de intrare (care nu coincide
neaprat cu vreun Xp). Care va fi setul Yp indicat de reea ca asociat cu X? Rspunsul este
simplu:
Pasul 1. Calculm valorile Y cu formula Y ' = sign (W T X ) .
246
n caz c X' este una dintre valorile stocate Xp, setul de valori Y anterior trebuie s fie
exact Yp, iar reeaua a gsit setul asociat. n caz contrar, relum pasul 1 cu X' ca nou set de
valori de intrare.
247
248
249
250
252
254
256
257
S ne reamintim c:
Histogramele frecvenelor prezint distribuia valorilor variabilelor continue;
Box plot-urile sumarizeaz (vizual) mai multe aspecte importante ale unei variabile
continue (mediana, cuartilele, extremele);
Diagramele cu bare prezint diferenele ntre diversele grupuri, pentru variabile
categoriale, calitative;
Diagramele radiale compar ntre ele nivelurile claselor unei variabile calitative.
249
Metodele data mining de nvare pot fi grupate n dou categorii: cele nesupervizate,
respectiv cele supervizate.
Metodele de nvare nesupervizate includ urmtoarele:
1) Analiza Componentelor Principale (Principal Component Analysis). Scopul su este
cel de a reduce dimensionalitatea datelor multi-variate prin integrarea variabilelor corelate,
transformnd liniar variabilele iniiale n variabile necorelate ntre ele.
2) Analiza Factorial (Factor Analysis). Scopul su este cel de a extrage un numr mic
de factori ascuni care explic cea mai mare parte a variabilitii comune i determin
corelaiile observate ntre datele iniiale.
3) Analiza Clasificrii (Cluster Analysis). Scopul su este cel de a grupa cazurile
(observaiile) n clustere (grupuri, categorii).
Principalele metode de nvare supervizat sunt urmtoarele:
1) Regresia Liniar Multipl. Scopul su este cel de a descrie asociaiile ntre dou seturi
de variabile, prin intermediul unor formule liniare. Aceste formule sunt folosite ulterior
pentru a prezice valorile unor variabile continue de rspuns odat ce sunt cunoscute
valorile tuturor variabilelor predictor.
2) Regresia Logistic. n acest tip de regresie rspunsul este o variabil binar sau
ordinal (nu una continu).
3) Reelele Neurale (prezentate n anexa anterioar). Sunt folosite de obicei pentru
clasificare. Totui, o reea neural conine de obicei mult mai muli parametri dect un model
statistic clasic, este nevoie de mult mai mult timp de antrenare, iar rezultatele obinute nu pot
fi interpretate cu uurin.
4) Analiza Funciilor Discriminante (sau Analiza Discriminrii). Aceast metod este
folosit pentru a determina care dintre variabilele predictor discrimineaz cel mai bine ntre
mai multe grupuri care sunt formate natural.
Modelele identificate de o metod de data mining vor putea fi transformate n cunotine,
ns dup o validare corespunztoare; apoi, cunotinele vor putea fi folosite ulterior pentru a
fundamenta luarea deciziilor.
n continuare va fi prezentat esena principalelor metode de data mining, ncepnd cu
cele nesupervizate.
A3.2. Analiza Componentelor Principale i Analiza Factorial
prima component principal avnd valoarea proprie maxim. Pe de alt parte, suma
valorilor proprii este egal cu p (numrul variabilelor iniiale). De obicei sunt reinute doar
componentelor principale ce au valorile proprii mai mari dect 1. Valorile proprii exprim
importana componentelor principale.
O diagram n care valorile proprii sunt prezentate ca linii verticale sau ca puncte
deasupra numerelor naturale (care reprezint componentelor) este numit n coborre
(scree plot). Exemple sunt prezentate n figura urmtoare.
Exemple de scree plot (Statistica, respectiv SPSS)
Noiunea de scor (al unei observaii) poate fi neleas dac interpretm observaiile ca
vectori ntrun spaiu p-dimensional al variabilelor. n Analiza Componentelor Principale
acest spaiu este nlocuit cu un altul, cel al componentelor principale. Scorurile sunt exact
vectorii ce reprezint observaiile n acest nou spaiu.
n sfrit, ncrcrile (loadings) sunt coeficienii de corelaie ntre coloanele-scor i
variabilele originale.
Extrem de important este studiul coeficienilor de corelaie (loadings) dintre variabilele
iniiale i primele dou componente principale. Coeficieni puternici arat c variabilele
corespunztoare pot fi considerate responsabile pentru variaia datelor. Din contra, dac o
variabil nu se coreleaz cu nici o component principal, sau se coreleaz cu componentele
ce au valori proprii mici, aceasta sugereaz c variabila n cauz are o contribuie minor la
variana setului de date. Astfel de variabile neimportante vor fi eliminate, n scopul de a
simplifica analiza de ansamblu.
n unele situaii avem motive s credem c variabilele msurate sunt corelate ntre ele
deoarece ele sunt influenate de unul sau mai muli factori necunoscui, numii factori
ascuni. Analiza Factorial este o tehnic al crui scop este extragerea unui numr mic de
factori ascuni care sunt responsabili pentru corelaiile ntre variabile. Principalul rezultat al
acestei tehnici, aplicat fie plecnd de la matricea datelor, fie plecnd de la matricea de
corelaie, const n gruparea variabilelor n aa fel nct variabilele influenate de un anumit
factor sunt corelate mai puternic ntre ele dect cu variabilele influenate de ali factori.
Iniial se accept c toate variabilele msurate ar putea fi asociate cu orice factor ascuns.
Dup aplicarea tehnicii, fiecare variabil msurat va fi exprimat ca o combinaie liniar
(ponderat) de civa factori ascuni.
n implementarea metodei Analizei Factoriale se ntlnete termenul de comunalitate
(communality). Comunalitatea unei variabile msurate este exact proporia din variana ei
ce poate fi atribuit factorilor ascuni. Evident, comunalitatea este un numr ntre 0 i 1, iar
valorile apropiate de 1 indic faptul c variabila noastr este bine explicat de factorii
ascuni.
ncrcrile factorilor (factor loadings) sunt coeficienii de corelaie ntre variabilele
msurate i factorii ascuni. ncrcri mai mari dect 0.7 n valoare absolut sunt considerate
semnificative. ncrcrile semnificative pentru un factor ascuns dat ar putea fi folosite pentru
a obine o interpretare a acelui factor.
251
Pentru determinarea numrului de factori ascuni se poate folosi un scree plot, sau poate
fi ales un prag pentru comunaliti, la fel ca n metoda componentelor principale.
Cteodat, pentru a putea obine factori care nu au multe ncrcri mici
(nesemnificative) prin urmare pentru a simplifica interpretarea factorilor este efectuat o
rotaie; aceasta este cunoscut sub numele de metoda Varimax.
S prezentm, n figura de mai sus, un rezultat tipic al tehnicii Analizei Factoriale. n
stnga este o diagram planar n care variabilele msurate AA, BB, CC, W1, V1, ..., Yield
sunt nlocuite prin puncte din interiorul cercului unitate. Cei doi factori ascuni sunt nlocuii
prin punctele identificate ca Factor1 i Factor2. Rezultatele numerice, dup efectuarea unui
Varimax, sunt prezentai n tabele; dar mai interesant este reprezentarea prin puncte n
diagram. Destul de multe variabile (ntre care este vizibil CC) pot fi grupate ntrun grup i
reprezentate de factorul F1; pe diagram este clar c variabila AA este slab (negativ) corelat
cu F1. Astfel Factor 1 reprezint ceva ce variabilele CC ... au n comun dar opus lui AA.
Variabilele V1 este corelat cu F2. Pe de alt parte, variabilele S1 i X1 sunt neutre n
raport cu ambii factori. Factorului 1 i se atribuie mai mult de 50% din variana total, iar
ambilor factori li se atribuie mai mult de 50+11 = 61% din variana total.
Analiza Factorial este similar cu Analiza Componentelor Principale, ambele avnd ca
scop reducerea numrului (mare de) variabile msurate ntrun numr mai mic de factori
ascuni respectiv componente principale. Ele difer totui ca utilitate. n Analiza Factorial
numrul (mic) de factori este identificat n aa fel nct s explice de ce variabilele msurate
sunt corelate ntre ele. Din contra, n Analiza Componentelor Principale componentele
principale sunt identificate n aa fel nct s preia ct mai mult din variana prezent n
datele msurate.
A3.3. Analiza clasificrii (Cluster Analysis)
Aceast metod statistic este folosit pentru a grupa date multi-dimensionale (adic
puncte ce reprezint cazuri sau observaii) n grupe (clusters) definite algoritmic. Aceast
metod este util pentru sumarizarea unor cantiti mari de informaie, fiecare grup
reprezentnd mai multe puncte avnd caracteristici similare. Clusterele distincte nu se
suprapun (adic sunt disjuncte).
De fapt, analiza clasificrii const dintro colecie de algoritmi ce exploateaz mai multe
euristici fundamentate n principal pe experiena noastr vizual n gruparea punctelor n
nori de puncte.
n general, pentru a putea folosi un algoritm de clasificare, este nevoie de precizarea:
a) Unei distane ntre punctele unui spaiu multidimensional. Cele mai cunoscute
distane ntre punctele A = (a1 , a 2 ,...) i B = (b1 , b2 ,...) sunt (a se vedea figura urmtoare):
252
Euclidian
d E ( A, B) = (a1 b1 ) 2 + (a 2 b2 ) 2 + ... ;
Manhattan
d M ( A, B ) =| a1 b1 | + | a 2 b2 | +... ;
Pearson
d P ( A, B ) = valoarea absolut a coeficientului de corelaie dintre A i B.
Distanele ca lungimi
253
adic prin minimizarea sumei ptratelor diferenelor dintre valorile observate y ale
variabilelor rspuns i valorile corespunztoare ale variabilelor predictor.
S considerm cazul particular al unei singure variabile-rspuns Y.
Primul obiectiv al metodei regresiei liniare multiple l constituie obinerea unui hiperplan
care se potrivete optimal norului de puncte format de datele de antrenament; acest scop
este atins prin calcularea estimaiilor 0 , k pentru parametrii b0 , bk . Formula de calcul
final este
Y = 0 + k X k
k
(De obicei estimaiile k sunt notate bk , cciula avnd exact nelesul de estimaie.)
Numerele k exprim cu ct se modific rspunsul Y atunci cnd predictorul X k suport
o modificare de o unitate, iar ceilali predictori nu-i modific valoarea.
(Atenie, are sens s comparm ntre ei doi coeficieni de regresie k i l doar dac
predictorii corespunztori X k i X l sunt msurai cu aceeai unitate de msur!)
O noiune important n folosirea metodei RLM este cea de reziduu. Reziduurile sunt
exact diferenele dintre valorile y observate i valorile-rspuns y ce corespund valorilor
predictor x k observate. Aceste diferene sunt calculate folosindu-se estimaiile 0 , k , mai
precis astfel
r ( i ) = y ( i ) b0 bk x k( i )
k
Defectul major al RLM const n faptul c nu putem fi siguri asupra mecanismului relaiei
cauzale dintre predictori i rspunsuri. Chiar i relaiile de regresie foarte semnificative nu
implic (logic) deloc existena unor relaii cauz-efect! Cu toate acestea, metoda RLM este
des folosit, iar formulelor semnificative de regresie sunt creditate ca adevrate n activitile
de predicie.
Rezultatul unei RLM obinut prin folosirea setului de date de antrenament, cu alte cuvinte
formula de calcul, ar putea fi validat n urma aplicrii formulei asupra altui set de date i
constatrii potrivirii ei. Pentru validare, graficele obinute din setul de antrenament i din
setul de validare ar trebui s prezinte trsturi similare.
S ne reamintim c metoda regresiei liniare presupune c variabilele att cele predictor
ct i cele rspuns sunt de tip continuu. Prin contrast, Regresia Logistic permite tratarea
altor tipuri de variabile. Metoda Regresiei Logistice Binare se aplic atunci cnd variabila de
rspuns este de tip Boolean (adic are doar dou valori: adevrat/fals, sau da/nu, sau 0/1).
Funcia pas, definit de formula urmtoare, transform numerele reale n valori Booleene:
1 pentru x 0
step( x) =
0 pentru x < 0
255
256
n cazul cel mai simplu (doar dou categorii-grupe), Analiza de Discriminant este practic
echivalent cu Analiza de regresie multipl, modelul constnd n acest caz dintro singur
formul liniar
Category = 0 + k X k
k
258
confidenialitii;
260