Sunteți pe pagina 1din 204

LUCIAN V.

BOICULESE GABRIEL DIMITRIU ADRIAN DOLOCA


MIHAELA MOSCALU CRISTINA DASCALU

METODE DESCRIPTIVE ŞI ELEMENTE DE


ANALIZĂ STATISTICĂ A DATELOR MEDICALE

EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS

EDITURA PERFORMANTICA
Lucian Vasile BOICULESE
Cristina DASCĂLU
Gabriel DIMITRIU
Mihaela MOSCALU
Adrian DOLOCA

METODE DESCRIPTIVE ŞI ELEMENTE DE


ANALIZĂ STATISTICĂ
A DATELOR MEDICALE

EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS


Referent ştiinţific: Prof. Univ. Dr. Doina Azoicăi
Universitatea de Medicină şi Farmacie
„Grigore T. Popa” Iaşi

DESRIEREA CIP A Bibliotecii Naţionale a României


Lucian Vasile BOICULESE
Cristina DASCĂLU
Gabriel DIMITRIU
Mihaela MOSCALU
Adrian DOLOCA

METODE DESCRIPTIVE ŞI ELEMENTE DE


ANALIZĂ STATISTICĂ
A DATELOR MEDICALE

EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS

PERFORMANTICA
Contribuţia pe capitole a autorilor:

Capitole Autori
1-6, 14-16 Lucian V. Boiculese, Adrian Doloca, Cristina Dascălu
7-8, 13, 20 Mihaela Moscalu, Lucian V. Boiculese, Adrian Doloca
9-12 Gabriel Dimitriu, Mihaela Moscalu, Lucian V. Boiculese
17-19, 23 Cristina Dascălu, Gabriel Dimitriu, Mihaela Moscalu
21-22, 24 Adrian Doloca, Cristina Dascălu, Gabriel Dimitriu

Lucian Vasile BOICULESE vlboiculese@infmed.umfiasi.ro


Cristina DASCĂLU cdascalu@ infbst.umfiasi.ro
Gabriel DIMITRIU gdimitriu@ mail.umfiasi.ro
Mihaela MOSCALU mmoscalu@ mail.umfiasi.ro
Adrian DOLOCA adoloca@ mail.umfiasi.ro
CUPRINS

Introducere ............................................................................................................ 9

1 Formatarea celulelor..................................................................................... 11
Formatare condiţionată .............................................................................. 13
Utilizarea comenzii Paste Special ............................................................ 14

2 Modul de adresare a celulelor. Crearea formulelor de calcul .............. 19


Reguli de adresare a celulelor ................................................................... 19
Crearea formulelor de calcul .................................................................... 20
Tehnica automată de încărcare a celulelor (autoîncărcare - autofill) .. 22

3 Modul de adresare absolută a celulelor ................................................... 26


Adresarea absolută ..................................................................................... 26
Ataşarea unui nume pentru un bloc de calcul........................................ 27
Stilul de referire R1C1 ................................................................................ 28

4 Introducerea seriilor de date în foaia de calcul ...................................... 31


Mai multe despre încărcarea seriilor de date.......................................... 31
Generator de valori aleatoare .................................................................... 34
Contorizarea datelor................................................................................... 34

5 Transformarea unei variabile numerice în formă categorială ............. 38


Funcţia if() .................................................................................................... 38
Funcţia Lookup() ........................................................................................ 39

6 Extragerea de informaţii din tabele de date ............................................ 45


Tabele Pivot ................................................................................................. 45
Totalizarea datelor ...................................................................................... 47
Filtre .............................................................................................................. 49

7 Reprezentarea grafică a datelor ................................................................. 54


Tipuri de grafice.......................................................................................... 54
Crearea şi editarea graficelor .................................................................... 62

8 Reprezentarea grafică a funcțiilor ............................................................. 66


Reprezentarea grafică a funcţiilor utilizând grafice de tip Scatter ....... 66
Reprezentarea grafică a funcţiilor utilizând grafice de tip Surface ...... 70

Cuprins | 5
9 Elemente de teoria probabilităților (I)...................................................... 73
Experienţă. Probă. Eveniment................................................................... 73
Evenimente compatibile. Evenimente incompatibile ............................ 74
Evenimente dependente. Evenimente independente (I) ....................... 74
Operaţii cu evenimente .............................................................................. 74

10 Elemente de teoria probabilităților (II) .................................................. 78


Definiția clasică a probabilității. Proprietăți ............................................ 78
Regula adunării probabilităților evenimentelor incompatibile............ 82
Probabilitatea evenimentelor contrare (complementare) ..................... 82
Sistem complet de evenimente ................................................................. 83
Evenimente independente și dependente (II). ........................................ 83
Probabilitate condiționată. Teorema înmulțirii probabilităților
evenimentelor independente și dependente ........................................... 84

11 Elemente de teoria probabilităților (III)................................................. 89


Evenimente independente. Evenimente independente
în totalitatea lor (III) ................................................................................... 89
Teorema adunării probabilităților evenimentelor compatibile ............ 91
Formula probabilității totale ..................................................................... 92

12 Elemente de teoria probabilităților (IV)................................................. 96


Analiza unor exemple de aplicare a Teoremei lui Bayes ...................... 96

13 Statistică descriptivă (I) ........................................................................... 100


Calculul indicatorilor statistici ................................................................ 100

14 Statistică descriptivă (II) ......................................................................... 110


Distribuţia de frecvenţă, realizarea histogramei,
curba Gauss-Laplace ................................................................................ 110

15 Intervale de încredere (confidenţă) ....................................................... 117


Intervale de confidenţă pentru estimarea mediei ................................ 117

16 Dimensiunea eşantionului ..................................................................... 124


Volumul eşantionului de lucru ............................................................... 125

17 Compararea seturilor de date (I) ............................................................ 130


Compararea a două seturi de date – testul t (Student)........................ 130

18 Compararea seturilor de date (II) .......................................................... 140


Compararea seturilor de date prin metoda ANOVA .......................... 140

6 | Cuprins
19 Regresie. Corelaţie.................................................................................... 146
Regresie liniară şi corelaţie ...................................................................... 146

20 Analiza supravieţuirii............................................................................. 155


Analiza supravieţuirii – Kaplan Meier .................................................. 155

21 Baze de date Microsoft Access. Noţiuni generale .............................. 160


Elemente introductive .............................................................................. 160
Deschiderea şi crearea unei baze de date .............................................. 161
Sortarea şi filtrarea datelor ...................................................................... 174

22 Baze de date Microsoft Access. Relaţionarea tabelelor ..................... 180


Relaţii între tabele ..................................................................................... 180

23 Interogări SQL în Microsoft Access ...................................................... 187

24 Formuri şi rapoarte în Microsoft Access .............................................. 198

Bibliografie ....................................................................................................... 203

Cuprins | 7
8 |
INTRODUCERE

Această carte reprezintă o suită de teme de calcule statistice utilizate


în prelucrarea datelor biologice (medicale, farmaceutice) prezentate şi
aplicate la cursurile şi lucrările de laborator de Informatică Medicală şi
Biostatistică şi de Matematică Informatică din cadrul Universităţii de
Medicină şi Farmacie „Grigore T. Popa” din Iaşi.
În formarea profesională medicală este imperios necesară însuşirea
elementelor descriptive și de analiză de bază în domeniul biostatistic.
Acestea constituie instrumente de neînlocuit în cercetarea științifică,
statistica reprezentând modalitatea principală de extragere si prelucrare a
informațiilor relevante din datele clinice si de laborator.
Biostatistica este o ştiinţă cu arie mare de desfăşurare, este vastă prin
tehnicile şi subdomeniile de utilizare. Ne-am propus să realizăm o iniţiere
solidă în domeniu dar este evident că îmbogăţirea cunoştinţelor va depinde
în cele din urmă de interesul personal pentru o anumită temă și de
specializarea şi traseul profesional ales în viaţă.
Ne-am concentrat atenţia asupra unui software foarte popular dar
valoros şi potrivit pentru iniţiere în această sferă a ştiinţei, și anume
Microsoft Excel 2010 (compatibil cu versiunile anterioare). Mai mult chiar
prin popularitatea, compatibilitatea cu multe alte programe şi prin uşurinţa
în utilizare, reprezintă o variantă bună de început în calculul tabelar şi
statistic.
Primele teme descriu metode de formatare, calcul de funcţii,
contorizare, filtrare şi de transformare a datelor, tehnici dedicate softului
studiat.
O prezentare succintă a teoriei probabilităţilor am realizat-o pe
parcursul a patru teme, ca o introducere și pentru o înţelegere mai clară a
noţiunilor analizate în capitolele următoare.
Am continuat în cadrul elementelor descriptive cu prezentarea
indicatorilor statistici, a histogramelor, a curbei de distribuţie Gauss-
Laplace şi a intervalelor de confidenţă.
În cadrul analizei am început cu determinarea dimensiunii
eşantionului de lucru, apoi testul student (t) cât şi metoda ANOVA pentru
compararea mediilor, regresia liniară, corelaţia şi pentru studiul
supravieţuirii am descris tehnica Kaplan Meier (ca să deschidem apetitul
pentru studiul statistic).

Introducere | 9
În final am prezentat patru teme pentru lucrul cu baze de date într-
un software larg răspândit dedicat gestiunii informaţiei, și anume Microsoft
Access 2010. Este o iniţiere ce prezintă o alternativă la Microsoft Excel, ca
gestiune a datelor într-o primă etapă.
Din experienţa noastră de predare în cadrul acestei frumoase ştiinţe
interdisciplinare, Informatica Medicală, considerăm aceste teme ca fiind
necesare în formarea viitorului specialist dedicat domeniului sănătăţii şi
sperăm că informaţiile descrise vor ajuta în înţelegerea teoretică cât şi în
aplicarea practică a noţiunilor prezentate.
Întrucât orice demers educațional este perfectibil, pentru sugestii,
observaţii, comentarii şi discuţii pe aceste teme, aşteptăm să ne contactați la
adresele de e-mail prezentate de autori.

Autorii

10 | Introducere
1 FORMATAREA CELULELOR

Noţiuni prezentate:
 Formatarea celulelor.
 Formatare condiţionată
 Utilizarea comenzii Paste Special

Aplicaţiile de calcul tabelar folosesc seturi de date ce pot fi


prelucrate printr-o multitudine de tehnici matematice. Extragerea de
informaţii se poate realiza prin folosirea filtrelor, prin ordonare, prin
utilizarea de metode de validare, consolidare prin creare de rezumate
asupra selecţiilor de date prin diferite analize printre care, de importanță
majoră analiza statistică [1]. Informaţia este introdusă în celule ce determină
tabelul. Celula este identificată după coloana şi rândul a căror intersecţie o
definesc (asemănător tablei de şah).
Pentru a putea lucra cu date, acestea sunt definite în forme proprii şi
astfel permit aplicarea de operatori şi funcţii specifice.
Tipuri principale de date: Text, Numeric, Data calendaristică. Din
acestea pot deriva subtipuri funcţie de interes şi de cerinţele necesare.
În Excel, se foloseşte implicit, formatul General. Practic, acesta
acceptă orice tip de dată. Prin introducerea unor valori, se caută să se
determine automat tipul de dată introdus (exemplu numeric, dată
calendaristică) [1, 2]. Practic prima valoare introdusă într-o celulă este foarte
importantă deoarece defineşte tipul datei. Avem evident şi posibilitatea
schimbării tipului dacă dorim.
Formatarea înseamnă definirea elementelor ce descriu afişarea unei
date. Aceste elemente definesc alinierea datelor, tipul de caracter folosit,
tipul de chenar dar şi caracteristici speciale, cum ar fi de exemplu, pentru
valorile numerice, precizia de afişare cu zecimale semnificative şi
nesemnificative, forma de afişare a valorilor negative, formele compactă,
ştiinţifică şi altele.
Pentru a defini sau modifica prezentarea unei date se deschide
fereastra de formatare a celulelor (Format Cells) prin Home apoi Number (se
face clic pe săgeata din colţul din dreapta jos). Se obţine fereastra
reprezentată în figura următoare unde se poate defini forma de afişare
dorită.
Avem posibilitatea de alegere din formatele predefinite dar putem
crea şi formate personalizate (custom).
Formatarea celulelor | 11
Figura 1-1. Formatarea celulelor

Formatul numeric este de importanţă majoră. Definirea formatului se face


folosind caracterele speciale: #, 0, ?.
 # - Caracter folosit pentru afişare de numere. Se afişează valorile
numerice calculate fără a impune un număr de zerouri
nesemnificative.
 0 (zero) - Impune afişarea valorilor numerice nesemnificative.
 ? - Caracter folosit pentru alinierea datelor la punctul zecimal sau la
semnul de fracţie.
Iată mai jos câteva exemple de folosire a formatului numeric.

Tabelul 1-1. Caractere speciale şi efectul în formatarea valorilor numerice.


valoare cod folosit afişare descriere
1234.567 #.# 1234.6 Se impune afişarea unei singure zecimale.
Aceasta va fi aproximată.
1234.567 ###,###.#### 1,234.567 Se impun 4 zecimale semnificative – dacă există.
De asemenea se va folosi caracterul virgulă (,)
pentru delimitarea miilor.
1234.567 # 1235 Fără zecimale. Observaţi aproximarea prin
rotunjire.
1234.567 #, 1 Afişare număr ca multiplu de 1000.
1234.567 .00 1234.57 Afişare a două zecimale nesemnificative.
23.2 23.20 A doua zecimală nesemnificativă este afişată
chiar dacă este 0.
1234.567 .0000 1234.5670 Afişare a 4 zecimale nesemnificative.
23.56 .? 23.6 Aliniere la punctul zecimal.
23 .? 23.0 Aliniere la punctul zecimal.
1.25 # 00/00 1 01/04 Fracţie cu precizie până la 1/100 (sutime).
1.25 # 000/000 1 001/004 Fracţie cu precizie 1/1000.

12 | Formatarea celulelor
Se poate folosi şi un spectru de culori elementare: Negru – [Black],
Bleu – [Cyan], Violet – [Magenta], Alb – [White], Albastru – [Blue], Verde –
[Green], Roşu – [Red], Galben – [Yellow].
Pentru scrierea codului ce defineşte formatul se respectă ordinea: se
defineşte mai întâi culoarea urmată de formatul pentru valori pozitive apoi
se defineşte culoarea şi formatul pentru valori negative. Aceste coduri se
separă prin simbolul „;”. Culoarea este încadrată între paranteze pătrate.

Tabelul 1-2. Formate pentru valori negative şi culori posibile.


valoare cod folosit efect în afişare
10.25 [Blue]#,##0;[Red](#,##0) 10
-10.25 [Blue]#,##0;[Red](#,##0) (10)

Există un bogat sortiment de formate predefinite (prezente în


biblioteca Excel) pentru dată calendaristică, pentru timp, pentru valori
monetare etc. În mare parte aceste formate satisfac cerinţele utilizatorilor,
astfel încât forma personalizată este doar în cazuri deosebite, particulare
folosită.

Formatarea condiţionată
Cu ajutorul acestei tehnici se vor scoate în evidenţă celulele a căror
valori îndeplinesc o anumită condiţie. Pentru aceasta se activează formatare
condiţionată (Conditional Formatting)
din grupul Home.
Formatarea în acest caz poate consta în
schimbarea culorii de scriere, sau în
aplicarea unei culori de fundal sau a
unui gradient de colorare, sau se pot
ataşa pictograme (de ex.: săgeată, cerc,
romb, triunghi) [3].
Figura 1-2 prezintă pictogramele
ce se pot folosi la formatarea
condiţionată a celulelor.
Regulile de formatare prezintă
următoarele variante de definire a
condiţiilor pentru selecţia:
• datelor mai mari decât o
valoare critică (prag);
• datelor mai mici decât o
valoare de referinţă;
• datelor cuprinse într-un
domeniu (min, max);
Figura 1-2. Formatare condiţionată

Formatarea celulelor | 13
• datelor egale cu o valoare de interes;
• celulelor ce conţin un anumit text;
• datelor de tip calendaristic într-un anumit domeniu;
• valorilor duplicate;
• primelor n cele mai mari valori sau n% (exprimare procentuală);
• celor mai mici n sau n% valori;
• valorilor mai mari sau mai mici decât media.
Există, cum era de aşteptat, posibilitatea definirii regulilor personalizate de
selecție.

Exemplu de lucru:
Se doreşte marcarea (prin scriere cu roşu) a celulelor a căror valori se
află într-un domeniu de 15% apropiere de valoarea maximă (altfel spus
primele 15% cele mai mari valori).
Realizare: Se marchează blocul de date
de studiu. Se lansează Conditional
Formatting, se alege opţiunea a doua
Top/Bottom Rules se alege apoi Top 10%
(acest 10% este sugestiv, se poate
schimba după dorinţă în etapa
următoare).

Figura 1-3. Formatare condiţionată

În fereastra nou apărută se defineşte procentul dorit (15% pentru


cazul de faţă) şi în final formatul (conform cerinţei de scriere cu roşu).
Astfel, efectul va fi ca în exemplul prezentat în figura alăturată.

Comanda Paste Special


Copierea datelor dintr-un program în altul sau în cadrul aceluiaşi
program este o operaţie des întâlnită. În softurile de calcul tabelar putem
folosi formule, valori efective, formatări specifice. Ca urmare am fi
îndreptăţiţi să ne punem problema existenţei metodelor de copiere a
întregului conţinut sau doar a formulelor de calcul sau poate doar a
formatelor folosite. Chiar mai mult, deoarece folosim tabele cu date, este
posibil să realizăm o copiere cu transpunerea datelor (ca şi transpusa unei
matrice – transformarea liniilor în coloane) [3].
Realizarea celor prezentate mai sus se poate înfăptui folosind
comanda Paste Special. Se copie sursa iar pentru destinaţie se aplică Home
apoi se activează meniul Paste (sau combinaţia Ctrl+Alt+V).

14 | Formatarea celulelor
Putem copia în destinaţie:
 tot conţinutul deci şi formatarea;
 doar formulele;
 doar valorile, practic funcţiile nu se copie (este o formă statică de
copiere);
 doar formatarea;
 doar comentariile ataşate unei celule;
 doar regulile de validare;
 copierea conţinutului şi a formatării folosind temele ce s-au aplicat;
 tot conţinutul şi formatul cu excepţia liniilor ce definesc conturul
celulei;
 doar dimensiunea coloanelor;
 doar formulele şi formatul;
 doar valorile şi formatul.
Dacă destinaţia conţine deja valori atunci se pot efectua anumite operaţii
cu datele din sursă şi cu cele din destinaţie. Implicit se aplică doar
suprapunerea deci, se pierde conţinutul destinaţiei.
Dacă se foloseşte Paste Special atunci datele din destinaţie pot fi adunate,
împărţite, înmulţite sau se pot scădea datele din sursă.
O operaţie importantă este transpunerea ce permite transformarea
liniilor tabelului în coloane.

EXERCIŢII

1. Definiţi formatul celulelor următoare astfel încât să aveţi afişarea


conformă cu cele prezentate în tabelul de mai jos.

Figura 1-4. Definiţi formatul


Formatarea celulelor | 15
Observaţii:
Veţi introduce valorile în coloana A, apoi le veţi copia în coloana C.
Vă veţi poziţiona pe fiecare valoare din coloana C şi prin Home + Number
(activaţi definirea formatului) veţi căuta mai întâi prin tipurile predefinite
forma de prezentare cerută. După ce aţi setat această formatare în cazul
predefinit veţi redeschide fereastra de formatare şi veţi accesa formatul
„predefinit” (custom). Acolo veţi găsi codurile de formatare.
În celula C5 pentru exemplul care are valoarea 1.2E+07 s-a folosit
formatul ştiinţific. Practic este 1.2 *107. Această formatare există ca opţiune
explicită.
Aceste formatări, exista explicit şi pentru datele calendaristice. Ca
exerciţiu completaţi coloana B cu formatarea de tip personalizat ce defineşte
fiecare tip de dată calendaristică. Puteţi deduce anumite reguli ce rezultă
din formele diferite de afişare ?

2. În cadrul benzii de comenzi Home aveţi grupul de formatare numit


Number (considerăm acest nume impersonal, poate mai potrivit era
Format). Puteţi prin citirea Help-ului sau prin încercarea aplicării
efectului asupra unor valori să determinaţi rolul fiecărui buton?

Butoanele din acest


grup: $, %, ....

Figura 1-5. Butoanele din grupul Number

Pentru o rapidă înţelegere puteți să luaţi ca exemple diferite valori


numerice şi să le formataţi folosind butoanele analizate (învăţare prin
exemple).

3. Formataţi condiţionat următoarele valori astfel încât să obţineţi


destinaţiile identice cu exemplele de mai jos.

Observaţie:
Coloanele definite Ex.1 şi Ex.2 sunt formatate folosind prima grupă de
formatări condiţionate (Highlight Cells Rules), Ex.3 se încadrează în grupa a
3-a (Data Bars), Ex. 4 este o scară bicoloră iar ultimul exemplu cu numărul 5
este realizat folosind setul de pictograme (Icon Set).

16 | Formatarea celulelor
Figura 1-6. Formatări condiţionate Figura 1-7. Formatare
condiţionată dedicată.

4. Butonul Format Painter care se poate vedea şi în figura 1-6 (încercuit în


stânga sus), este folosit pentru a copia formatul dintr-o celulă iniţială şi
a-l aplica în celula destinaţie. Facem următoarea experienţă:
introducem în celula A1 într-o foaie de calcul nouă, data calendaristică
11/23/2011 (observaţi formatul implicit, lună/zi/an). Verificaţi că tipul
setat este dată calendaristică (vedeţi la formatarea celulei ce este
definit). Acum introducem peste această valoare din A1 o nouă valoare
de tip numeric, să zicem 2.3 apoi Enter.
Observaţi ce se întâmplă: apare o dată calendaristică şi anume,
1/2/1900. Puteţi explica?
Acum vom copia formatul celulei B1 în celula A1 folosind Format
Painter: Click pe B1 apoi pe Format Painter apoi pe A1. Abia acum va
apărea corect valoarea 2.3.
Reţineţi! Prin introducerea unei date calendaristice celula respectivă a
fost formatată corespunzător. În concluzie, formatul trebuie redefinit
pentru a accepta date numerice şi nu calendaristice. Metoda de
redefinire este la alegerea noastră.

5. Introduceţi un număr de 20 valori, reprezentând notele la un examen.


Formataţi condiţionat astfel încât:
a. Valorile mai mari ca media să fie scoase în evidenţă;
b. Primele 3 valori cele mai mari să fie marcate;
c. Formataţi notele conform cu exemplul din figura 1-7. Datele nu
trebuie să fie ordonate. Observaţi regula: sub 5 inacceptabil, peste 9
inclusiv este foarte bine, între 5 şi 8 inclusiv valori normale marcate
cu semnul mirării pe fundal galben.

Formatarea celulelor | 17
6. Copiaţi doar valorile fără format de la exerciţiul 1 coloana C folosind
Paste special, în coloana E. Observaţi că datele calendaristice s-au
distrus. Corectaţi astfel încât forma să fie identică cu cea din coloana A.
Variante: a) - puteţi să formataţi folosind Numbers sau b) - puteţi să copiaţi
doar formatul iniţial din coloana A.

7. Copiaţi doar formatul de la exerciţiul 3 coloana G peste coloana D


(folosiţi Paste special + all merging conditional formats). Observaţi cele
două formate cum aglomerează afişarea datelor. Pentru a şterge un
format folosiţi Conditional Formatting apoi Manage Rules. Puteţi astfel
şterge din regulile de formatare existente. Exersaţi prin realizarea de
copii multiple de formatări. Cum am putea şterge altfel toate formatele
aplicate (puteţi găsi şi altă metodă)?

18 | Formatarea celulelor
ADRESAREA CELULELOR.
2 CREAREA FORMULELOR DE CALCUL.

Noţiuni prezentate:
 Adresarea relativă a celulelor şi a blocurilor ca argumente pentru
calcul.
 Crearea formulelor de calcul.
 Tehnica automată de încărcare a celulelor (autoîncărcare, autofill).

Reguli de adresare a celulelor


Aplicaţiile de calcul tabelar folosesc foi de calcul (numite spreadsheet sau
sheet) ce conţin date prezentate sub formă de tabele. Informaţia este astfel
organizată pe linii şi coloane.
Elementele tabelului se numesc celule şi sunt unic determinate de
identificatorul de coloană (implicit de tip caracter A, B,...) şi identificatorul
de linie (un număr) [3]. Adresarea este asemănătoare tablei de şah.
Originea tabelului este considerată colţul din stânga sus.
O celulă este identificată prin elementele coloana şi rând
corespunzătoare. Exemple: A1 este prima celulă , B7 defineşte celula ce se
află la intersecţia coloanei a 2-a (B) cu rândul 7.
Un bloc de date (celule alăturate, consecutive) este identificat prin celula
de start din colţul stânga sus respectiv celula de sfârşit din colţul din
dreapta jos legate de caracterul special „:” [1].

Exemplu
În figura alăturată s-a definit blocul
B1:C7 format din cele două coloane
respectiv şapte rânduri (în total 14 celule).
Putem folosi mai multe blocuri sau celule
neconsecutive ca argument al unei funcţii
(de exemplu în calculul mediei). Acestea
se vor despărţi prin virgulă. Exemplu:
B3:C8,F4,H3:H5 (observaţi folosirea
caracterului ”:” dedicat definirii blocurilor
şi caracterul ”,” folosit pentru a enumera
blocurile).

Figura 2-1. Bloc de calcul

Modul de adresare al celulelor. Crearea formulelor de calcul | 19


Pentru a defini o întreagă coloană vom ignora indicatorul de rând.
De exemplu blocul B:B , reprezintă întreaga coloană a doua. Practic vom
elimina rândul din definirea blocului.
O regulă similară se aplică pentru a defini un rând întreg. Ex.:
pentru a indica blocul format din rândul trei vom scrie 3:3. Prin lipsa
rândului se înţelege că toate rândurile aparţin selecţiei iar prin lipsa
coloanei se înţelege că toate coloanele aparţin selecţiei.
O formulă începe cu „=” astfel se va calcula valoarea cerută. Pentru
calculul mediei a două valori vom scrie în celula destinaţie: =(A1+A2)/2 sau
folosim funcţia average() astfel: =average(A1:A2).
Biblioteca din Excel conţine un arsenal bogat de funcţii de calcul
matematic, statistic, de lucru cu variabile text, financiare, inginereşti, logice
ce ne ajută în rezolvarea problemelor de tip medical [1, 3].

Operatori şi câteva funcţii strict necesare în calculul formulelor


matematice.

Tabelul 2-1. Operatori aritmetici


Nr. operaţie operator exemplu
1. Grupare () =5*(2+3)
2. Adunare + =A2+21
3. Scădere sau negaţie - =5-2
4. Înmulţire * =6*8
5. Împărţire / =9/3
6. Ridicare la putere ^ =6^2
7. Procent % =10%*25 (rezultat=2.5)

Tabelul 2-2. Funcţii elementare


Nr. Funcţie Sintaxă Exemplu
1. Radical Sqrt() =sqrt(4)
2. Minim Min() =min(a2:a29)
3. Maxim Max() =max(a2:a29)
4. Suma Sum() =sum(a2:a29)
5. Media Average() =average(a2:a29)
6. Mediana (valoarea de
Median() =median(a2:a129)
mijloc din şirul ordonat)
7. Valoarea modală (valoarea
Mode() =mode(b2:b219)
din şir cel mai des întâlnită)

20 | Modul de adresare al celulelor. Crearea formulelor de calcul


Tabelul 2-3. Operatori pentru compararea datelor
(relaţionali – rezultatul va fi de tip logic)
Nr. operaţie operator exemplu
1. Egalitate = =a2=c2
2. Mai mare > =a5>b5
3. Mai mare egal cu >= =c1>=7
4. Mai mic < =d2<c2
5. Mai mic egal cu <= =d3>=6
6. Diferit de <> =d2<>c2

Tabelul 2-4. Operatori pentru referirea celulelor


Nr. operaţie operator exemplu
1. Definire bloc calcul : B2:B5
2. Unirea blocurilor de calcul , MIN(B5:B25,D3:D5)
3. Intersecţia blocurilor de calcul spaţiu MIN(B5:B25 A1:D15)

Pentru concatenarea (unirea sau adunarea) a două şiruri avem


operatorul &.
Exemplu: =”Informatică“ & ” “ &”Medicală” va avea ca efect crearea
şirului ”Informatică Medicală”.

Operatorii au o anumită prioritate. Astfel în interpretarea unei


expresii matematice ordinea de execuţie a calculelor este definită de
prioritatea operatorilor folosiţi.

Tabelul 2-5. Prioritatea operatorilor


prioritate operator scop
Operatori de referinţă:
: (două puncte)
1. Definirea blocurilor de calcul
spaţiu
, (virgulă)
2. - (negaţia) -1
3. % Procent
4. ^ Ridicare la putere
5. * şi / Înmulţiri şi împărţiri
6. + şi - Adunări şi scăderi
7. & Concatenare şiruri
=
< sau >
8. <= Operatori relaţionali
>=
<>

Modul de adresare al celulelor. Crearea formulelor de calcul | 21


Autoîncărcarea (autofill) blocurilor de date este o tehnică de
necesitate şi utilitate maximă. Aceasta prezintă diferite forme: A – copierea
unei formule cu ajustarea relativă a identificării celulelor ce definesc
argumentele funcţiilor; B – crearea unei serii de date.

A - Metodă pentru copiere automată


Se selectează prima celulă (pentru copiere), se poziţionează
prompterul pe colţul din dreapta jos al selecţiei (acesta se transformă în
cruce neagră), se defineşte destinaţia prin apăsarea butonului de mouse şi se
deplasează prompterul (drag and drop) până la ultima celulă dorită.

Prompterul de mouse în
formă de cruce - indică
posibilitatea încărcării
automate.

a-Se selectează celula de b-Se poziţionează c-Se defineşte destinaţia prin


copiat prompterul de mouse tragere (pe coloană în cazul
în colţul din dreapta nostru).
jos al selecţiei (formă
de cruce).
Figura 2-2. Paşii de urmat pentru încărcarea automată a destinaţiei

Încărcarea realizata este cu adresare de tip relativ. Presupunem că


avem ca exemplu calculul produsul a două celule (în D3 avem: ”=B3*C3” –
figura 2-2). La fiecare schimbare de rând se vor schimba corespunzător
coeficienţii indicatori ai rândului (adresare relativă). Dacă vom citi formula
scrisă automat în celula D5 aceasta va fi: ”=B5*C5”. Practic în formula din
celula destinaţie corespunzător rândului se vor modifica valorile numerelor
ce definesc celulele ce sunt argumente de calcul (pentru funcţia produs x*y
în cazul prezentat).

B - Metodă pentru încărcarea unei serii


Pentru încărcarea unei serii de date (numerice, calendaristice,
alfabetice si numerice) se vor selecta primele 2 celule ce definesc relaţia de
încărcare a destinaţiei. Apoi se continuă urmând paşii descrişi mai sus la

22 | Modul de adresare al celulelor. Crearea formulelor de calcul


autoîncărcare. Valorile ce urmează se calculează după regula: se face diferenţa
dintre primele două valori (aceasta este raţia) şi se adaugă ultimei valori pentru a
defini o nouă valoare.

Tabelul 2-6. Exemple de încărcări automate.


1 2 A3 6/28/2011
Valori iniţiale
2 4 A5 6/29/2011
3 6 A7 6/30/2011
Valori obţinute prin 4 8 A9 7/1/2011
autoîncărcare 5 10 A11 7/2/2011
6 12 A13 7/3/2011

Menţionăm că raţia poate fi şi negativă sau subunitară nu neapărat


întreagă pozitivă. Mai multe despre încărcarea seriilor (liniare/neliniare,
adresare absolută) de date se vor prezenta într-un laborator următor.

EXERCIŢII

1. Introduceţi în coloana B, 20 de valori reprezentând temperatura unor


pacienţi aleşi generic (valori cuprinse în domeniul 36.4-42⁰C). În
coloana C veţi introduce frecvenţa de apariţie a fiecărei temperaturi
(valori ce se pot repeta). Coloana A va cuprinde numărul de ordine. Nu
uitaţi capul de tabel, trebuie să conţină etichetele corespunzătoare.
Exemplu:

Figura 2-3. Calculul unei funcţii

2. Calculaţi în coloana D rândul 2, media temperaturilor din coloana B


scriind formula explicit =(B2+B3+...+B21)/20, apoi folosind funcţia
average() – observaţi avantajul folosirii funcţiilor ce lucrează cu blocuri
de date. Puteţi scrie direct în celulă sau în bara de formule:
=average(b2:b21) , sau puteţi accesa biblioteca de funcţii Home + Editing
şi activaţi meniul AutoSum.
3. Calculaţi în coloana E media ponderată a temperaturilor din coloana B
(trebuie să ţineţi cont de frecvenţe deci numărul de cazuri din coloana
∑(𝑇𝑇𝑇𝑇𝑇𝑇𝑝𝑝∙𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶)
C: 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = ∑ 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶
. Este de fapt media întregului set de
date.

Modul de adresare al celulelor. Crearea formulelor de calcul | 23


4. Calculaţi numărul total de cazuri din coloana C folosind funcţia
sum().
5. Calculaţi valorile minimă respectiv maximă a temperaturii (puteţi
folosi funcţiile min() , max() sau puteţi ordona datele şi apoi alegeţi
extremele).
6. Calculaţi mediana temperaturii. Este valoarea de mijloc a şirului de
date ordonat, (median()) apoi valoarea modală (valoarea ce se repetă
de cele mai multe ori, mode()) a numărului de cazuri din coloana C.
7. Calculaţi pentru datele următoare indicele de masă corporală (IMC).
Aflaţi apoi valoarea medie a IMC-ului pe întreg lotul şi separat
calculaţi mediile obţinute pentru sex=F respectiv sex=M
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺(𝐾𝐾𝐾𝐾)
𝐼𝐼𝐼𝐼𝐼𝐼 =
(𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼(𝑚𝑚))2
Tabelul 2-7.

A B C D A B C D
1 nr Sex Greutate(Kg) Inălţime(m) 11 10 M 67 1.67
2 1 F 56 1.67 12 11 F 45 1.62
3 2 M 66 1.72 13 12 M 80 1.90
4 3 M 72 1.77 14 13 M 76 1.79
5 4 M 65 1.69 15 14 F 45 1.75
6 5 F 45 1.64 16 15 M 66 1.70
7 6 M 81 1.87 17 16 F 49 1.60
8 7 F 56 1.71 18 17 F 52 1.65
9 8 F 61 1.72
10 9 F 47 1.56

Practic veţi scrie în coloana E pe rândul 2 corespunzător numărului


1 din coloana A: =C2/D2^2. Apoi folosind tehnica Autofill veţi completa
automat restul celulelor. Priviţi formula din celula E7 – observaţi
schimbarea automată a indicilor corespunzători definirii rândurilor ce
adresează celula în formula de calcul.

8. Introduceţi într-o foaie de calcul valorile prezentate în tabelul de


mai jos:

Tabelul 2-8.
1 A2 0 Test1 5:30 10.05.2009 3 Monday 1abc 2 Test
3 A5 1.5 Test2 5:40 15.05.2009 1.5 Tuesday 2abc 4

Descrieţi pentru fiecare coloană valorile următoare ce vor fi încărcate


automat de soft prin AutoFill.

24 | Modul de adresare al celulelor. Crearea formulelor de calcul


Completaţi următoarele 20 de valori. Veţi selecta primele două
valori de pe coloană după care poziţionaţi prompterul pe colţul din dreapta
jos veţi ţine butonul din stânga al mous-ului apăsat şi prin tragere veţi defini
destinaţia.
Căutaţi şi altă metodă de completare automată a seriilor cu valorile
iniţiale prezentate în tabel.
Dacă deja coloana adiacentă din stânga este încărcată puteţi aplica
Autofill prin dublu click pe colţul din dreapta a selecţiei primelor două
celule. Observaţi că destinaţia încărcată conţine o valoare nu o funcţie.

9. Se consideră setul de date normalizate pe domeniul [0,1]. Acestea


trebuie convertite în domeniul [36.2, 42] şi vor reprezenta valori ale
temperaturii. Realizaţi această conversie în coloana Temp.
Formula de calcul: Temp = Date1 ∗ (42 − 36.2) + 36.2

Tabelul 2-9.

A B C A B C
1 Nr. Date1 Temp 12 11 0.84
2 1 0.57 39.506 13 12 0.75
3 2 0.80 14 13 0.42
4 3 0.58 15 14 0.38
5 4 0.18 16 15 0.83
6 5 0.64 17 16 0.65
7 6 0.63 18 17 0.23
8 7 0.82 19 18 0.34
9 8 0.24 20 19 0.45
10 9 0.37 21 20 0.89
11 10 0.55

10. Calculaţi media, mediana, minimul, maximul, valoarea modală


pentru temperatura din coloana C de la exerciţiul 9. Creaţi o nouă
coloană cu abaterea individuală a temperaturii pentru tabelul
precedent (AbatereaTi=Ti-Tmediu). Calculaţi suma abaterilor
individuale. Ce obţineţi ? Puteţi explica ? (se va obţine o valoare foarte
mică aproape 0 – datorită preciziei ce este finită).

Observaţie:
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 = ∑𝑛𝑛𝑖𝑖=1(𝑇𝑇𝑇𝑇 − 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇) = ∑𝑛𝑛𝑖𝑖=1 𝑇𝑇𝑇𝑇 − ∑𝑛𝑛𝑖𝑖=1 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 =
∑𝑛𝑛𝑖𝑖=1 𝑇𝑇𝑇𝑇
= 𝑛𝑛 ∙ − 𝑛𝑛 ∙ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 = 𝑛𝑛 ∙ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 − 𝑛𝑛 ∙ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 = 0
𝑛𝑛

Modul de adresare al celulelor. Crearea formulelor de calcul | 25


3 METODE DE ADRESARE A CELULELOR

Noţiuni prezentate:
 Adresarea absolută;
 Ataşarea unui nume pentru un bloc de calcul;
 Stilul de referire R1C1.

Adresarea absolută
Sunt situaţii în care este necesar să folosim în cadrul unei formule o
valoare gen parametru pe lângă variabila de facto (variabila x). Ca exemplu
ar fi funcţia densitate de probabilitate Gauss-Laplace ce depinde de
parametrii medie şi dispersie pe lângă variabila x ce se studiază. Alt
exemplu mai simplu, constă în calculul mediei ponderate ţinând cont de
creditele fiecărei discipline (valoarea creditelor ar reprezenta parametrii).
Putem matematic scrie F(p1,x) – parametrul p1 fiind constant pentru un
element din familia de funcţii astfel definită. În această situaţie pentru o
întreagă coloană de calcul x vom avea parametrii p constanţi. Aceştia pot fi
introduşi prin metoda adresării absolute.
Adresarea absolută este definită prin folosirea caracterului special
„$” ce poate precede indicatorul de coloană sau indicatorul de rând [1, 3, 6].
Astfel prin tehnica Autofill nu se va mai schimba automat indicatorul de
rând dacă am precedat rândul folosind „$”, respectiv indicatorul de coloană
dacă precedăm coloana folosind caracterul „$”.

Figura 3-1. Adresare absolută

26 | Modul de adresare absolută a celulelor


Exemplu: Avem două variabile V1, V2 şi dorim să calculăm funcţia
F(V1,V2,p1,p2)=p1*V1+p2*V2, unde p1 şi p2 sunt ponderile variabilelor (p1
şi p2 sunt fixate pentru orice valoare V1 sau V2). Dacă avem două coloane
cu valorile V1 şi V2 şi cunoaştem ponderile p1 şi p2 putem folosi adresarea
absolută pentru a calcula funcţia F.
Vom scrie în rândul 5 coloana D: =B5*B$3+C5*C$3
Am folosit semnul $ înaintea lui 3 pentru a bloca incrementarea
automată a rândului prin tehnica AutoFill.
Pentru rândul 7 de exemplu funcţia automat completată va fi:
=B7*B$3+C7*C$3

Ataşarea unui nume pentru un bloc de date


Putem ataşa un nume unui set de date de calcul, format dintr-unul
sau mai multe blocuri şi/sau celule independente folosind identificări
sugestive. În loc să selectăm de fiecare dată blocurile respective putem astfel
folosi numele definit ca argument în funcţia pe care dorim să o calculăm.
Sunt două metode de definire:
1. Din meniul Formulas se alege grupul Define Names. Se completează
numele şi blocul sau blocurile componente.
2. Se selectează datele dorite (blocuri şi celule) şi apoi se scrie numele
în căsuţa text Name Box din stânga barei de formule.

Metoda 1
Definirea setului de date
folosind meniul.

Metoda 2
Definirea folosind
căsuţa name box.

Figura 3-2. Metode de definire a blocurilor de date

Exemplu: aflarea mediei average(c5:c7,c10:c14) poate fi uşor înlocuită


cu average(date1), în continuare putem calcula maximul, deviaţia standard şi
orice formulă care necesită blocurile definite de numele date1.
Prin butonul Name Manager se pot crea, edita, şterge deci se
gestionează blocurile definite prin nume.

Modul de adresare absolută a celulelor | 27


Observaţie: Numirea unui bloc de date sau a cel puţin unei celule
poate reprezenta o variantă echivalentă adresării absolute. Astfel ponderile
pot fi identificate cu nume predefinite.

Stilul de referire R1C1


Până acum am identificat celulele din cadrul tabelului prin scrierea
indicatorului alfabetic de coloană urmat de indicatorul numeric de rând.
Acest stil este setat implicit în Excel şi se numeşte stilul de adresare A1.
Există un al doilea stil de identificare a celulelor, numit stilul R1C1
pentru care mai întâi numim rândul şi apoi coloana celulei la care facem
referire. Atât rândurile cât şi coloanele sunt identificate numeric [1, 3, 4].
Trecerea la stilul R1C1 se face urmând paşii:
1. pentru Excel 2010: File + Options +Formulas apoi se bifează opţiunea
R1C1 Reference Style.
2. pentru Excel 2007: Office Button + Excel Options +Formulas apoi se
bifează opţiunea R1C1 Reference Style.

Referirea relativă în stilul R1C1 – pentru aceasta se folosesc


parantezele pătrate în definirea numărul rândului, respectiv a coloanei.
Poziţia destinaţie actuală devine centrul de referire. Astfel avem şi valori
numerice negative dacă facem apel la celule care se află deasupra, respectiv
la stânga celulei de calcul [3].
Exemplu: R[-1]C[4] implică o referire relativă cu un rând mai sus,
respectiv cu 4 coloane mai la dreapta poziţiei curente (poziţia curentă este
destinaţia).
RC[-1], este o referire relativă pe acelaşi rând, dar o coloană la stânga
faţă de poziţia curentă. Este acelaşi lucru cu a scrie R[0]C[-1].
C[2], reprezintă o referire la o întreagă coloană. Este a doua coloană
spre dreapta poziţiei curente. Având în vedere faptul că toate rândurile sunt
implicate, acestea vor fi ignorate în definirea blocului, asemănător stilului
de referire A1.

Referirea absolută în stilul R1C1 – nu se folosesc paranteze pătrate


iar numerele se scriu imediat după R sau C (indicator de rând sau coloană)
[3, 4].
Originea sistemului este colţul din stânga sus. Astfel R1C7 defineşte o
referire absolută la celula din rândul 1 coloana a şaptea.
R5 defineşte tot rândul al cincilea; C1 defineşte prima coloană.
Exemple echivalente de adresare a blocurilor şi a celulelor în cele două
stiluri de lucru:

28 | Modul de adresare absolută a celulelor


Tabelul 3-1. Formule echivalente în cele două stiluri de referire.
Nr Destinaţie (celula în care suntem Stilul A1 Stilul R1C1
poziţionaţi pentru scrierea formula formula
formulei)
1 C1 A1*B1 RC[-2]*RC[-1]
2 C3 A3*A$1 RC[-2]*R1C[-2]
3 B1 A:A C[-1]
4 B1 A1:A7 RC[-1]:R[6]C[-1]
5 C7 $A$3 R3C1

EXERCIŢII

1. Calculaţi media şi media ponderată folosind datele din tabelul de


mai jos.

Figura 3-3. Calculul mediei ponderate

2. Dacă în cadrul formulei aplicăm adresarea pentru ponderi (credite)


de forma $C$2, $D$2 respectiv $E$2, se schimbă valoarea
rezultatului? Este utilă această adresare? Este greşită? Este prea
restrictivă?

3. Calculaţi Media, Mediana şi Modul pentru coloanele Medie, respectiv


Medie ponderată. Dacă valorile calculate pentru medie sunt mai
mari comparativ cu media ponderată ce concluzie puteţi trage?

Modul de adresare absolută a celulelor | 29


Tabelul 3-2.
Medie Medie ponderată Biblioteca de funcţii
Media 7.155556 6.907936508 Average()
Mediana 7 6.714285714 Median()
Modul 7 6.523809524 Mode()

4. Într-o clinică privată se achiziţionează medicamente conform


următorului tabel. Cunoscând numărul de produse cumpărate
pentru fiecare tip în parte, preţul pe bucată şi valoarea TVA (21%)
aplicată, să se calculeze:

Figura 3-4. Tabelul Excel cu datele de calcul

a. Pentru fiecare medicament pe bucată valoarea cu TVA inclus;


b. Pentru fiecare medicament (produs) valoarea TVA plătită (pe
bucată) şi preţul întreg (cu TVA) pentru fiecare produs ( întreaga
cantitate pe produs);
c. Valoarea totală (toate produsele) plătită fără TVA şi valoarea totală a
TVA;
d. Se modifică valoarea TVA la 19%. Cu cât (în valoare absolută) se
plăteşte mai puţin pentru întreg consumul de medicamente?
(evident este de aşteptat să folosiţi adresarea absolută a valorii TVA
şi astfel, pentru noul calcul aveţi de modificat doar celula C2).
Observaţie: Pentru formatul monetar (Preţ/buc fără TVA) s-au utilizat
codurile: #,##0.00 [$lei-418]

5. Folosind metoda ataşării unui nume blocului de calcul să se rezolve


problema 1. Se va denumi creditul la anatomie c_anat, respectiv
c_biochim şi c_infomed.
Rezolvare: veţi scrie formula pe rândul 4:
=(C4*c_anat+D4*c_biochim+E4*c_info)/(c_anat+c_biochim+c_info)

6. Calculaţi valoarea produsului cu TVA de la exerciţiul 4 folosind


ataşarea de nume blocurilor de calcul.

7. Folosind stilul de referire R1C1 rezolvaţi problemele 1 şi 3.

30 | Modul de adresare absolută a celulelor


INTRUDUCEREA SERIILOR DE DATE ÎN FOAIA
4 DE CALCUL. CONTORIZAREA DATELOR

Noţiuni prezentate:
 Mai multe despre încărcarea seriilor de date;
 Generator de valori aleatoare;
 Contorizarea datelor.

Mai multe despre încărcarea seriilor de date


Am folosit tehnica Autofill şi am încărcat automat celulele destinaţie
după o formă liniară (progresie aritmetică, ak=a1+(k-1)*r , unde ak este
termenul k , r este raţia).
Am introdus de exemplu, valorile 1 apoi 2 şi computerul a decis
(motivat prin relaţia liniară căutată) că următoarea valoare aşteptată este 3
apoi 4 şi aşa mai departe, practic o serie aritmetică cu raţia de valoare 1.
Putem evident gândi şi altfel valoarea aşteptată plecând de la iniţierea
cu 1 şi 2. Dacă 2 este obţinut prin înmulţirea lui 1 cu 2, atunci valorile
aşteptate sunt 4 apoi 8 etc. Este clar o altă formă, este o progresie geometrică
(forma generală: ak=a1*q(k-1) , unde q este raţia) cu raţia 2.
Putem realiza progresii geometrice folosind Home + Editing+Fill.

Figura 4-1. Alegerea opţiunii de încărcare.

Primele 4 variante din meniul ce se deschide ne permite încărcarea


celulelor adiacente cu date pe cele 4 direcţii: sus, jos dreapta, stânga.
Aceasta este forma rapidă de încărcare şi este echivalentă cu copierea (deci
nu foarte utilă). Trebuie ca celula de start (sau sursă) să conţină valoarea de
copiat.

Introducerea seriilor de date în foaia de calcul | 31


Metoda de lucru constă în aplicarea paşilor:
1. Pentru încărcarea unei celule adiacente: se selectează celula
adiacentă unei valori de referinţă şi se alege direcţia de încărcare.
Menţionăm că doar o celulă va fi încărcată în acest mod.
2. Pentru încărcarea unui set de celule: se vor selecta celula sursă cât şi
celulele destinaţie (ce pot începe sau nu adiacent şi pot fi sau nu
consecutive) şi apoi se va defini direcţia de încărcare(din cele 4
posibile).
Observaţie: pentru selectarea celulelor neconsecutive se va aplica Ctrl +
tragere cu mouse-ul (mausul).
În cadrul meniului de încărcare (Fill) avem şi opţiunea pentru serii
(Series) ce permite lucrul şi cu progresii geometrice.

Forma liniară o cunoaştem deja, dar iată


că aici putem introduce explicit raţia şi
eventual valoarea maximă acceptată ca o
limitare, ca un punct de oprire.

Forma geometrică ca şi cea aritmetică


(numită şi liniară) se descriu în mod
asemănător prin raţie (Step value) şi prin
valoarea maximă acceptată (Stop value).

Figura 4-2. Încărcarea seriei de valori

Există şi opţiunea de deducere a tendinţei, deci trendul seriei. Prin


aceasta Excel calculează automat raţia ce se obţine din diferenţa respectiv
împărţirea primelor două numere pentru progresia aritmetică, respectiv
geometrică.
Putem completa şi date calendaristice definind şi unitatea de
măsură: zile, zile lucrătoare din săptămână, luni şi ani (forme destul de
utile).
De asemenea, trebuie definită direcţia de completare şi anume pe
rânduri sau coloane.
Metodă de lucru:
Metoda 1 – Se selectează celula de start care se încarcă cu valoarea iniţială a
seriei. Se alege apoi Series din grupul Editing şi se completează
fereastra cu valorile şi opţiunile dorite.
Metoda 2 – Se selectează atât sursa cât şi destinaţia (celulele nu trebuie să fie
neapărat consecutive deci vom folosi tasta Ctrl). Apoi se procedează
ca la metoda 1 prin definirea seriei dorite.

32 | Introducerea seriilor de date în foaia de calcul


Exemplul 1.
Dorim să încărcăm automat pe coloană o serie geometrică cu raţia 2
începând cu valoarea 4.
1. Vom introduce valoarea de start în celula sursă (figura 4-3).
2. Alegem Home + Fill , astfel deschidem fereastra de definire a seriei.
3. Completăm valoarea raţiei 2 (Step value) , valoarea de oprire 64 (Stop
value), tipul geometric (Grouth) şi seria se va completa pe coloană
deci bifăm Columns.
Observăm că destinaţia nu a fost selectată fiind încărcată automat prin
celule consecutive, conform cerinţelor setate.

Figura 4-3. Setarea valorilor seriei Figura 4-4. Rezultatul obţinut

Exemplul 2.
Dorim să încărcăm automat 4 valori a unei serii geometrice. Iniţial
avem două valori (2 şi 6) iar destinaţie este formată din celule
neconsecutive. Vom cere ca raţia să fie automat calculată prin opţiunea
tendinţă (Trend).

Figura 4-5. Selectarea celulelor şi definirea Figura 4-6. Rezultatul obţinut


seriei geometrice

Introducerea seriilor de date în foaia de calcul | 33


1. Se introduc cele 2 valori.
2. Se selectează atât valorile de start cât şi destinaţia (deoarece nu sunt
consecutive se va folosi CTRL).
3. Se setează în fereastra de serii (Series) opţiunea tendinţă cât şi tipul
de serie geometrică.

Generator de valori aleatoare


Există două funcţii care generează aleator date (după o distribuţie
uniformă) [2].
Rand() – această funcţie generează aleator un număr în domeniul
[0,1). Nu admite argumente.
Se va regenera un nou număr de fiecare dată când are loc o
modificare în foaia de calcul. Pentru a avea un set static de valori se va
copia blocul ce conţine funcţia rand() cu paste special – value în destinaţie (se
va copia doar valoarea nu şi funcţia). O metodă similară constă în scrierea
funcţiei =rand() într-o celulă destinaţie şi apoi se apasă F9 (tasta
funcţională).
Dacă dorim să generăm aleator valori în domeniul [a,b) vom folosi
formula: rand()*(b-a)+a.
Randbetween(min,max) – generează aleator o valoare întreagă în
domeniul menţionat [min,max].
Dacă dorim să generăm valori reale cu o precizie de p zecimale în
domeniul [a,b] folosind randbetween atunci putem proceda astfel:
 Se generează valori în domeniul [a*10p , b*10p];
 Se împart aceste valori în final la 10p.

Contorizarea datelor
Există mai multe funcţii care au rolul de numărare a datelor. Acestea
diferă prin caracteristicile specifice fiecăreia [1, 4].
Count(domeniu) – contorizează valorile numerice dintr-un domeniu. Data
calendaristică şi valorile text ce pot fi convertite în numere sunt
contorizate.
Counta(domeniu) – contorizează celulele care conţin informaţie. Celulele
goale nu sunt contorizate.
Countblank(domeniu) – contorizează celulele goale din domeniu (empty cells).
Countif(domeniu, criteriu) – contorizează celulele din domeniu care
îndeplinesc condiţia din criteriu. Criteriul reprezintă o condiţie simplă
de genul: „25” (egal cu valoarea 25); “>45”; “<>35” (diferit de 35);
putem căuta un anumit cuvânt de exemplu “fasconal” (în această
situaţie se contorizează doar celulele care conţin cuvântul fasconal şi
doar atât).
Sunt multe situaţiile în care celulele conţin mai multe cuvinte (de
exemplu medicaţia folosită). Apare astfel necesitatea căutării unui cuvânt
într-un şir de caractere. Pentru a căuta un cuvânt în interiorul unei celule,

34 | Introducerea seriilor de date în foaia de calcul


putem folosi caracterele speciale * şi ?. Dacă dorim totuşi să căutăm aceste
două caractere atunci trebuie prefixate de ~ (tilda). Aceste caractere permit
crearea de filtre pentru căutare.
În cadrul creării filtrului, semnul întrebării (?) înlocuieşte doar o
singură poziţie a unui posibil caracter. Semnul * va înlocui oricât de multe
caractere posibile.
Exemple: dacă introducem filtrul “test?” atunci se vor căuta toate
celulele ce încep cu ”test” şi conţin încă un caracter sau număr sau semn.
Deci vor fi contorizate şi celule ce conţin de exemplu: test1 ; testA; test#.
Dacă am fi introdus “*test*” atunci se contorizau toate celulele ce conţin
cuvântul “test” indiferent de poziţie. Intră, de asemenea, în numărare: “
primul test” ; “prea multe teste”.
Countifs(domeniu1, criteriu1[domeniu2, criteriu2....]) – contorizează celulele ce
îndeplinesc toate criteriile ce se aplică corespunzător domeniilor. Conţine
cel puţin un domeniu şi un criteriu (maxim 127 perechi domeniu-
criteriu). Dacă domeniile sunt pe coloane atunci se contorizează toate
rândurile care îndeplinesc toate criteriile.
Domeniile au aceeaşi dimensiune şi sunt aceleaşi parţi din coloane sau
rânduri decalate.
Se pot folosi şi aici caracterele speciale * şi ? cu semnificaţia descrisă.

EXERCIŢII
1. Folosind tehnica de încărcare automată şi plecând de la primele 2
valori, să se genereze seriile de numere prezentate în tabelul de mai
jos. Determinaţi tipul seriei şi raţia.

Figura 4-6. Serii de date


Introducerea seriilor de date în foaia de calcul | 35
Observaţie: Pentru seriile 2 şi 3 va trebui să selectaţi domeniul de celule
neconsecutive. Aceasta se realizează cu ajutorul tastei Ctrl. Apoi apelaţi
Fill +Series şi veţi completa, practic veţi defini seriile.

2. Folosind funcţiile RAND(), respectiv RANDBETWEEN() să se


genereze următoarele seturi a câte 150 date definite pe domeniile:
• 10 – 125, valori întregi;
• 0.32 – 2,1 valori reale cu o zecimală;
• 15,34 – 28,45 valori reale cu 2 zecimale precizie.
Puteţi genera aceste valori doar cu funcţia RANDBETWEEN() ?

3. Folosind funcţiile RAND(), respectiv RANDBETWEEN() să se


genereze următoarele două seturi a câte 100 date reprezentând:
• Temperaturi (36-41 ⁰C), valori cu o zecimala:
 Folosind numai RAND();
 Folosind numai RANDBETWEEN();
 Folosind în combinaţie atât RAND() cât şi
RANDBETWEEN().
• CL-CR (10-120 valori întregi):
 Folosind obligatoriu RAND() dar în combinaţie şi cu altă
funcţie (INT() extrage partea întreagă rotunjită la cel mai
apropiat întreg mai mic decât valoarea cu zecimale);
 Folosind RANDBETWEEN().

4. Determinaţi înregistrările de la exerciţiul 2 care respectă condiţia de


a se afla în vecinătatea de 20% faţă de valoarea maximă determinată.

5. Câte valori şi care sunt acelea, care se află în jurul mediei pe un


interval format din: medie ±25% din domeniul total de lucru.
Domeniul de lucru este diferenţa Max-Min. Folosiţi datele generate
la exerciţiul 2.

6. Generaţi un set de 100 date (valori întregi) ce reprezintă notele


studenţilor la examenul notat X. Ţinând cont de corespondenţa
NOTĂ – CALIFICATIV prezentată în tabelul 1 să se determine câte
persoane au fost evaluate cu F.BINE, câte cu BINE... INSUFICIENT
(pentru fiecare calificativ în parte).

Tabelul 4-1.
Tabel de corespondenţă notă – calificativ
NR. NOTĂ CALIFICATIV
1 9 -10 F. BINE
2 7-8 BINE
3 5–6 SUFICIENT
4 <5 INSUFICIENT

36 | Introducerea seriilor de date în foaia de calcul


7. Aveţi setul de date medicale prezentat parţial mai jos. Scrieţi
comenzile necesare (funcţiile) pentru determinarea :
a. Numărului de persoane care au avut mastodinie ca efect
secundar;
b. Numărului de persoane pentru care tratamentul nu a
generat efecte secundare;
c. Numărului de persoane care au avut în tratament orgametril;
d. Numărului de persoane care nu au avut tratament înainte şi
nu au avut efecte secundare.

Figura 4-7. Set de date medicale

8. Creaţi o coloană încărcată cu 15 numere întregi consecutive de la 1


la 15. În următoarea coloană generaţi aleator 15 numere folosind
rand(). Selectaţi cele 2 coloane şi ordonaţi-le după coloana generată
aleator (pentru ordonare: Data+Sort). Explicaţi ce obţineţi. La ce ar fi
utilă această tehnică?

Introducerea seriilor de date în foaia de calcul | 37


TRANSFORMAREA UNEI VARIABILE
5 NUMERICE ÎN FORMĂ CATEGORIALĂ

Noţiuni prezentate:
Transformarea unei variabile numerice în formă categorială.
 Funcţia if() - de un ajutor incomensurabil.
 Funcţia Lookup() - dedicată conversiilor în formă categorială.

Există multe cazuri în care suntem nevoiţi să transformăm o variabilă


numerică într-o formă categorială. Ca exemple putem menţiona:
transformarea notei din sistemul zecimal în calificativ de genul foarte bine,
bine, suficient, insuficient; crearea grupelor de vârstă din 5 în 5 ani;
evaluarea stării de funcţionare a rinichiului prin valoarea clearance-ului de
creatinină (90-120 - normal, 50-90 este stadiul 1 etc.).
Avem astfel nevoie de o metodă de comparare a valorii studiate cu un
anumit prag şi în final vom lua decizia de clasificare.
Funcţia if() este special creată pentru a realiza o astfel de comparaţie şi
ajută la luarea unei decizii prin evaluarea unei expresii logice [1, 3].
Sintaxă: IF(expresie logică , [dacă este adevărată expresia atunci acţiune1],[ dacă
este falsă – acţiune2])
Se evaluează expresia logică. Dacă este adevărată se va lansa
acţiunea1, iar în caz contrar acţiunea2. Prin acţiune se înţelege calculul unei
funcţii cu răspuns de tip numeric sau text, dată calendaristică, sau rezultat
logic sau poate fi chiar un nou if(). Acţiunile sunt opţionale (aceasta este
marcată prin parantezele pătrate, este o convenţie, nu se folosesc în scrierea
efectivă). Dacă nu se scriu acţiunile dar se pun virgulele atunci funcţia if
întoarce 0.
Observaţie: Dacă setările regionale sunt pentru limba română, atunci
virgulele sunt înlocuite cu punct şi virgulă în definirea funcţiei if() (această
observaţie este valabilă pentru funcţiile care acceptă mai multe argumente).
Putem folosi ca acţiune un nou if (aceasta se numeşte imbricare). Numărul
maxim acceptat de imbricări este 64. Dacă dorim mai multe grupări există
funcţia Lookup care permite utilizarea vectorilor în definirea limitelor
categoriilor.
Se poate deduce uşor numărul de funcţii if imbricate pentru
conversia unei variabile într-un număr de forme categoriale. Dacă notăm
numărul de categorii cu C atunci numărul de funcţii if necesare este C-1
(deoarece ultima funcţie va putea avea 2 decizii).

38 | Transformarea unei variabile numerice în formă categorială


Exemple:
Dorim să creăm o coloană adiacentă coloanei nota (valori întregi) în
care să scriem promovat pentru notă mai mare sau egală cu 5, respectiv,
restanţă pentru notă mai mică decât 5. Dacă nota este în coloana A atunci în
celula B1 vom scrie: =if(A1>=5,”promovat”,”restanţă”). Observăm că avem 2
valori categoriale şi folosim doar o funcţie if (C=2, deci numărul de funcţii
este 2-1=1).
Complicăm problema şi introducem noţiunea ”calificat” dacă nota
este 9 sau 10. Astfel funcţia de conversie se modifică după cum urmează:
=if(A2>8,"calificat",if(A2>=5,"promovat","restanţă")). Observăm că am avut 3
categorii şi am folosit 2 funcţii if().

Funcţia Lookup()
Dacă avem un număr de 6 categorii deja lucrul cu funcţii if()
imbricate devine greoi. Pentru a rezolva această cerinţă s-a creat o nouă
funcţie numită Lookup().
Sintaxă: LOOKUP(valoare căutată, vector(sau set celule) ce prezintă
limitele numerice ale grupelor, [vector (sau set celule) cu atribute]) – este de
aşteptat ca tipul (linie sau coloană) şi dimensiunea vectorului sau setului de
celule ce prezintă grupele să fie identice cu tipul şi dimensiunea vectorului
sau matricei ce prezintă atributele (numele categoriilor) [1, 2, 3].
Funcţia Lookup() încadrează valoarea numerică căutată în grupa
corespunzătoare din prima coloană a vectorului (sau setul de celule) de
definiţie şi afişează atributul corespunzător grupei din coloana a doua a
vectorului de definiţie (sau setului de celule de definiţie a categoriei).
Vectorul este format dintr-o înşiruire de valori de forma:
{"E","D","C","B","A"} sau {5,8,2} de exemplu. Elementele sunt despărțite
prin virgulă şi întreg vectorul este încadrat între acolade. Se poate folosi în
loc de un vector un set de celule definit pe coloană sau rând.
Clasificarea se face după limitele în care se încadrează valoarea
studiată. Dacă valoarea căutată este mai mică decât limita minimă
menţionată atunci se întoarce mesajul de eroare #N/A. Astfel trebuie să
cunoaştem valoarea minimă. Orice grupă este definită de valoarea minimă
posibil de atins respectiv valoarea maximă ce nu poate fi atinsă. Aceasta se
explică tocmai prin faptul că grupele nu au puncte comune, neexistând
varianta de indecizie în clasificare. O valoare nu poate aparţine decât unui
singur interval. Astfel valoarea maximă neatinsă în prima grupă va fi
cuprinsă în grupa a doua ca valoare minimă de început.

Exemplu:
Dorim să realizăm o conversie a notei în calificativ după cum este
prezentat în tabelul de mai jos.
Avem 5 calificative. Considerăm că nota minimă este 1.

Transformarea unei variabile numerice în formă categorială | 39


Ţinând cont de regula de încadrare (valoarea căutată trebuie să fie
mai mare sau egală cu minimul grupei şi mai mică ca maximul grupei) va
trebui să definim corespondenţa conform coloanelor A şi B din figura
alăturată.
Tabelul 5-1. Corespondenţă calificative
nota calificativ
<5 E
5 D
6 C
7-8 B
9-10 A

Figura 5-1. Funcţia Lookup()

Astfel calificativul E va fi alocat valorilor mai mari sau egale cu 1 dar


mai mici ca 5 (aşa cum este prezentat în primul tabel).
Dorim să transformăm coloana numerică C în formă categorială
reprezentând calificative folosind destinaţia în coloana F. Accesând setul de
corespondenţe creat în celule din coloanele A şi B, în F2 vom scrie
=LOOKUP(C2,A$2:A$6,B$2:B$6) sau mai potrivit ar fi, mai întâi, să
verificăm tipul de dată din celulă: =IF(ISNUMBER(C2),
LOOKUP(C2,A$2:A$6,B$2:B$6), "absent"). Astfel, nu va apare mesajul #N/A
în cazul întâlnirii unei valori text (ex. abs).
Funcţia ISNUMBER(valoare), verifică tipul valorii (valoarea poate fi o
celulă, sau funcţie) şi întoarce True pentru tip numeric respectiv False în caz
contrar.
Observaţi utilizarea adresării absolute pentru a bloca vectorul
coloană la aplicarea metodei Autofill. Să luăm prima valoare, care este 7.
Este mai mare sau egală cu 7 şi mai mică decât 9 – astfel, i se va atribui prin
40 | Transformarea unei variabile numerice în formă categorială
funcţia Lookup() atributul ”B”. Oricărei valori mai mari sau egale cu 9 îi va
corespunde calificativul A. Deci iată maximul nu este neapărat cunoscut.
Puteam utiliza scrierea folosind vectori (forma prezentată mai jos):
=LOOKUP(C2,{1,5,6,7,9},{"E","D","C","B","A"}) sau folosind o
singură matrice:
=LOOKUP(C2,{1,5,6,7,9;"E","D","C","B","A"})
În cadrul matricei virgula marchează trecerea la următoarea coloană iar
punct şi virgulă marchează trecerea la următorul rând.
Este la alegerea utilizatorului forma de scriere a comenzii (vector, matrice,
set de celule) – Avantajul utilizării setului de celule constă în faptul că
schimbarea unei valori din celula de definiţie a clasificării va avea efect
global asupra întregului set de date convertit. Se va schimba practic întreaga
conversie prin modificarea setului de definiţie a categoriilor.

EXERCIŢII

1. Generaţi un set de 100 valori numerice întregi reprezentând note de


la 1 la 10 inclusiv. Creaţi o nouă coloană în care să aveţi echivalentul
în calificativ al fiecărei note, conform cu valorile atribuite
corespunzător, prezentate mai jos:

Tabelul 5-2. Corespondenţe


nota calificativ
<5 Insuficient
5-6 Suficient Rezolvaţi exerciţiul folosind funcţia if() apoi
7-8 Bine folosind funcţia Lookup().
9-10 FBine
În caz real există şi absenţe în cadrul unui examen. Înseraţi, la
întâmplare, 10 absenţe în setul creat anterior. Observaţi codul de eroare
apărut (#N/A) pentru funcţia Lookup() respectiv categoria greşit asociată în
cazul folosirii funcţiei If(). Cum putem rezolva problema, astfel încât, acolo
unde persoana este absentă, să apară scris, absent?
Observaţie: veţi folosi funcţia ISNUMBER(valoare) ce verifică tipul datei.
Puteţi folosi un nou if() care să verifice dacă informaţia din celulă este de tip
numeric. Dacă este număr, se va face conversia, în caz contrar, se va scrie
absent.

2. Introduceţi valorile prezentate în tabelul alăturat şi calculaţi


valoarea IMC (IMC=Greutate/Inălţine^2). Creaţi o nouă coloană cu
statusul ponderal, conform tabelei de echivalenţă (tabelul 5-4), prin
cele două metode folosind: if() şi lookup().

Transformarea unei variabile numerice în formă categorială | 41


Tabelul 5-3. Date antropometrice

nr. Greutate(Kg) Inalţime(m) 12 65 1.9


1 67 1.8 13 111 2
2 35 1.5 14 53 1.9
3 67 1.8 15 120 1.6
4 108 2 16 35 1.4
5 89 1.7 17 95 1.5
6 105 1.9 18 104 1.7

7 90 1.5 19 70 2.1
20 97 1.8
8 84 1.7
21 101 1.8
9 47 1.4
22 40 1.4
10 106 1.9
23 77 2.1
11 76 1.7

Tabelul 5-4. Tabelul de echivalenţă


IMC < 18,5 (subponderal)
IMC = 18,5 – 24,9 (normoponderal)
Calculaţi de asemenea numărul de
IMC = 25 – 29,9 (supraponderal) cazuri pe fiecare grupă ce exprimă
IMC 30 – 34,9 (obez grad 1) statusul ponderal.
IMC 35 – 39,9 (obez grad 2)
IMC ≥ 40 (obez grad 3)

3. În evaluarea funcţiei renale se foloseşte valoarea clearance-ului de


creatinină. În tabelul de mai jos sunt 29 de pacienţi. Completaţi în
Excel (prin cele 2 metode cunoscute) o nouă coloană, în care să
prezentaţi pentru fiecare pacient evaluarea funcţiei renale, conform
tabelului de echivalenţă.

Tabelul 5-5. Echivalenţe


Cl-Cr Evaluare
[90-120] Normal
[50-90) Stadiu 1
[30-50) Stadiu 2
[15-30) Stadiu 3
< 15 IRT- insuficienţă renală terminală

42 | Transformarea unei variabile numerice în formă categorială


Tabelul 5-6.

Pacient ClCr Stadiu 16 104


1 118 17 13
2 82 18 34
3 92 19 9
4 95 20 22
5 7 21 114
6 64 22 1
7 39 23 39
8 106 24 51
9 58 25 9
10 92 26 58
11 30 27 30
12 116 28 12
13 76 29 40
14 26
15 23
Aflaţi numărul de pacienţi, pentru fiecare grupă definită de coloana
evaluare.

4. Presupunem că avem următorul set de date (15 date pe care le


introduceţi în foaia de calcul, conform coloanei C), în care este
prezentată tensiunea arterială (cu cele 2 componente TAS respectiv
TAD). Acestea sunt introduse în aceeaşi celulă, despărţite de „/”.
Găsiţi o metodă de creare a două coloane cu valorile TAS respectiv
TAD.

Figura 5-2. Set de date


Transformarea unei variabile numerice în formă categorială | 43
Observaţie:
Puteţi folosi următoarele funcţii specifice lucrului cu şiruri de caractere:
Left(celulă,număr caractere) – extrage începând din stânga un anumit număr
de caractere specificat.
Find(caracter căutat, celulă) – se caută poziţia unui caracter din celula
specificată. Funcţia va întoarce un număr ce exprimă poziţia pe care se
află caracterul specificat (poziţia 1 defineşte primul caracter din stânga).
Mid(celulă, start poziţie, lungime) – se extrage un şir de caractere, de o
anumită lungime, începând cu caracterul de pe poziţia definită de start
poziţie, din celula definită.
În coloana D veţi folosi funcţiile: =LEFT(C2,FIND("/",C2)-1) , sau
=MID(C2,1,FIND("/",C2)-1).
În coloana E veţi folosi funcţiile: =MID(C2,FIND("/",C2)+1,3).

44 | Transformarea unei variabile numerice în formă categorială


EXTRAGEREA DE INFORMAŢII DIN
6 TABELE DE DATE

Noţiuni prezentate:
 Tabele Pivot
 Totalizarea datelor
 Filtre

Tabelele pivot sunt folosite pentru crearea unui rezumat din datele
cuprinse într-o foaie de calcul. Ca idee, putem număra datele care
îndeplinesc anumite criterii, putem calcula medii sau dispersii în general
putem măsura anumiţi indicatori statistici pentru grupele definite. Dacă
spre exemplu avem pacienţii grupaţi după localitatea de rezidenţă cât şi
după mediul urban sau rural şi dorim un raport asupra numărului de
pacienţi astfel distribuiţi, metoda cea mai avantajoasă şi rapidă constă în
utilizarea tabelelor de tip pivot.
O variantă de lucru pentru orice situaţie ce implică contorizări de date
constă în folosirea funcţiilor countif() sau countifs(), dar să determinăm de
câte ori vom lansa numărarea datelor apelând la countif() dacă avem 10
localităţi şi evident 2 medii de rezidenţă. Este clar vom folosi funcţia de 20
de ori. Pare puţin ? Putem deduce că această variantă nu este tocmai
eficientă. Sensul tehnicii tabelelor pivot este tocmai minimizarea muncii
depuse pentru rezumarea datelor din foile de calcul.
Pentru folosirea acestei metode se va selecta tabelul de lucru sau cel
puţin se va poziţiona prompterul indicator pe o celulă din interiorul
tabelului cu date (astfel Excel va selecta apoi întreg tabelul cu date). Prin
alegerea Insert + Pivot Table se deschide fereastra de setare a opţiunilor ce
definesc specificul tabelului rezumat [2, 5].
Această fereastră (figura 6-1) prezintă câmpurile deci coloanele datelor
de lucru. Suntem practic obligaţi să definim un cap de tabel în foaia de
calcul - primul rând este considerat numele coloanelor. Aceste nume sunt
folosite ca indicatoare ce definesc tabelul rezumat. Cele 4 căsuţe prezentate
în figura alăturată sunt folosite pentru definirea criteriilor de grupare cât şi
pentru calculul unei funcţiei la intersecţia fiecărui rând cu fiecare coloană.
Este necesară introducerea unui nume de coloană în căsuţa din dreapta
jos. Acesteia i se va aplica funcţia de contorizare sau calcul de medie, min,
max, deviaţia standard (definită de utilizator) etc.

Rapoarte PivotTable | 45
Cel mai simplu tabel pivot conţine
cel puţin această informaţie (celula din
dreapta jos trebuie să conţină minim o
cerinţă).
Pentru grupări după mai multe
criterii se introduc în căsuțele stânga jos,
respectiv dreapta sus coloanele ce
definesc clasificările urmărite.
Prin definirea unui filtru (celula
stânga sus) tot tabelul rezultat va fi
dependent de filtrul indicat. Astfel se
poate particulariza tot conţinutul
tabelului la doar un subset de date
pentru o singură categorie din cadrul
filtrului (de ex.: doar pacienţii cu status
ponderal normal).
Se pot defini mai multe criterii de
grupare pe rânduri sau coloane, evident
tabelul rezultat prezentând astfel forme
din ce în ce mai complexe. Pentru mai
mult de 3-4 coloane implicate, tabelul
rezumat rezultat devine greu de citit şi
urmărit.

Figura 6-1. Definirea tabelului pivot

Pentru exemplul prezentat în figura de mai sus s-a obţinut tabelul


rezumat următor. Practic am ales ca pe rânduri să fie prezentată starea
civilă şi corespunzător să se calculeze numărul de persoane.

Tabelul 6-1. Tabelul rezultat


Count of StareCivila Column Labels
Row Labels F M Grand Total
căsătorit 82 43 125
concubin 3 1 4
divorţat 2 2 4
necăsătorit 40 26 66
văduv 19 2 21
Grand Total 146 74 220

46 | Rapoarte PivotTable
Iată mai jos un exemplu în care am modificat cerinţa de pe coloană.
În partea dreaptă este prezentat rezultatul deci tabelul rezumat.

Tabelul rezultat în urma definirii folosind


Săgeată indicatoare a meniului câmpurile înserate conform figurii din stânga.
de definire a funcţiei de calcul.

Figura 6-2.

Aşa cum este indicat în figura 6-2, se poate defini funcţia de calcul
pentru fiecare celulă din tabelul rezumat (click pe săgeată şi alegerea
opţiunii Value Field Settings).

Funcţiile posibile utilizate sunt:


sumă, contorizare, medie, min,
max, produs, deviaţia standard,
varianţa. Ultimele două prezintă
variantele de calcul pentru
eşantion (se împarte la n-1)
respectiv pentru populaţie.
De asemenea se pot calcula şi
procentele pe coloana, pe linie sau
pe întreg setul de date, a
proporţiilor definite prin grupare
(prin alegerea Show Values As).

Figura 6-3. Calcule posibile în tabele pivot

Totalizarea datelor este o metodă de calcul a anumitor funcţii gen


indicatori statistici (identici celor folosiţi la tabele pivot), pentru subseturile

Rapoarte PivotTable | 47
de date create prin grupare. Crearea subunităţilor se face funcţie de
schimbarea unei valori într-o coloană sau coloane definite drept criterii de
grupare. Rezultatele sunt asemănătoare celor obţinute prin tabele pivot.
Pentru fiecare criteriu definit se va introduce un nou rând cu informaţia
calculată. Astfel prin subseturile create tabelul poate fi prezentat total sau
parţial funcţie de nivelul de grupare ales [1, 2, 5].
Coloana aleasă drept criteriu de subgrupare trebuie să fie ordonată –
aceasta deoarece în crearea grupurilor se recalculează funcţia definită
pentru fiecare schimbare a valorii celulei din coloana criteriu.

Exemplu
Dorim să aflăm numărul de persoane funcţie de starea civilă dintr-o
foaie de calcul medicală.
În prima etapă se vor ordona datele după coloana stare civilă (selecţie tabel +
Data + Sort), apoi din Data se alege Subtotal.
Vom obţine o nouă fereastră de definire
a opţiunilor din cadrul subtotalizării.
Am selectat în prima căsuţă text coloana
Stare Civilă, funcţia folosită a fost Count
iar subtotalul va fi adăugat la Starea
Civilă prin suprascrierea subtotalului
curent existent.
Informaţia adăugată poate fi înserată la
sfârşitul sau începutul categoriei din
cadrul coloanei criteriu.
În partea din stânga a foii de calcul apar
subgrupurile numerotate 1,2,3 (figura 6-
5). Pentru o singură coloană criteriu sunt
3 subgrupuri posibile.

Figura 6-4. Subtotal

La fiecare criteriu adăugat va apare un nou număr (deci se continuă


cu 4) ceea ce indică noi calcule realizate şi înserate în foaia de date.
Prin alegerea subgrupului 2 din cadrul exemplului creat se afişează
practic numărul de cazuri după starea civilă (prezentat mai jos).
Se pot adăuga noi informaţii de calcul prin debifarea opţiunii de
înlocuire a subtotalului curent (Replace current subtotals).

48 | Rapoarte PivotTable
Cele 3 nivele
create cu subtotal.

Figura 6-5. Nivelul al doilea al tabelului creat prin subtotal

Tabelul nou creat poate fi copiat şi utilizat în altă foaie de calcul.


Atenţie - această copiere trebuie făcută doar asupra celulelor vizibile. Pentru
ceasta se vor selecta celulele prezentate în figura de mai sus, apoi din
Home+Find &Select se alege Go to special şi se bifează Visible cells only. Apoi
cu Copy vor fi copiate numai celulele vizibile nu întreg tabelul.
Această tehnică este o alternativă pentru metoda tabelelor pivotante.
Funcţiile ce se utilizează în calcul sunt identice în cele două metode
prezentate până acum.
Filtrele sunt metode de prezentare a datelor funcţie de criteriile
selectate. Filtrele nu sunt folosite pentru calcule ci doar pentru a prezenta
anumite rânduri ce îndeplinesc criteriile stabilite [1]. Totuşi în bara de stare
în colţul din stânga jos se afişează numărul de date contorizate în cadrul
unei selecţii.
Filtrele sunt folosite pentru selecţie dar şi pentru verificarea datelor
şi apoi corectarea lor. Crearea unui filtru înseamnă transformarea primului
rând, deci a capului de tabel, într-o listă derulantă ce prezintă toate
variantele distincte existente în fiecare coloană. Astfel, se pot selecta
categoriile de interes [1, 2, 3].
Pentru o condiţie multiplă se vor alege din mai multe coloane
categoriile de selecţie. Operatorul logic de combinare a criteriilor dintre
coloane este “şi”. Vor fi afişate rândurile ce îndeplinesc toate criteriile
definite simultan.
Activarea filtrului: Home + Sort&Filter + Filter sau Data + Sort&Filter
+ Filter.
Exemplu – crearea unui filtru cu selecţia doar a celor ce sunt
căsătoriţi şi sunt salariaţi.

Rapoarte PivotTable | 49
Figura 6-6. Crearea unui filtru

Figura 6-7. Opţiunile de filtrare – filtru asupra unei coloane numerice

Poate era şi de aşteptat ca în cadrul realizării unui filtru să avem


posibilităţi diferite de selecţie.

50 | Rapoarte PivotTable
Iată variantele de selecţie posibile pentru o coloană de tip numeric:
 egalitate cu o valoare de referinţă,
 diferit de o valoare anume,
 mai mare ca o valoare anume,
 mai mic faţă de o referinţă,
 valori dintr-un interval,
 primele n valori (ex. 10),
 valori peste sau sub medie (poate fi realizat ca valori peste /sub un
prag),
 posibilitatea de personalizare scriind o expresie logică.

EXERCIŢII

Fișierul Excel de lucru conține un număr de date generic definite.

1. Folosind tehnica tabelelor pivot răspundeți la următoarele întrebări:


a. Creaţi un tabel cu numărul de persoane grupate după mediu
rezidenţă şi stare civilă,
b. Aflați numărul de persoane pentru fiecare nivel de instruire şi
ocupaţie,
c. Calculaţi media IMC funcţie de mediul de rezidenţă ,
d. Calculaţi media şi deviaţia standard a IMC-ului pentru fiecare
element ce definește starea civilă,
e. Pentru întrebările de la punctele a şi b calculaţi procentul pe
orizontală (pe rând).

Tabelul de date are forma:

Figura 6-8.

Rapoarte PivotTable | 51
Observaţie:
Pentru ultima întrebare veţi folosi
la definirea funcţiei de calcul
Value Field Settings opţiunea de
calcul a procentului pe rând aşa
cum este prezentat în figura
alăturată.

Figura 6-9.

2. Aveţi următorul set de date:

Figura 6-10.

a. Folosind tehnica filtrării verificaţi corectitudinea codificării pentru


coloanele Dg1 şi Dg2. Aici puteţi întâlni greşit introdus codul
diagnosticului în sensul folosirii literelor mici sau mari, spaţii
suplimentar introduse sau chiar scrieri întregi necodificate. Corectaţi
şi păstraţi forma de codificare prezentată în tabelul din dreapta.
b. Folosind metoda tabelelor pivot dar şi tehnica totalizării determinaţi
distribuţia datelor funcţie de coloana diagnostic 1.
c. Calculaţi media, minimul şi maximul ClCr pentru fiecare tip de
diagnostic din Dg1 prin cele 2 metode (tabele pivot şi totalizare).

52 | Rapoarte PivotTable
d. Determinaţi distribuţia datelor după diagnosticul al doilea prin
metodele cunoscute (frecvenţă).

3. Aveţi tabelul cu datele medicale prezentat parţial mai jos.

Figura 8-11.

Răspundeţi la următoarele întrebări:


a. Verificaţi şi corectaţi prin metoda filtrării eventualele greşeli
prezente în tabel.
b. Aflaţi numărul de persoane în formă absolută cât şi procentuală
pe judeţ şi pe tip post/premenopauză,
c. Determinaţi distribuţia pacienţilor pe judeţ şi mediu
urban/rural,
d. Calculaţi numărul de subiecţi pentru fiecare tip de leziune şi
stadiu preoperator (valori absolute şi procentuale),
e. Aflaţi numărul de persoane (valori absolute şi procentuale) ce au
prezentat leziune multicentrică, apoi cele cu invazie vasculară şi
în final cele cu invazie perineurală,
f. Pentru fiecare stadiu preoperator determinaţi numărul de
metastaze (absolut şi procentual),
g. Răspundeţi la punctele b şi c prin metoda filtrării. Copiaţi apoi
datele rezumate într-o nouă foaie de calcul.
Observaţi şi reţineţi avantajul folosirii tehnicilor descrise comparativ cu
alternativa utilizării funcţiilor countif() sau averageif().

Rapoarte PivotTable | 53
7 REPREZENTAREA GRAFICĂ A DATELOR

Noţiuni prezentate:
 Prezentare generală;
 Tipuri de grafice;
 Crearea şi editarea graficelor.

Graficele sunt reprezentări vizuale a datelor, ce ajută la evidențierea


caracteristicilor seturilor analizate prin asocieri, tendințe, generare de
structuri, sunt utile în comparații și poate transmite informația de bază în
mod clar și lesne de înțeles prin imaginea creată.
Microsoft Excel oferă o larga varietate de grafice (diagrame), ce
permit afişarea datelor în moduri dedicate, cum ar fi cele de tip: Linie (Line),
Coloană (Column), Suprafață (Area), Bară (Bar), Puncte (Scatter) sau Cerc
(Pie) [6]. Se pot combina de asemenea mai multe tipuri de diagrame pe
aceeași reprezentare prin atribuirea acestora unor serii de date diferite.
Acestea sunt graficele combinate (Combo Charts).

TIPURI DE GRAFICE (DIAGRAME):


 Grafice coloană
 Grafice linie
 Grafice cu structură radială sau cerc.
 Grafice bară
 Grafice zonă
 Grafice prin puncte
 Grafice bursiere
 Grafice suprafaţă
 Grafice de structură inelară
 Grafice cu bule
 Grafice radar
Pentru realizarea unei diagrame se selectează acele blocuri de
celule din foaia de calcul care vor fi reprezentate grafic (inclusiv celulele
corespunzătoare etichetelor de rând şi/sau coloană). Datele trebuie
aranjate în rânduri și coloane, cu etichetele de rând la stânga și etichetele de
coloană deasupra datelor. Pentru a vedea toate tipurile de diagrame
disponibile, faceți clic pe caseta de dialog Insert Charts, apoi faceți clic pe
săgeți pentru a defila în tipurile de diagrame.

54 | Reprezentarea grafică a datelor


Graficul creat poate fi inserat în foaia curentă de calcul, în altă foaie
de calcul a aceluiaşi fişier sau într-un fişier diferit utilizând comanda
(Move Chart).

Figura 7-1. Tipuri de grafice

Grafice coloană (column)


 Pentru realizarea graficului de tip coloană datele vor fi aranjate în
coloane sau rânduri într-o foaie de calcul (spreadsheet). Diagramele
coloană sunt utile pentru
afişarea modificărilor
datelor într-o perioadă de
timp sau pentru ilustrarea
unor comparaţii între
elemente. În diagramele
coloană, categoriile sunt
de obicei organizate pe
axa orizontală iar valorile
pe axa verticală.
Figura 7-2. Grafic coloană

Reprezentarea grafică a datelor | 55


Datele sursă ale graficului se pot verifica şi eventual se modifică dacă
este cazul apelând meniul Select Data ce deschide caseta de dialog Select
Data Source. În caseta Zonă de date (Chart data range) sunt prezentate blocurile
de celule selectate ce stau la baza diagramei, acestea putându-se modifica
ulterior.

Grafice linie (line)


 Graficele tip linie pot afişa date continue în timp, în funcţie de o scală
comună şi, de aceea, sunt ideale pentru afişarea tendinţelor datelor
măsurate la intervale egale. Într-o diagramă linie, datele din categorii
sunt distribuite egal pe axa orizontală iar valorile corespunzătoare
categoriilor sunt distribuite proporțional pe axa verticală.
 Se utilizează un grafic de
tip linie dacă categoriile de
date ce se doresc a fi
reprezentate sunt valori
spaţiate egal cum ar fi luni,
trimestre etc. Practic axa XX’
este tratată ca o axă
categorială. Acest tip de
grafic se utilizează şi în cazul
în care există mai multe serii.
Figura 7-3. Grafic tip linie cu două seturi de valori

 Pentru o serie, se ia în considerare utilizarea unei diagrame de categorii.


De asemenea, ar trebui să se utilizeze un grafic linie dacă sunt puţine
etichete chiar valori numerice spaţiate egal, de exemplu anii de studiu.
Dacă există mai mult de zece categorii, se va utiliza în schimb un grafic
prin puncte.

Grafice cu structură radială sau cerc (pie)


 Graficele cu structură
radială arată dimensiunea
elementelor dintr-o serie de
date proporţional cu suma
elementelor. Acestea acceptă
numai o serie de date. Într-
un grafic cu structură radială
valorile sunt afişate ca
procent din întregul cerc.
Sunt des întâlnite în
reprezentarea compoziției
unei populații de studiu.
Figura 7-4. Grafic cerc

56 | Reprezentarea grafică a datelor


Graficele de structură radială au următoarele subtipuri de diagrame:
structură radială din structură radială (cerc din cerc) şi bară din structură radială
(bară din cerc).
 Graficele cu structură radială din radială şi bară din radială afişează
diagrame de structură radială cu valori definite de utilizator extrase din
diagrama principală şi combinate într-o a doua diagramă de structură
radială sau într-o diagramă bară stratificată. Aceste tipuri de diagrame
sunt utile când se doreşte extragerea sectoarelor mici din structura
radială principală pentru a fi mai uşor de distins.

Figura 7-5. Scoaterea în evidență din graficele cerc a anumitor subcategorii

Grafice bară
 Graficele de tip bară evidenţiază comparaţii între elemente individuale.

Figura 7-6. Grafic bară

Acestea prezintă o serie de subtipuri de diagrame:


 bară grupată ce compară valorile după categorii. Într-un grafic bară
grupată, categoriile sunt de obicei organizate pe axa verticală, iar
valorile pe axa orizontală.
 bară stratificată. Graficul bară stratificată arată relația elementelor
individuale cu întregul.
 bară stratificată 100%. Acest tip de grafic compară procentul avut de
fiecare categorie din total.
Toate subtipurile prezentate pot fi reprezentate şi 3D fiind vorba doar
de forma dreptunghiului şi nu de afişarea datelor în 3 axe. Aceste

Reprezentarea grafică a datelor | 57


grafice sunt de asemenea disponibile şi sub formă de cilindru, con sau
piramidă orizontală, singura diferență este că aceste tipuri de grafice
afișează forme de cilindru, con și piramidă în locul dreptunghiurilor
orizontale.

Grafice zonă, domeniu sau arie (area)


 Graficele tip zonă
accentuează magnitudinea
schimbării în timp şi pot fi
utilizate pentru a atrage
atenţia asupra valorii totale
în funcţie de o tendinţă. De
exemplu, datele care
reprezintă evoluţia în timp
pot fi reprezentate într-o
diagramă zonă pentru a
accentua frecvenţa totală.
Figura 7-7. Grafic zonă (domeniu, arie)

 Afişând suma valorilor reprezentate, o diagramă zonă arată şi relaţia


părţilor cu întregul.

Grafice prin puncte (scatter)


 Acest tip de grafic este caracterizat de faptul că atât axa XX’ cât și axa
YY’ sunt de tip numeric. Astfel valorile de pe abscisă vor fi proporțional
reprezentate cu magnitudinea lor și corespunzător vor fi independente
de poziția lor în șirul de date (diferență esențială față de tipurile linie,
coloană sau bară în care ordinea conta).
 Ca urmare a acestei proporții în redare, diagramele prin puncte sunt
folosite pentru a afişa posibile relaţii între valorile numerice de pe axa
XX’ și valorile numerice de pe axa YY’.
 Se pot folosi spre reprezentare mai multe serii de date Y1, Y2… Yn dar
aceste valori vor fi raportate la singurul set de valori de pe XX’. Altfel
spus, vom avea serii de genul (x,y1) apoi (x,y2) și așa mai departe.
Valorile de pe Y vor fi citite în cadrul seriilor în aceleași puncte ce
definesc valorile corespunzătoare de pe X. Vom avea astfel o coloană X
și seturile corespunzătoare Y1, Y2, …Yn (n este numărul de serii de
reprezentat).
 Având valori numerice atât pe X cât și pe Y putem folosi acest grafic în
situațiile următoare:
 Se doresc anumite modificări ale scalei axei orizontale. De exemplu
o reprezentare logaritmică.
 Valorile pentru axa orizontală nu sunt spaţiate egal.

58 | Reprezentarea grafică a datelor


 Se doreşte afişarea în mod eficace a datele din foaia de calcul, care
include seturi de valori perechi sau grupate şi reglarea scalelor
independente ale unei diagrame prin puncte pentru a dezvălui mai
multe informaţii despre valorile grupate.
 Pentru evidenţierea unor asemănări între seturi mari de date în
schimbul diferenţelor dintre punctele de date.
 În cazul în care se
doreşte compararea mai
multor puncte (date) fără
implicarea timpului; cu cât
se vor include mai multe
date într-o diagramă prin
puncte cu atât mai precise
vor fi comparaţiile care se
pot face.
Figura 7-8. Grafic în puncte. Posibilă relație între
înălțime și greutate.

Grafice bursiere (stock)


 Sunt situații în care avem de reprezentat mai multe valori numerice ce
sunt caracteristice pentru fiecare grup de pe axa XX’. De exemplu
variația unui parametru medical în forma: valoare minimă, maximă și
valoare finală. După cum implică şi numele dar și folosind puțină
imaginație, putem aprecia că o diagramă bursieră se utilizează cel mai
des pentru a ilustra fluctuaţia anumitor parametri. Cu toate acestea,
diagrama bursieră poate fi utilizată şi pentru date de altă natură. De
exemplu, se poate utiliza acest grafic pentru a indica variația
temperaturii zilnice. Datele trebuie introduse într-o ordine predefinită
pentru a crea diagrame bursiere.
 Modul în care sunt organizate datele unei diagrame bursiere în foaia de
calcul este foarte important. De exemplu, pentru a crea o diagramă
bursieră de tip maxim-minim-medie (valoare finală), ar trebui să aranjaţi
datele respectând chiar ordinea cerută (des folosite Max-Min-Media).
40 ziua max min media

39 ziua 1 39.2 38.2 38.7


ziua 2 39.1 38 38.6
38
max ziua 3 38.5 37.6 38.1
37 min ziua 4 38.2 37.4 37.8
media
36 ziua 5 38 37.1 37.6
ziua ziua ziua ziua ziua ziua ziua ziua 6 37.6 36.8 37.2
1 2 3 4 5 6 7 ziua 7 37.1 36.5 36.8
Figura 7-9. Diagrama bursieră

Reprezentarea grafică a datelor | 59


Grafice suprafaţă
În general acest tip de grafic permite reprezentarea pe o suprafața a
valorilor unei variabile în funcție de doi parametrii.
 Reprezentarea grafică tip suprafaţă se utilizează de obicei pentru a
arăta relațiile între volume mari de date, care altfel pot fi dificil de
văzut. De asemenea această reprezentare este utilă când se doreşte
găsirea unor combinaţii optime între diferite serii de date. Ca într-o
hartă topografică, culorile şi modelele indică zone care se află în acelaşi
plaje de valori.
 Corespunzător unui grafic de tip suprafaţă culoarea pentru fiecare zonă
este determinata de coordonata z iar harta de culori (o harta de culori
este o lista ordonata de culori) va fi specificată adăugându-se o bară de
culori (legenda) pentru a arata modul în care acestea sunt atribuite
datelor.
 Se poate utiliza o diagramă suprafaţă şi când atât categoriile cât şi
seriile de date sunt valori numerice.
Un alt scop al acestui
tip de grafic este
reprezentarea grafică a
unor funcţii. Astfel, în
foaia de calcul sunt
dispuse ca într-o matrice
valorile funcţiei ce se
doreşte a se reprezenta
grafic.

Figura 7-10. Grafic suprafață

Grafice cu structură inelară


 Asemenea unei diagrame cu
structură radială, o diagramă cu
structură inelară arată relaţia
părţilor cu întregul și poate
conţine mai multe serii de date.
Fiecare serie de date este
reprezentată ca un nou inel în
cadrul graficului. Comparativ
amintim că diagramele de
structură radială au numai o
serie de date.
Figura 7-11. Grafic inelar

60 | Reprezentarea grafică a datelor


Grafice tip „nor de puncte” (Bubble)
 Pentru realizarea acestui grafic datele sunt aranjate în coloane într-o
foaie de calcul astfel încât valorile x sunt plasate în prima coloană iar
valorile y corespondente şi valorile ce vor da dimensiunea sferelor
(bule) sunt listate în coloanele adiacente.
 De exemplu, se pot organiza datele aşa cum se afişează în următorul
exemplu.

Valoare maxima
Nr. cazuri parametru Frecventa relativa
12 9.5 9.2%
23 12.3 17.7%
31 10.5 23.8%
8 8.4 6.2%
2 7.1 1.5%

Figura 7-12. Grafic tip bule

Graficele tip “nor de puncte” (Bubble), sunt similare cu graficele Scatter,


cu deosebirea că marcatorul “bulină” indică valoarea celei de-a treia valori
studiate sub forma mărimii acesteia.

Grafice radar (polare)


 Este singurul grafic ce
folosește coordonate polare
(unghi si distanta fata de centru
de coordinate). Poziția de start
este, daca ne imaginam un ceas,
ora 12.00. Cele 3600 sunt
împărțite la numărul de categorii
de reprezentat si astfel se deduce
unghiul de avans pentru fiecare
pas.

Figura 7-13. Grafic tip radar

 În concluzie, o astfel de diagramă poate reprezenta grafic una sau mai


multe serii de date.
 Cu sau fără marcaje pentru punctele de date individuale, graficele de tip
radar afişează modificările valorilor relativ la centrul de coordonate
(punct central.

Reprezentarea grafică a datelor | 61


Crearea şi editarea graficelor
După cum s-a observat şi din prezentarea anterioară datele din
coloanele şi rândurile unei foi de calcul pot fi reprezentate grafic, utilizând
majoritatea tipurilor de diagramă. Însă unele tipuri de grafice (cum ar fi
diagramele cu structură radială sau diagramele tip bubble) necesită un
aranjament specific al datelor [5].
Astfel, pentru a realiza o reprezentare grafică se vor introduce în foaia
de calcul datele corespunzătoare. Excel poate determina automat cel mai
bun mod de a reprezenta date în diagramă. Ulterior se vor parcurge
următorii paşi:
 Se vor selecta celulele care conţin datele pe care doriţi să le reprezentaţi.
 Dacă se va selecta numai o celulă, Excel va reprezenta grafic automat
toate celulele care conţin date adiacente acelei celule într-o diagramă.
Dacă celulele care doriţi să le reprezentaţi într-o diagramă nu se află
într-o zonă continuă, aveţi posibilitatea să selectaţi celule neadiacente
sau zone de celule, condiţia fiind ca selecţia să formeze un dreptunghi.
De asemenea, aveţi posibilitatea să ascundeţi rândurile sau coloanele pe
care nu doriţi să le reprezentaţi în diagramă.
 În setul de comenzi Inserare (Insert), în grupul Grafice (Chart), efectuaţi:
 Faceţi clic pe tipul de diagramă, apoi pe subtipul de diagramă pe
care doriţi să-l utilizaţi.
 Pentru a vedea toate tipurile de diagrame disponibile, faceţi clic pe
butonul săgeată pentru a lansa caseta de dialog Inserare
diagramă, apoi faceţi clic pe săgeţi pentru a defila în tipurile de
diagrame.

Figura 7-14. Inserarea graficelor

 Graficul va fi creat şi poziţionat în mod implicit lângă tabelul de


date.
 După crearea unui grafic, se pot adăuga cu uşurinţă noi elemente.
De exemplu, se pot adăuga titluri pentru a oferi un acces mai clar la
informaţie, sau se poate schimba poziţia elementelor.
 Atunci când se creează un grafic, va apare caseta Chart Tools, (unelte
grafice), care include grupurile Design, Layout şi Format. În aceste
grupuri se găsesc comenzile necesare pentru a formata (modifica,
completa) graficul realizat.

62 | Reprezentarea grafică a datelor


Figura 7-15. Meniul corespunzător comenzilor de editare a graficelor

 După ce a fost creat graficul, există posibilitatea modificării aspectului


acestuia. În loc să se adauge sau să se modifice manual elementele din
grafic sau să se formateze graficul, există posibilitatea să se aplice intr-
un mod facil un aspect şi un stil predefinit graficului existent. Excel
furnizează o varietate de aspecte şi stiluri predefinite utile (sau aspecte
rapide şi stiluri rapide) din care se poate selecta. Există însă şi
posibilitatea să se particularizeze un aspect sau un stil după preferinţă,
modificând manual aspectul deci formatul elementelor individuale din
grafic.
 Pentru a schimba tipul de grafic se selectează zona diagramei, apoi se
face clic-dreapta (cu butonul din dreapta al mouse-ului) pe ea, după care
se va selecta opţiunea Change Chart Type sau Change Series Chart Type.

Figura 7-16. Lista comenzilor corespunzătoare editării unui grafic

Modificarea manuală a aspectului elementelor diagramei


 Faceţi clic-dreapta (cu butonul din dreapta al mouse-ului) pe elementul
din grafic pentru care doriţi să modificaţi aspectul.
 Pentru a formata seria de date, se selectează seria de date din diagrama,
se punctează cu butonul din dreapta al mouse-ului pe ea, după care se
selectează meniul Format Data Series (formatare serii de date).

Reprezentarea grafică a datelor | 63


Figura 7-17. Formatarea seriei de date Figura 7-18. Formatarea axelor

 Pentru modificarea formatului axelor se selectează axa verticală a


valorilor, apoi se face clic-dreapta pe meniul Format Axis.
 Pentru a formata legenda, se va face clic-dreapta pe ea apoi se va selecta
opţiunea Format Legend (formatare legendă) din meniu.

Figura 7-19. Formatarea legendei

 În concluzie, opţiunile de aspect care se vor selecta sunt aplicate


elementului corespunzător din grafic. De exemplu, dacă se va selecta
întreaga diagramă, etichetele de date se vor aplica la toate seriile de
date. Dacă se va selecta un singur punct de date, etichetele de date se
vor aplica doar la seriile de date selectate sau la un punct de date.

64 | Reprezentarea grafică a datelor


Figura 7-20. Adăugarea etichetelor Figura 7-21. Adăugarea datelor în grafic

 Adăugarea de noi date în grafic. Se punctează pe Chart, apoi Select


Data. În zona de editare Chart data range se va introduce zona care conţine
datele ce trebuiesc reprezentate pe vechea diagramă. Se apasă butonul ok.

EXERCIŢII

1. Reprezentaţi grafic valorile frecventei scorurilor din tabel printr-un


grafic de tip COLUMN.
2. Reprezentaţi grafic vârsta, pe grupe de vârstă (10-19, 20-29, 30-39,
40-49, peste 50), printr-un grafic de tip BAR.
3. Reprezentaţi structura pe sexe a lotului din tabel printr-un grafic de
tip PIE.
4. Reprezentaţi ponderea în funcţie de mediul de provenienţă printr-
un grafic de tip DOUGHNUT.
5. Reprezentaţi structura lotului în funcţie de scorul GCS printr-un
grafic de tip RADAR.
6. Reprezentaţi frecvenţa scorurilor GCS comparativ pe sexe printr-un
grafic de tip COLUMN.
7. Reprezentaţi modul de variaţie a greutăţii în funcţie de înălţime
printr-un grafic de tip SCATTER.
8. Reprezentaţi modul de variaţie a glicemiei în funcţie de greutate
printr-un grafic de tip SCATTER.

Reprezentarea grafică a datelor | 65


8 REPREZENTAREA GRAFICĂ A FUNCŢIILOR

Noţiuni prezentate:
 Reprezentarea grafică a funcţiilor utilizând grafice de tip SCATTER;
 Reprezentarea grafică a funcţiilor utilizând grafice de tip SURFACE;

Reprezentarea grafică în Microsoft Excel 2010 permite evidenţierea


unor modele sau tendinţe care pot duce la decizii informate şi la
îmbunătăţirea capacitaţii de a analiza mari seturi de date.
Dacă o linie (coloană) reprezintă valorile unei funcţii pentru o
variabilă dată, Excel permite reprezentarea grafică a acestei funcţii. Pe
acelaşi sistem de axe pot fi reprezentate mai multe grafice. Utilizând
uneltele de editare a graficelor se poate însera titlul graficului, se pot defini
axele (nume, unitate de măsură), se poate reprezenta o legendă și chiar se
pot atașa valorile numerice fiecărui punct din grafic [5].
Graficele de tip XY (Scatter) permit reprezentarea funcţiilor
matematice în Microsoft Excel. Caracteristica principală constă în utilizarea
valorilor numeric atât pe XX’ cât și pe YY’ [5].
Posibilităţile de reprezentare grafică ale programului Microsoft
Excel permit vizualizarea comparativă a doua sau mai multe grafice ale
unor funcţii reprezentate în acelaşi reper cartezian. Singura condiţie este ca
domeniile de definiţie ale funcţiilor să coincidă (setul de valori pe XX’ în
care se calculează funcțiile). Este necesar ca diviziunile de puncte alese să fie
aceleaşi (ex.: atât funcția 𝑓𝑓(𝑥𝑥) = sin 𝑥𝑥, cât și 𝑔𝑔(𝑥𝑥) = cos 𝑥𝑥 vor fi calculate în
aceleași puncte x1, x2…xn).
Practic pentru a reprezenta grafic o funcție cunoscută ca formă
analitică (de ex. f(x)=2*x^2+5*x+1) vom defini un set de puncte pe axa XX’
pentru care vom calcula valorile f(x). Este de așteptat să avem o
reprezentare într-o formă cât mai continuă cu cât numărul de puncte
generate pe axa XX’ este mai mare. Vom crea astfel două coloane
reprezentând datele perechi de forma (xi, f(xi)). Prin selecția celulelor și
alegerea tipului de grafic Scatter vom obține o primă formă a diagramei
funcției generate.

Exemplul 1.
Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 − 2𝑥𝑥 + 1 pentru valori ale
lui x∈[-0.2, 1.2].
66 | Reprezentarea grafică a funcţiilor sub formă analitică
Rezolvare:
Etapele realizării acestui grafic:
1. Alegem domeniul de definiţie al funcţiei intervalul [-0.2, 1.6]
2. Folosind comanda Auto Fill generaţi o serie de valori de la -0.2
până la 1.6 cu pasul 0.1 (diviziune echidistantă).
3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi
valorile funcţiei pentru fiecare punct al intervalului.
4. Din meniul Insert selectaţi Charts
5. Selectaţi tipul de grafic XY (Scatter).
6. Daca doriţi să mai adăugaţi şi anumite comentarii la grafic sau să
faceţi modificări asupra legendei graficului sau alte modificări
de natură explicativă puteţi realiza toate aceste modificări în
urma realizării graficului.
Recomandări:
În celulele A2:A16 se introduc valorile lui x, iar celula B2 se
introduce expresia matematică a funcţiei:
𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 − 2𝑥𝑥 + 1→ = 𝐴𝐴2 ∗ 𝐴𝐴2 − 2 ∗ 𝐴𝐴2 + 1
Valorile argumentului funcţiei va fi o progresie aritmetică având
primul termen -0.2 şi raţia de 0.1.
Se selectează zona B2:B16, apoi se selectează Charts din sub-meniul
Insert ce permite afişarea ferestrei Insert Charts necesară pentru selectarea
tipului de grafic dorit. Pentru acest exemplu se alege graficul de tip X Y
(Scatter) prezentat în figura de mai jos.
Acest tip de grafic se poate utiliza şi în cazul în care trebuie să se
afişeze conectarea punctelor corespunzătoare datelor. Această conectare se
realizează prin puncte cu linii fine şi prin puncte cu linii fine şi marcaje. Prin
trasarea liniei se ataşează graficului o curbă care leagă punctele de date.
Liniile pot fi afişate cu sau fără marcaje. Ca şi recomandare, se propune
utilizarea unei linii netede fără marcatori dacă există multe puncte de date.

Figura 8-1. Datele şi reprezentarea grafică a funcţiei 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 − 2𝑥𝑥 + 1

Reprezentarea grafică a funcţiilor sub formă analitică | 67


Exemplul 2.
Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝑠𝑠𝑠𝑠 2𝑥𝑥 − 1, pentru valori ale
lui x∈[-0.4, 7.4].

Rezolvare
Etapele realizării acestui grafic:
1. Alegem domeniul de definiţie al funcţiei intervalul [-0.4, 7.4]
2. Folosind comanda Auto Fill se va genera o serie de valori de
la -0.4 până la 7.4 cu pasul 0.2 (diviziune echidistantă).
3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi
valorile funcţiei pentru fiecare punct al intervalului.
4. Din meniul Insert selectaţi Charts
5. Selectaţi tipul de grafic XY (Scatter).

Recomandări:
În celulele A23:A62 se introduc 40 valori pentru x, iar celula B23 se
introduce expresia matematică a funcţiei:
𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝑠𝑠𝑠𝑠 2𝑥𝑥 − 1 → = 𝐴𝐴23 ∗ sin(2 ∗ 𝐴𝐴23) − 1.
Valorile argumentului funcţiei va fi o progresie aritmetică având
primul termen -0.4 şi raţia de 0.2. Pentru calculul valorilor funcţiei (B23:B62)
corespunzătoare valorilor x din celulele A23:A62, se foloseşte tehnica
AutoFill prin completarea celulelor cu date deduse din informaţia conţinută
în celula sursă (celula B23 → = 𝐴𝐴23 ∗ 𝑠𝑠𝑠𝑠𝑠𝑠(2 ∗ 𝐴𝐴23) − 1).
Se selectează zona B23:B62, apoi se selectează tipul de grafic dorit.
Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura
de mai jos.

Figura 8-2. Datele şi reprezentarea grafică a funcţiei 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝑠𝑠𝑠𝑠 2𝑥𝑥 − 1

68 | Reprezentarea grafică a funcţiilor sub formă analitică


Exemplul 3.
−(𝑥𝑥−𝜇𝜇)2
1
Să se reprezinte grafic funcţia Gauss-Laplace 𝑓𝑓(𝑥𝑥) = ∙ 𝑒𝑒 2∙𝜎𝜎2 .
𝜎𝜎√2∙𝜋𝜋
Rezolvare
1. Alegem domeniul de definiţie al funcţiei intervalul [2.1, 7.9].
2. Folosind comanda Auto Fill se va genera o serie de valori de
la 2.1 până la 7.9 cu pasul 0.2 (diviziune echidistantă).
3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi
valorile funcţiei pentru fiecare punct al intervalului.
4. Din meniul Insert selectaţi Charts.
5. Selectaţi tipul de grafic XY (Scatter).

Recomandări:
Se va calcula iniţial media aritmetică a seriei generate (µ) şi deviaţia
standard (σ).
În celulele A2:A31 se introduc 30 valori pentru x, iar celula E3 şi E4
se vor calcula valorile mediei (µ→utilizând funcţia AVERAGE) şi a deviaţiei
standard (σ→utilizând funcţia STDEV).
Pentru calculul valorilor funcţiei (B2:B31) corespunzătoare valorilor
x din celulele A2:A31, se foloseşte tehnica AutoFill prin completarea
celulelor cu date deduse din informaţia conţinută în celula sursă:
(celula B2→f(x)=1/(E$3*SQRT(2*PI()))*EXP(-POWER((A5-E$2),2)/2*POWER(E$3,2)).
Se selectează zona B2:B31, apoi se selectează tipul de grafic dorit.
Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura
următoare.

Figura 8-3. Datele şi reprezentarea grafică a funcţiei Gauss-Laplace

Reprezentarea grafică a funcţiilor sub formă analitică | 69


Exemplul 4.
𝑥𝑥 2 𝑦𝑦 2
Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥, 𝑦𝑦) = 16 + 25 , pentru x∈[-4, 4] şi y∈[-5, 5].
Rezolvare:
1. Folosind comanda Auto Fill se vor genera 2 serii de valori în
intervalul [-4, 4] respectiv [-5, 5] cu pasul 0.2 (diviziune
echidistantă).
2. Folosind operatori aritmetici şi comanda Auto Fill calculaţi
valorile funcţiei pentru fiecare punct al intervalului.
3. Din meniul Insert selectaţi Charts
4. Selectaţi tipul de grafic XY (Scatter).
Recomandări:
În celulele A4:A44 se introduce seria de valori pentru x , x∈[-4, 4], cu
pasul 0.2, iar în celulele B4:AZ4, seria de valori pentru y∈[-5, 5], cu pasul
0.2. Valorile x ale argumentului funcţiei va fi o progresie aritmetică având
primul termen ˗4 şi raţia de 0.2 iar pentru y se va genera o progresie
aritmetică având primul termen ˗5 şi raţia de 0.2.
În celulele B5:AZ44 se introduc formulele corespunzătoare pentru
calculul valorilor punctelor de pe suprafaţă în punctele de la intersecţia
liniei cu coloana respectivă. Se selectează zona B5:AZ44 şi se creează
graficul de tip suprafaţă ce reprezintă un paraboloid eliptic.
Obs. O diagramă suprafață este utilă când doriți să găsiți combinații
optime între două seturi de date.

Figura 8-4. Datele şi reprezentarea grafică a funcţiei f(x, y)

70 | Reprezentarea grafică a funcţiilor sub formă analitică


Exemplul 5.
Utilizând tipul de diagramă Stock (volume-high-low-close) să se
reprezinte grafic volumul eşantionului studiat, media şi intervalul de
confidenţă pentru vârstă, greutate, înălțime, glicemie.
Rezolvare:
1. Folosind comanda Auto Fill se vor genera cele 4 serii de
valori (vârsta, greutate, înălţime, glicemie).
2. Se vor calcula valorile medii şi variaţia acestora pentru un
interval de confidenţă de 95%.
3. Se vor aranja valorile reprezentate corespunzător tipul de
grafic Stock (volume-high-low-close).
4. Datele rezultate se vor selecta apoi din meniul Insert –Charts
selectaţi tipul de grafic corespunzător.
Recomandări:
După cum sugerează şi numele, o diagramă Stock este cel mai adesea
folosită pentru a ilustra fluctuaţia unor variabile (date ştiinţifice). De
exemplu, aveţi posibilitatea să utilizaţi o diagramă stoc pentru a indica
fluctuaţia temperaturilor zilnice şi volumul eşantionului studiat.
Modul în care sunt organizate datele pentru un grafic tip Stock este
foarte important. Este necesară existenţa a patru serii de valori în ordinea
corectă (volum, valoare minimă, valoare maximă, valoare medie). Acest tip
de grafic evidenţiază volumul eşantionului studiat corespunzător fiecărei
serii analizate utilizând două axe valori: una pentru coloanele pe care este
indicat volumul eşantionului şi cealaltă axă pentru valorile min, max,
medie.

Figura 8-5. Datele şi reprezentarea grafică (diagramă tip Stock)

Reprezentarea grafică a funcţiilor sub formă analitică | 71


EXERCIŢII

1. Să se reprezinte grafic funcţiile

𝑒𝑒 −2𝑥𝑥
a. 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 +1 + 3𝑥𝑥 − 𝑥𝑥 2

b. 𝑔𝑔(𝑥𝑥) = 2 𝑠𝑠𝑠𝑠𝑠𝑠(3𝑥𝑥) − 𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥(3𝑥𝑥)

2. Să se reprezinte grafic 2 forme ale funcţiei Gauss-Laplace utilizând


funcţia NORMDIST.

72 | Reprezentarea grafică a funcţiilor sub formă analitică


9 ELEMENTE DE TEORIA PROBABILITĂŢILOR (I)

Noţiuni prezentate:
 Experiență. Probă. Eveniment
 Evenimente compatibile. Evenimente incompatibile
 Evenimente dependente. Evenimente independente (I)
 Operații cu evenimente

Experiență. Probă. Eveniment


Definiție. Prin experiență (experiment) se înțelege realizarea practică a
unui complex de condiții, corespunzător unui criteriu dat de cercetare a
colectivităților statistice omogene.
Definiție. Prin probă înțelegem realizarea (producerea) o singură dată
a experienței.
Exemplu. Se poate considera drept experiență, aruncarea unui zar
perfect construit din punct de vedere geometric și omogen din punct de
vedere fizic; în acest caz proba constă în aruncarea o singură dată a zarului.
Prin intermediul exemplului de mai sus se poate defini noțiunea de
colectivitate statistică prin mulțimea punctelor care apar pe fețele zarului.
Definiție. Prin eveniment se înțelege rezultatul unei probe.
Evenimentele pot fi clasificate în trei mari categorii: evenimente sigure,
evenimente imposibile și evenimente întâmplătoare (aleatoare).
Definiție. Prin eveniment sigur se înțelege evenimentul care se
produce în mod obligatoriu la efectuarea unei probe a unei experiențe.
Definiție. Evenimentul imposibil este acela care nu se produce la
efectuarea nici unei probe.
Definiție. Se numește eveniment întâmplător (aleator), un eveniment
care poate, fie să se producă, fie să nu se producă la efectuarea unei singure
probe.

Exemple:
1. Extragerea unei bile albe dintr-o urnă care conține numai bile albe
este un eveniment sigur.
2. La aruncarea unui zar, evenimentul care constă în apariția oricărei
fețe, de la 1 la 6 , constituie evenimentul sigur.
3. Evenimentul constând în apariția unui număr de 7 puncte la o probă
a aruncării unui zar este un eveniment imposibil.

Elemente de teoria probabilităţilor (I) | 73


4. Extragerea unei bile negre dintr-o urnă care conține numai bile albe
este un eveniment imposibil.
5. Apariția feței 1 la aruncarea unui zar este un eveniment întâmplător.
Evenimentele întâmplătoare (aleatoare) se supun unor legități
numite legități statistice. În acest sens, nu se poate prevedea dacă într-o
singură aruncare a unui zar se obține fața cu numărul 6 ; dacă însă se
efectuează un număr suficient de mare de aruncări, se poate calcula cu
suficientă precizie numărul de apariții ale acestei fețe.

Evenimente compatibile. Evenimente incompatibile


Evenimentele întâmplătoare pot fi compatibile şi incompatibile.
Definiție. Două evenimente se numesc incompatibile, dacă realizarea
unuia exclude realizarea celuilalt.
Exemple:
1. Evenimentele: apariția feței 2 la aruncarea unui zar și respectiv,
apariția feței 6 la aruncarea unui zar sunt incompatibile.
2. Apariția feței cu numărul 5 la aruncarea unui zar și respectiv,
apariția unei fețe cu un număr impar de puncte la aruncarea unui
zar reprezintă două evenimente compatibile.

Evenimente dependente. Evenimente independente


Evenimentele pot fi dependente sau independente.
Definiție. Două evenimente se numesc independente, dacă realizarea
unuia nu influențează probabilitatea realizării celuilalt, și dependente în caz
contrar.
Exemple:
1. Evenimentele: apariția feței 1 la aruncarea unui zar și respectiv,
apariția feței 3 la o altă aruncare a zarului sunt independente.
2. Evenimentele: obținerea unui număr de 10 puncte la aruncarea a
două zaruri și apariția feței cu numărul 6 pe unul din cele două
zaruri, știind că acestea au suma punctelor de pe fețele de deasupra
10 , constituie două evenimente dependente [7, 8].

Operații cu evenimente
Notațiile folosite în operațiile cu evenimente sunt cele cunoscute din
teoria mulțimilor. Mulțimile vor fi evenimentele aleatoare și vor fi notate cu:
A , B , C , …. .
Fie Ω evenimentul sigur și Φ evenimentul imposibil. Acestea
corespund mulțimii totale considerate și respectiv, mulțimii vide.
Definiție. Se spune că evenimentul A implică evenimentul B , dacă
realizarea lui A atrage după sine realizarea lui B . Notația folosită: A ⊂ B .
Observație. Implicația evenimentelor este echivalentă cu incluziunea
mulțimilor.

74 | Elemente de teoria probabilităţilor (I)


Definiție. Se spune că un eveniment este contrar (opus, complementar)
evenimentului A , dacă realizarea sa constă în nerealizarea lui A . Notația
folosită este A .
Observație.
a) Evenimentul contrar evenimentului A este echivalent cu
complementara lui A din teoria mulțimilor.
b) Evenimentele A și A sunt complementare (opuse, contrare), adică,
dacă se realizează A , atunci nu se realizează A și reciproc.
Definiție. Reuniunea (sau adunarea) evenimentelor A şi B este
evenimentul S , care constă în realizarea a cel puțin unuia dintre
evenimentele A sau B .
Notația utilizată este cea din teoria mulțimilor: S = A ∪ B .
Prin introducerea noțiunilor reuniune și intersecție, unele noțiuni din
teoria probabilităților pot fi definite în mod mai precis. Astfel, pentru
evenimentele opuse se pot formula în acest moment următoarele definiții:
Definiții.
i) evenimentele A și A se numesc opuse (contrare, complementare),
dacă au loc relațiile: A ∪ A = Ω și A ∩ A = Φ .
ii) Evenimentele A şi B sunt incompatibile dacă: A ∩ B = Φ .
În caz contrar ( A ∩ B ≠ Φ ), evenimentele se numesc compatibile.

Exemplul 1. (Relațiile lui De Morgan).


Fie A și B două evenimente din același câmp de evenimente (a se
vedea Cap. 10, pag. 80). Să se arate că:
A∪ B = A ∩ B ,
A∩ B = A∪ B .
Soluție. În teoria mulțimilor aceste două relații se numesc relațiile lui
De Morgan. Interpretarea acestora este realizată în limbajul evenimentelor.
Considerăm mai întâi prima relație. A ∪ B este prin definiție,
evenimentul a cărui realizare înseamnă realizarea a cel puțin unuia din
evenimentele A sau B . Contrarul său, A ∪ B este evenimentul a cărui
realizare presupune nerealizarea, atât a evenimentului A , cât și a
evenimentului B . Dar nerealizarea evenimentului A înseamnă realizarea
evenimentului A și invers, nerealizarea evenimentului B înseamnă
realizarea evenimentului B . Deci, dacă A ∪ B se realizează, atunci se
realizează și evenimentul A și evenimentul B , adică evenimentul A ∩ B .
Concluzionăm că realizarea evenimentului A ∪ B implică realizarea
evenimentului A ∩ B , ceea ce se scrie :
A∪ B ⊂ A ∩ B . (1)

Elemente de teoria probabilităţilor (I) | 75


Invers, dacă A ∩ B are loc, adică se realizează A și B , atunci nu se
realizează nici unul din evenimentele A , B , deci nu se realizează
evenimentul A ∪ B . Dar nerealizarea lui A ∪ B înseamnă de fapt,
realizarea lui A ∪ B .
Conchidem că realizarea evenimentului A ∩ B implică realizarea
evenimentului A ∪ B , adică:
A∩ B ⊂ A∪ B. (2)
Din relațiile (1) și (2) rezultă: A ∪ B = A ∩ B .
Considerăm acum a doua relație, A ∩ B = A ∪ B . Evenimentul
A ∩ B este evenimentul a cărui producere înseamnă realizarea atât a lui A ,
cât și a lui B . Contrariul său, A ∩ B , este evenimentul a cărui realizare
înseamnă nerealizarea a cel puțin unuia din evenimentele A , B . Aşadar,
dacă A ∩ B se realizează, atunci se realizează cel puțin unul din
evenimentele A , B , adică se realizează evenimentul A ∪ B . Prin urmare:
A∩ B ⊂ A∪ B.
Invers, dacă are loc A ∪ B , atunci cel puțin unul din evenimentele A , B nu
s-a realizat, deci nu s-a realizat A ∩ B ; rezultă că s-a realizat A ∩ B . Avem
aşadar implicația:
A∪ B ⊂ A∩ B,
de unde rezultă egalitatea:
A∩ B = A∪ B.
Observație. În general, se spune că evenimentele A și B sunt egale
(şi utilizăm notaţia A = B ), dacă A ⊂ B și B ⊂ A .

Exemplul 2.
Să se demonstreze echivalența următoarelor relații:
A⊂ B, B ⊂ A, A∪ B = B , A∩ B = A.
Se va arăta că dacă una din cele patru relații este satisfăcută, atunci şi
celelalte trei sunt adevărate.
Soluție. Fie A ⊂ B este adevărată. Această înseamnă că dacă A se
realizează, atunci se realizează și B .
Relația B ⊂ A arată că dacă nu s-a produs B , atunci nu s-a produs
nici A , ceea ce este adevărat; daca nu ar fi valabilă această afirmație, ar fi
contrazisă relația A ⊂ B .
Pentru a arăta că A ∪ B = B (dacă A ⊂ B ) este suficient să se arate că:
A∪ B ⊂ B , (3)
deoarece relația B ⊂ A ∪ B este evidentă, ea însemnând că dacă se
realizează B , atunci se realizează unul din evenimentele A , B .

76 | Elemente de teoria probabilităţilor (I)


Pentru a demonstra relația (3), trebuie arătat că de câte ori se
produce A ∪ B se produce şi B .
Dacă A ∪ B s-a realizat, atunci sau s-a realizat evenimentul B (şi
relația este demonstrată), sau s-a realizat evenimentul A și atunci, conform
ipotezei A ⊂ B , s-a realizat și evenimentul B .
Pentru a arăta că A ∩ B = A (în aceeași ipoteză A ⊂ B ), remarcăm
că dacă are loc A , atunci conform ipotezei are loc și B , deci se realizează
A ∩ B . Aşadar, A ⊂ A ∩ B .
Relația A ∩ B ⊂ A este evidentă, ea însemnând că dacă se realizează
A și B , atunci se realizează A (relația A ∩ B ⊂ A este adevărată fără
ipoteza A ⊂ B ). Deci A ∩ B = A .
Prin raționamente asemănătoare, se arată că dacă se va lua ca
ipoteză, oricare alta din cele patru relații din enunț, atunci prima relație va
rezulta ca fiind adevărată.

Exemplul 3.
Relațiile următoare sunt echivalente: A ∩ B = Φ , A ⊂ B , B ⊂ A .
Soluție. Presupunem că A ∩ B = Φ , adică evenimentele A și B sunt
incompatibile. Rezultă aşadar, că dacă A se realizează, atunci B nu se
realizează, deci se realizează B , adică A ⊂ B .
Invers, dacă A ⊂ B , atunci dacă evenimentul A are loc, se
realizează în mod cert şi B , cu alte cuvinte B nu se realizează. Aceasta
înseamnă că evenimentele A și B sunt incompatibile, deci A ∩ B = Φ .
Am arătat că primele două relații din enunț sunt echivalente.
Echivalenţa primei relaţii cu cea de-a treia relație rezultă acum imediat din
simetria relației A ∩ B = Φ .

Elemente de teoria probabilităţilor (I) | 77


10 ELEMENTE DE TEORIA PROBABILITĂŢILOR (II)

Noţiuni prezentate:
 Definiția clasică a probabilității. Proprietăți.
 Regula adunării probabilităților evenimentelor incompatibile.
 Probabilitatea evenimentelor contrare (complementare).
 Sistem complet de evenimente.
 Evenimente independente și dependente (II).
 Probabilitate condiționată. Teorema înmulțirii probabilităților
evenimentelor independente și dependente.

Definiția clasică a probabilității


Definiție. Se numește probabilitatea unui eveniment A și se notează cu
P( A) , raportul dintre numărul m de rezultate favorabile producerii lui A
și numărul total n de rezultate posibile ale experienței, cu condiția ca toate
rezultatele să fie egal posibile.
m
P ( A) = . (1)
n
Exemplu. Pe baza definiției de mai sus, se observă imediat că
probabilitatea de apariție – la o singură aruncare – a uneia din fețele unui
1
zar omogen și perfect construit este , sau probabilitatea de apariție a
6
1
uneia din fețele monedei este , etc.
2
Exemplu. Numerele 1, 2, 3, …, 𝑛𝑛 se așează la întâmplare. Să se
calculeze probabilitatea ca numerele 1 și 2 să fie așezate în șir, în ordine
crescătoare, consecutive.
Soluție: Cele 𝑛𝑛 numere se pot scrie în 𝑛𝑛! moduri. Grupul de numere
{1, 2} se poate scrie în 𝑛𝑛 − 1 locuri, în șirul celor 𝑛𝑛 numere. Alături de cele
două numere {1, 2}, celelalte 𝑛𝑛 − 2 numere se pot scrie în (𝑛𝑛 − 2)! moduri.
Numărul cazurilor posibile este 𝑛𝑛!, iar acela al cazurilor favorabile este
(𝑛𝑛 − 2)! (𝑛𝑛 − 1). Probabilitatea cerută este deci
(𝑛𝑛 − 2)! (𝑛𝑛 − 1) 1
𝑝𝑝 = =
𝑛𝑛! 𝑛𝑛

78 | Elemente de teoria probabilităţilor (II)


Deoarece m ≤ n în relația (1), rezultă că probabilitatea oricărui
eveniment întâmplător A satisface dubla inegalitate :
0 ≤ P( A) ≤ 1 (2)
Cu cât P ( A) este mai apropiată de 1 , cu atât evenimentul A are loc mai
des.
Dacă P ( A) = 0 , evenimentul sau nu are loc niciodată, sau se realizează
foarte rar, încât practic îl considerăm ca fiind evenimentul imposibil.
Dacă P ( A) = 1 , evenimentul are loc de fiecare dată la efectuarea
experimentului, deci este un eveniment sigur.

Din definiția clasică a probabilității - formula (1) - rezultă următoarele:


Proprietăți:
1. Probabilitatea evenimentului sigur este 1 , întrucât în acest caz m = n ;
2. Probabilitatea evenimentului imposibil este 0 , deoarece în acest caz
m=0;
3. Probabilitatea unui eveniment întâmplător (aleator) este cuprinsă între
0 şi 1 , întrucât în acest caz 0 < m < 1 .

Introducem acum noţiunea de frecvență relativă, o altă noțiune


fundamentală în teoria probabilităților legată de noțiunea de probabilitate.
Definiție. Prin frecvență relativă a evenimentului A se înțelege raportul
dintre numărul probelor m în care evenimentul A s-a produs și numărul
total n de probe efectuate.

Dintr-o îndelungată observație a fenomenelor și proceselor de masă s-a


putut constata că dacă un experiment se repetă, în aceleași condiții, de un
număr suficient de mare de ori, atunci frecvența relativă prezintă o anumită
stabilitate, oscilând în jurul probabilității de realizare a acestuia [9, 17].
Tocmai de aceea, drept măsură cantitativă de apreciere a posibilității
obiective de a se produce evenimentul întâmplător A , poate fi luată
frecvența relativă f A , rezultată după un număr mare N de experiențe,
efectuate în aceleași condiții.
Așadar, noțiunea de probabilitate a unui eveniment este legată (chiar la
originea formării ei) de o noțiune experimentală, practică – frecvența de
producere a evenimentului –, rezultând din legile obiective ale fenomenelor
reale de masă. Aceasta a condus la constatarea că evenimentele
corespunzătoare diferitelor probe experimentale formează o anumită
structură, cu numeroase proprietăți care pot fi formulate matematic.
Matematicianul rus A. N. Kolmogorov a numit-o câmp de evenimente și pe
această bază a formulat cunoscutele axiome privind teoria probabilităților.

Elemente de teoria probabilităţilor (II) | 79


Schema lui Kolmogorov
Obiectele de bază folosite în axiomatizarea teoriei probabilităților
sunt evenimentele și probabilitățile respective. Constatăm că evenimentele
corespunzătoare diferitelor experiențe posedă unele proprietăți ce pot fi
formulate matematic.

Exemplu. Se consideră experiența clasică a aruncării unui zar.


Apariția celor șase fețe conduce la evenimentele: (1), (2), 2, (6) .
În mod analog, apariția uneia din două fețe ne conduce la
evenimentele: (1, 2), (1, 3), 2, (5, 6) .
Apariția uneia din trei fețe dă naștere evenimentelor:
(1, 2, 3), (1, 2, 4), 2, (4, 5, 6) .
Apariția uneia din patru fețe va genera evenimentele:
(1, , 3, 4), (1, , 3, 5),  .
Apariția uneia din cinci fețe va conduce la evenimente de forma:
(1, , 3, 4, 5), (1, , 3, 4, 6),  .
În total vor fi: C 61 + C 62 + C 63 + C 64 + C 65 = 6 + 15 + 20 + 15 + 6 = 62
evenimente.
Adăugând la aceasta evenimentul sigur, care constă în faptul că la o
aruncare a zarului, va apărea în mod sigur una din cele șase fețe, precum și
evenimentul imposibil, constând din faptul imposibil că la aruncarea cu
zarul să nu apară nici una din fețe, se obțin în total 64 evenimente, care
formează câmpul de evenimente generat de experiența aruncării unui zar.

AXIOMA 1: Unei experiențe îi corespunde întotdeauna un câmp de


evenimente.
Evenimentele (1), (2), 2, (6) rezultate direct din experiență (descrisă
în exemplul anterior), vor fi numite evenimente elementare.
Prin urmare, sunt:
1 + C61 + C62 + C63 + C64 + C65 + 1 = 2 6
evenimente elementare. În general, numărul evenimentelor unui câmp finit
de evenimente este egal cu 2 la o putere egală cu numărul evenimentelor
elementare.

Exemplu. Astfel, dacă se consideră un lot de 25 cutii, cu


medicamente de același fel, și se extrag la întâmplare două cutii, numărul
evenimentelor câmpului generat de această experiență va fi egal cu 2 25 .
Revenind la exemplul cu zarul, se observă că evenimentul (1, 2)
constă fie în apariția feței 1 , fie din apariția feței 2 . Se spune că evenimentul
(1, 2) este reuniunea (adunarea) evenimentelor (1) și (2) , adică:
(1) ∪ (2) = (1, 2) .

80 | Elemente de teoria probabilităţilor (II)


În mod analog, realizarea simultană a evenimentelor (1, 2, 3) și
(1, 3) este evenimentul (1, 3) . Se spune că evenimentul (1, 3) este intersecția
(produsul) evenimentelor (1, 2, 3) și (1, 3) , adică :
(1, 2, 3) ∩ (1, 3) = (1, 3) .
Dacă evenimentele intersectate se exclud reciproc, se obține
evenimentul imposibil, notat cu Φ . De exemplu :
(1, 2) ∩ (5, 6) = Φ .
Din cele arătate până acum, rezultă că orice eveniment al câmpului
de evenimente care nu este un eveniment elementar, sau nu este
evenimentul imposibil, este o reuniune de evenimente elementare.
În particular, reuniunea (adunarea) tuturor evenimentelor
elementare conduce la evenimentul sigur, care va fi notat cu Ω .
Se consideră evenimentul (1) . Evenimentul (2, 3, 4, 5, 6) se bucură
de proprietățile:
(1) ∪ (2, 3, 4, 5, 6) = Ω , (1) ∩ (2, 3, 4, 5, 6) = Φ .
Evenimentul (1) este complementul (opusul sau complementarul)
evenimentului (2, 3, 4, 5, 6) .
În general, un câmp de evenimente este caracterizat prin următoarele
proprietăți :
i) Daca notăm cu Ak , 1 ≤ k ≤ n evenimente ale câmpului de
n n
evenimente, ∪ Ak ,
k =1
∩A
k =1
k sunt de asemenea evenimente ;

ii) Notând prin Ak , complementul lui Ak , Ak este de asemenea un


eveniment.
iii) Evenimentul sigur Ω şi evenimentul imposibil Φ aparțin de
asemenea câmpului de evenimente.
Pentru un câmp infinit (având un număr infinit de evenimente) trebuie
∞ ∞
să se admită că și ∪ Ak ,
k =1
∩A
k =1
k sunt evenimente.

AXIOMA 2: Fiecărui eveniment A al câmpului de evenimente îi


corespunde un număr real, nenegativ, P ( A) , numit probabilitatea lui.

AXIOMA 3: Probabilitatea evenimentului sigur este egală cu 1 .

AXIOMA 4: Probabilitatea reuniunii a două evenimente


incompatibile între ele este egală cu suma probabilităților evenimentelor.

Elemente de teoria probabilităţilor (II) | 81


După cum se știe, evenimentele incompatibile sunt acelea care se
exclud reciproc. Conform definiției, se poate scrie A ∩ B = Φ . Astfel, a patra
axiomă se poate scrie :
P ( A ∪ B ) = P ( A) + P ( B ) , unde A ∩ B = Φ .

Teoreme și reguli fundamentale ale teoriei probabilităților.


Regula adunării probabilităților evenimentelor incompatibile.
Se consideră evenimentele A1 , A2 ,..., An , aparținând unui același câmp de
evenimente Ω , incompatibile două câte două, adică: Ai ∩ A j = Φ ,
(∀) i ≠ j , i, j ∈ {1, 2,2, n} . Atunci :
P( A1 ∪ A2 ∪ 2 ∪ An ) = P( A1 ) + P( A2 ) + 2 + P( An ) .
Demonstrația este imediată, aplicând inducția matematică după
n ∈ N (numărul de evenimente considerat), folosind regula de adunare a
probabilității evenimentelor incompatibile dată de cea de a patra axiomă, și
anume : P ( A ∪ B ) = P ( A) + P ( B ) , atunci când A ∩ B = Φ .
Observație. Pentru demonstrație se pot considera următoarele ipoteze
: evenimentul A1 se poate realiza în m1 cazuri, evenimentul A2 se poate
realiza în m2 cazuri,…, evenimentul An se poate realiza în mn cazuri, iar
evenimentul sigur Ω se poate realiza în S cazuri. Atunci :
m1 m2 m
P( A1 ) = , P( A2 ) =
, … , P( An ) = n .
S S S
Incompatibilitatea evenimentelor A1 , A2 ,..., An , conduce la separarea
completă a cazurilor m1 , m2 , ..., mn , adică, numărul de cazuri în care se
realizează evenimentul A1 ∪ A ∪  ∪ An este m1 + m +  + mn . Rezultă
aşadar
m1 + m2 + ... + mn
P( A1 ∪ A2 ∪ 2 ∪ An ) =
S
încât obținem:

P( A1 ∪ A2 ∪ 2 ∪ An ) = P( A1 ) + P( A2 ) + 2 + P( An ) .

Probabilitatea evenimentelor contrare (complementare)


Ne reamintim definiţia dată în capitolul anterior pentru
evenimentele contrare: două evenimente A şi A sunt contrare sau
complementare, dacă:
A ∪ A = Ω și A ∩ A = Φ .
Aceste relații arată că evenimentele sunt incompatibile, și că în
fiecare probă (rezultat al unei experienţe) se realizează doar unul dintre ele.
Știind că evenimentul A se realizează de m ori în n experienţe

82 | Elemente de teoria probabilităţilor (II)


individuale, iar A de n − m ori, probabilitățile acestor evenimente se
calculează astfel:
m n−m m
P( A) = , P( A ) = =1− .
n n n
Efectuând suma probabilităților acestor evenimente, se obține:
P( A) + P( A ) = 1 , adică suma probabilităților a două evenimente contrare
(opuse, complementare) este egală cu 1 .

Sistem complet de evenimente


Definiție. Considerăm un număr oarecare de S evenimente
incompatibile, în așa fel încât în fiecare experienţă individuală să se producă
neapărat unul din ele și numai unul. Un astfel de sistem de evenimente se
numește sistem complet de evenimente.
Din definiția dată mai sus rezultă:
A1 ∪ A ∪  ∪ As = Ω , Ai ∩ A j = Φ , pentru orice i, j ∈ {1, 2, 2, s}
cu probabilitatea: P ( A1 ∪ A2 ∪ 2 ∪ As ) = P (Ω) ,
sau P ( A1 ) + P ( A2 ) + 2 + P ( As ) = 1 , adică suma probabilităților unor
evenimente care formează un sistem complet de evenimente este egală cu 1 .
Observație. Evenimentele opuse (contrare, complementare), fiind
incompatibile, și în fiecare operație de masă producându-se unul dintre ele,
acestea formează un sistem complet.

Evenimente independente și dependente (II)


Definiție. Două sau mai multe evenimente se numesc independente,
dacă probabilitatea efectuării unuia dintre ele nu este influențată de faptul
că celelalte evenimente s-au produs sau nu.
În aplicaţiile practice, noţiunea de independență o întâlnim în două
sensuri. În primul rând, putem considera evenimente a căror dependenţă
sau independentă nu este cunoscută a priori, ci trebuie stabilită. De exemplu,
dacă vrem să aflăm dacă există sau nu o dependenţă între obiceiul de a
fuma şi incidența cancerului pulmonar, vom efectua un număr mare de
observații, organizând atent experienţa şi vom compara frecvenţa
îmbolnăvirilor de cancer pulmonar printre fumători, cu frecvenţa
îmbolnăvirilor de cancer pulmonar printre nefumători (sau cu frecvența
acestor îmbolnăviri pe totalul populaţiei studiate). Dacă aceste frecvenţe ar
coincide (ceea ce nu este cazul!) am trage concluzia că evenimentele
“fumător” şi “bolnav de cancer pulmonar” sunt independente. Dacă însă
vom constata că există o diferenţă sensibilă între frecvenţele îmbolnăvirilor
de cancer pulmonar printre fumători şi printre nefumători, vom trage
concluzia că cele două evenimente sunt dependente.

Elemente de teoria probabilităţilor (II) | 83


Celălalt sens în care întâlnim noţiunea de independenţă apare mult
mai frecvent şi anume, în cazul în care operăm cu evenimente a căror
independenţă este cunoscută, rezultă din context şi nu avem nici o îndoială
asupra ei.
Exemple.
a) Dacă dintr-un lot conținând atât piese standard, cât și piese rebut
se extrage câte o piesă care revine la lot după fiecare extracție, evenimentele
care constau în extragerea unei piese standard la fiecare extragere sunt
independente.
b) Dacă se aruncă o monedă de două ori, probabilitatea apariției
stemei (evenimentul A ) în a doua aruncare nu depinde de faptul că, în
prima aruncare s-a produs sau nu apariția valorii (evenimentul B ).

Definiție. Două sau mai multe evenimente se numesc dependente,


dacă probabilitatea unuia dintre ele este influențată de evenimentele
anterioare (depinde de faptul că evenimentele anterioare s-au produs sau
nu).
Exemplu. Într-o urnă se găsesc a bile albe și b bile negre. Se notează
cu A , evenimentul de a extrage o bilă albă și cu B , evenimentul constând
în extragerea unei bile negre, după ce a fost extrasă o bilă (care nu se
reintroduce în urnă înaintea celei de-a doua extrageri).
Se fac deci două extrageri succesive:
i) Dacă prima bila extrasă a fost albă, adică s-a produs evenimentul
A , atunci în urnă au rămas b bile negre și probabilitatea
b
evenimentului B este ;
a + b −1
ii) Dacă prima bilă extrasă a fost neagră, realizându-se evenimentul
A , atunci în urnă au rămas b − 1 bile negre și probabilitatea
b −1
evenimentului B este .
a + b −1
Se observă că probabilitatea evenimentului B depinde de faptul că
evenimentul A s-a produs sau nu.
Probabilitate condiționată. Teorema înmulțirii probabilităților
evenimentelor independente și dependente
Fie A1 şi A2 două evenimente dependente. Vom calcula în
continuare probabilitatea producerii simultane a acestor evenimente, adică
P( A1 ∩ A2 ) .
Într-o operație de masă se pot întâmpla următoarele situații:
1. se produce evenimentul A1 ∩ A2 în m1 cazuri favorabile ;
2. se produce evenimentul A1 ∩ A2 în m2 cazuri favorabile ;
3. se produce evenimentul A1 ∩ A2 în m3 cazuri favorabile ;

84 | Elemente de teoria probabilităţilor (II)


4. se produce evenimentul A1 ∩ A2 în m4 cazuri favorabile.
Rezultă că sunt în total n = m1 + m2 + m3 + m4 cazuri posibile. Aşadar
m1
P( A1 ∩ A2 ) = . (3)
n
Probabilitatea evenimentului A1 se calculează astfel: Numărul
cazurilor favorabile realizării evenimentului A1 este m1 + m2 , încât avem:
m1 + m2
P( A1 ) = . (4)
n
Evenimentele A1 și A2 fiind dependente, înseamnă că probabilitatea
lui A2 va fi influențată de realizarea lui A1 , deci se va calcula PA1 ( A2 ) ,
notaţie care se citește ,,probabilitatea lui A2 condiționată de A1 ’’ sau
,,probabilitatea lui A2 după ce s-a realizat A1 ’’ . Cazurile favorabile realizării
evenimentului A2 , după ce s-a produs evenimentul A1 , sunt în număr de
m1 , iar numărul cazurilor posibile m1 + m2 . Deci:
m1
PA1 ( A2 ) = . (5)
m1 + m2
Înmulțind relațiile (4) și (5), membru cu membru, se obține :
m1 + m2 m1 m
P( A1 ) ⋅ PA1 ( A2 ) = ⋅ = 1,
n m1 + m2 n
adică rezultatul din formula (3). Deci,
P( A1 ∩ A2 ) = P( A1 ) ⋅ PA1 ( A2 ) , (6)
relație care constituie regula de înmulțire a probabilităților a două
evenimente dependente.
Din formula (6) se deduce că
P( A1 ∩ A2 )
PA1 ( A2 ) = ⋅ (7)
P( A1 )
În mod analog, probabilitatea evenimentului A1 condiționată de A2 este :
P( A1 ∩ A2 )
PA2 ( A1 ) = ⋅ (8)
P( A2 )
Formulele (7) și (8) indică faptul că probabilitatea unui eveniment,
condiționată de realizarea unui alt eveniment este egală cu raportul dintre
probabilitatea intersecției (producerii simultane) a celor două evenimente și
probabilitatea evenimentului ce condiționează.

Exemplu. Dintr-un lot de 500 cutii de medicamente , dintre care


493 corespund standardului și 7 nu corespund, un cumpărător cumpără
două cutii. Să se calculeze probabilitatea ca aceste două cutii să fie
corespunzătoare.

Elemente de teoria probabilităţilor (II) | 85


Soluție. Fie A1 evenimentul ca prima cutie extrasă din lot
(cumpărată de client) să fie corespunzătoare și A2 , evenimentul ca a doua
cutie să fie corespunzătoare. Probabilitatea evenimentului A1 este
493
P( A1 ) = . Când cutia a doua a fost luată, după ce în prima extragere am
500
obținut o cutie care corespunde standardului, n-au mai rămas decât 499 de
cutii, dintre care 492 standard și 7 rebut. Probabilitatea producerii
evenimentului A2 condiționată de A1 va fi:
492
PA1 ( A2 ) = .
499
Așadar, probabilitatea ca cele două cutii să fie corespunzătoare este :
493 492
P( A1 ∩ A2 ) = P( A1 ) ⋅ PA1 ( A2 ) = ⋅ ≈ 0,972168337 .
500 499
În general, fie evenimentele A1 , A2 ,2, Ak . Probabilitatea producerii
simultane a acestora se calculează pe baza formulei:
P ( A1 ∩ A2 ∩ 2 ∩ Ak ) = P ( A1 ) ⋅ PA1 ( A2 ) ⋅ PA1 ∩ A2 ( A3 ) ⋅ 2 ⋅ PA1 ∩ A2 ∩2∩ Ak −1 ( Ak ) (9)
Demonstrarea acestei formule se face prin metoda inducției matematice.

Evenimentele A , B și C sunt independente în totalitatea lor, dacă sunt


independente evenimentele: A și B , A și C , B și C , A și B ∩ C , B și
A ∩ C , C și A ∩ B . Se poate vedea că independența în totalitate nu poate fi
asigurată de independența evenimentelor luate două câte două.

Exemplu. Într-un spaţiu de depozitare s-au adus 11 cutii de


medicamente: 6 cutii conţin medicamentul Diazepam, iar celelalte cutii au
medicamentul antihipertensiv Nifedipin. Se scot succesiv din depozit 3 cutii
(fără întoarcerea cutiilor extrase). Care este probabilitatea ca prima cutie să
conţină medicamentul Diazepam, iar celelalte două să conţină
medicamentul Nifedipin?
Soluţie: Notăm următoarele evenimente:
D : prima cutie extrasă conţine medicamentul Diazepam,
N 2 : a doua cutie extrasă conţine medicamentul Nifedipin,
N 3 : a treia cutie extrasă conţine medicamentul Nifedipin.
6 5 4
P( D ∩ N 2 ∩ N 3 ) = P( D) ⋅ PD ( N 2 ) ⋅ PD ∩ N 2 ( N 3 ) = ⋅ ⋅ .
11 10 9

Exemplu. O urnă conține 𝑁𝑁 bile dintre care 𝑎𝑎 sunt albe. Se extrag


succesiv trei bile. Se cere să se determine probabilitatea ca cele trei bile să fie
albe.

86 | Elemente de teoria probabilităţilor (II)


𝑎𝑎
Soluție: Probabilitatea ca prima bilă extrasă să fie albă este ;
𝑁𝑁
𝑎𝑎−1
probabilitatea ca a două bilă extrasă să fie albă este 𝑁𝑁−1
, iar probabilitatea
𝑎𝑎−2
ca a treia bilă estrasă să fie albă este . Extragerile fiind independente
𝑁𝑁−2
între ele, rezultă că probabilitatea cerută este:

𝑎𝑎(𝑎𝑎 − 1)(𝑎𝑎 − 2)
𝑝𝑝 =
𝑁𝑁(𝑁𝑁 − 1)(𝑁𝑁 − 2)

Exemplu. Se aruncă două zaruri de 25 de ori. Să se calculeze


probabilitatea ca dubla patru să apară cel puțin odată.
Soluție: Vom calcula probabilitatea contrară, deci probabilitatea ca
dubla patru să nu apară niciodată în cele 25 de aruncări. Aceasta este data
35 25 1 35
de 𝑞𝑞25 = � � , deoarece 𝑞𝑞1 = �1 − � = , și aruncările sunt
36 36 36
independente între ele. Probabilitatea cerută este deci 𝑝𝑝25 = 1 − 𝑞𝑞25 = 1 −
35 25
�36� .

Exemplu. Două clase 𝐴𝐴 și 𝐵𝐵 cu câte 20 elevi au, respectiv, 10 elevi


buni, 5 mediocri, 5 slabi şi 5 elevi buni, 5 mediocri și 10 slabi. Un profesor
ascultă la întâmplare câte un elev din fiecare clasă și constată că elevul din
clasa 𝐴𝐴 este mai bun decât elevul din clasa 𝐵𝐵. Care este probabilitatea ca
clasa 𝐴𝐴 să fie prima?
Soluție: Situația celor două clase este următoarea:
elevi buni elevi mediocri elevi slabi
10 5 5
5 5 10

Întrebând la întâmplare, un elev din prima clasă și unul din clasa 𝐵𝐵,
avem: 10 ∙ 15 + 5 ∙ 10 = 200 combinații în care elevul din prima clasă este
mai bun și 5 ∙ 10 + 5 ∙ 5 = 75 combinații în care elevul din a doua clasă este
1
mai bun. Probabilitatea ca un elev să fie dintr-o clasă sau alta este .
2
Probabilitatea ca clasa 𝐴𝐴 să fie prima este:
1
∙ 200 8
𝑃𝑃 = 2 =
1 1
∙ 200 + 2 ∙ 75 11
2

Exemplu. Într-un spital sunt rezidenți în primul an, în al doilea an


sau în al treilea an de stagiu. Se iau la întâmplare doi rezidenți și unul dintre
ei declară că perioada de stagiu parcursă este mai mare decât a celuilalt.
Care este probabilitatea ca el să fie din al treilea an de stagiu?

Elemente de teoria probabilităţilor (II) | 87


Soluţie: Fie 𝑛𝑛1 , 𝑛𝑛2 , 𝑛𝑛3 numărul rezidenţilor, respectiv din primul, al
doilea și al treilea an de stagiu. Luându-se un rezident din anul al doilea și
unul oarecare, probabilitatea ca primul să aibă o perioadă de stagiu
parcursă mai mare este
𝑛𝑛1
𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 − 1
De asemenea, probabilitatea ca un rezident din al treilea an să fie
mai vechi în stagiu, ca altul luat la întâmplare este:
𝑛𝑛1 + 𝑛𝑛2
𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 − 1

Pe de altă parte, probabilitățile ca un rezident să fie în al doilea,


respectiv în al treilea an sunt:
𝑛𝑛2 𝑛𝑛3
și
𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3

Probabilitatea ca rezidentul cel mai vechi în stagiu dintre cei doi să


fie din al treilea an este
𝑛𝑛3 𝑛𝑛1 + 𝑛𝑛2
𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 ∙ 𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 − 1
𝑃𝑃 = 𝑛𝑛3 𝑛𝑛1 + 𝑛𝑛2 𝑛𝑛2 𝑛𝑛1
∙ + ∙
𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 − 1 𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3 − 1

1 1
𝑛𝑛3 (𝑛𝑛1 + 𝑛𝑛2 ) +
𝑛𝑛1 𝑛𝑛3
= =
𝑛𝑛3 (𝑛𝑛1 + 𝑛𝑛2 ) + 𝑛𝑛1 𝑛𝑛2 1 1 1
+ +
𝑛𝑛1 𝑛𝑛2 𝑛𝑛3
Observație. Menţionăm câteva cazuri particulare:
2
a) Dacă 𝑛𝑛1 = 𝑛𝑛2 = 𝑛𝑛3 , atunci probabilitatea 𝑃𝑃 = .
3
5
b) Dacă 𝑛𝑛1 = 2𝑛𝑛2 = 4𝑛𝑛3 , atunci probabilitatea 𝑃𝑃 = .
7
7
c) Dacă 𝑛𝑛1 = 3𝑛𝑛2 = 6𝑛𝑛3 , atunci probabilitatea 𝑃𝑃 = .
10

Probleme propuse spre rezolvare


1. Să se arate că evenimentele 𝐴𝐴, 𝐴𝐴̅ ∩ 𝐵𝐵, 𝐴𝐴 �������
∪ 𝐵𝐵 formează un sistem
complet de evenimente.
2. Într-un spital doi bolnavi urmează aceeaşi schemă de tratament în
acelaşi timp. Probabilitatea ca primul bolnav să se însănătoşească
este 𝑝𝑝1 = 0.7, iar pentru cel de-al doilea este 𝑝𝑝2 = 0.6 . Să se calculeze
probabilitatea ca doar primul bolnav să devină sănătos în urma
administrării tratamentului.

88 | Elemente de teoria probabilităţilor (II)


11 ELEMENTE DE TEORIA PROBABILITĂŢILOR (III)

Noţiuni prezentate:
 Evenimente independente. Evenimente independente în totalitatea lor
(III).
 Teorema adunării probabilităților evenimentelor compatibile.
 Formula probabilității totale.

Revenim la definiţia independenţei a două evenimente pentru a


extinde această noţiune la un număr mai mare de evenimente.
Aşa cum am precizat, dacă P ( A1 ∩ A2 ) = P ( A1 ) ⋅ P ( A2 ) , se va spune
că evenimentele A și B sunt independente între ele.
Se observă că două evenimente sunt independente dacă
probabilitatea unuia dintre ele nu depinde de faptul că celălalt eveniment s-
a produs sau nu.

Un exemplu de evenimente independente îl găsim în cazul unei


urne cu bile de două culori, din care se fac extrageri în următoarele condiții:
în urnă se găsesc 6 bile albe și 4 negre. Dacă A este evenimentul care
constă în extragerea unei bile albe, atunci :
6
P ( A) = .
10
După extragere, bila se reintroduce în urnă și se face o nouă
extragere. Fie B , evenimentul ca să fie extrasă o bilă neagră în această a
4
doua extragere. Atunci P( B) = , probabilitate care nu depinde de faptul
10
că evenimentul A s-a produs sau nu.
Așadar, conform definiției amintite mai sus, are loc relația :
P( A1 ∩ A2 ) = P( A1 ) ⋅ P( A2 )
Ținând cont de relația de mai sus obținem:
P( A1 ∩ A2 ) P( A1 ) ⋅ P( A2 )
PA1 ( A2 ) = = = P( A2 ) ,
P( A1 ) P( A1 )
P( A1 ∩ A2 ) P( A1 ) ⋅ P( A2 )
PA2 ( A1 ) = = = P( A1 )
P( A1 ) P( A1 )

Elemente de teoria probabilităţilor (III) | 89


Egalitățile:
PA1 ( A2 ) = P( A2 ) și PA2 ( A1 ) = P( A1 )
arată că a condiționa pe A2 de A1 , și pe A1 de A2 nu influențează
probabilitățile P ( A1 ) și P( A2 ) . Evenimentele A1 și A2 sunt independente.
În cazul în care avem k evenimente independente, formula (9) din
capitolul 10, formulă pe care o scriem mai jos:
P( A1 ∩ A2 ∩ 2 ∩ Ak ) = P( A1 ) ⋅ PA1 ( A2 ) ⋅ PA1 ∩ A2 ( A3 ) ⋅ 2 ⋅ PA1 ∩ A2 ∩2∩ Ak −1 ( Ak )
devine:
P( A1 ∩ A1 ∩ 2 ∩ Ak ) = P( A1 ) ⋅ P( A2 ) ⋅ 2 ⋅ P( Ak )
Prin urmare, probabilitatea producerii simultane a unui număr
oarecare de evenimente independente este egală cu produsul
probabilităților acestor evenimente.

Exemplu. Două fabrici de medicamente produc același tip de


medicament. Probabilitățile ca medicamentul să corespundă standardului
sunt 0,98 , respectiv 0,96 . Se ia pentru încercare, câte o cutie de
medicamente de la fiecare fabrică și se cere să se calculeze probabilitatea ca
ambele cutii să fie corespunzătoare.

Soluție. Evenimentele considerate fiind independente, rezultă:


P( A1 ∩ A2 ) = P( A1 ) ⋅ P( A2 ) = 0,98 ⋅ 0,96 = 0,9408 .
Este important să se precizeze că cele arătate mai înainte nu pot fi extinse la
un număr oarecare de evenimente, fără a defini în prealabil, ce se înțelege
prin evenimente independente în totalitatea lor.

Definiție. Mai multe evenimente se numesc evenimente independente


în totalitatea lor, dacă fiecare dintre ele și orice intersecție a celorlalte
(conținând fie pe toate, fie o parte a lor) sunt evenimente independente.

Exemplu. O farmacie se aprovizionează de la 3 depozite de


medicamente. Fiecare depozit conţine aceleaşi 100 de tipuri de
medicamente. Care este probabilitatea ca primele 3 transporturi făcute de la
fiecare dintre aceste depozite să aprovizioneze farmacia cu acelaşi tip de
medicament?

Soluţie: Notăm următoarele evenimente independente:


A1 : transportul realizat de la depozitul 1 să aducă medicamentul X ;
A2 : transportul realizat de la depozitul 2 să aducă medicamentul X ;
A3 : transportul realizat de la depozitul 3 să aducă medicamentul X ;
1 1 1 1
P ( A1 ∩ A2 ∩ A3 ) = ⋅ ⋅ = 6.
100 100 100 10

90 | Elemente de teoria probabilităţilor (III)


Teorema adunării probabilităților evenimentelor compatibile
Fie A1 şi A2 două evenimente compatibile. Să se calculeze
P( A1 ∪ A2 ) . Evenimentele fiind compatibile, evenimentul A1 ∪ A2 se poate
realiza în următoarele moduri:
A1 ∩ A2 : se realizează A1 împreună cu opusul A2 ;
A1 ∩ A2 : nu se realizează A1 , dar se realizează A2 ;
A1 ∩ A2 : se realizează simultan A1 și A2 .
Rezultă:
A1 ∪ A2 = ( A1 ∩ A2 ) ∪ ( A1 ∩ A2 ) ∪ ( A1 ∩ A2 )
Deoarece evenimentele intersecției sunt incompatibile două câte două, se
poate scrie :
P( A1 ∪ A2 ) = P( A1 ∩ A2 ) + P( A1 ∩ A2 ) + P( A1 ∩ A2 ) (1)
Se vor calcula probabilitățile evenimentelor A1 și A2 :
P( A1 ) = P( A1 ∩ A2 ) + P( A1 ∩ A2 ) , (2)
P( A2 ) = P( A1 ∩ A2 ) + P( A1 ∩ A2 ) (3)
Însumând ultimele două relații și ținând seama de (1), se obține:
P( A1 ) + P( A2 ) = P( A1 ∩ A2 ) + P( A1 ∩ A2 ) + P( A1 ∩ A2 ) + P( A1 ∩ A2 )
de unde rezultă :
P( A1 ∪ A2 ) = P( A1 ) + P( A2 ) − P( A1 ∩ A2 ) (4)
Pentru trei evenimente, A1 , A2 și A3 această relație devine :
P( A1 ∪ A2 ∪ A3 ) = P( A1 ) + P( A2 ) + P( A3 )
− P( A1 ∩ A2 ) − P( A1 ∩ A3 ) − P( A2 ∩ A3 ) + P( A1 ∩ A2 ∩ A3 ) (5)
În general, pentru S evenimente are loc următoarea relație :
 s  s  s 
P  Ak  = ∑ P( Ak ) − ∑ P( Ak ∩ Ah ) +  + (−) s − P  Ak  (6)
 k =  k = k ,h  k = 
k ≠h

Cu această formulă, numită formula lui Poincaré, se calculează


probabilitatea ca cel puțin unul din cele S evenimente compatibile și în
număr finit A1 , A2 , ...., AS să se realizeze.

Exemplu. Un medic lucrează în 3 saloane de bolnavi. Probabilitățile


ca în decursul unei gărzi să nu se facă noi internări sunt: pentru primul
salon de 0,90 , pentru al doilea salon de 0,94 și pentru al treilea salon de
0,86 . Să se calculeze probabilitatea ca cel puțin unul din cele trei saloane ale
medicului, să nu primească noi internări în timpul unei gărzi.

Elemente de teoria probabilităţilor (III) | 91


Această probabilitate se calculează astfel:
P( A1 ∪ A2 ∪ A3 ) = P( A1 ) + P( A2 ) + P( A3 )
− P( A1 ∩ A2 ) − P( A1 ∩ A3 ) − P( A2 ∩ A3 ) + P( A1 ∩ A2 ∩ A3 )
= P( A1 ) + P( A1 ) + P( A1 ) − P( A1 ) ⋅ P( A2 ) − P( A1 ) ⋅ P( A3 ) − P( A2 ) ⋅ P( A3 ) + P( A1 ) ⋅ P( A2 ) ⋅ P( A3 )
= 0,90 + 0,94 + 0,86 − 0,90 ⋅ 0,94 − 0,90 ⋅ 0,86 − 0,94 ⋅ 0,86 + 0,90 ⋅ 0,94 ⋅ 0,86 = 0,99916

Formula probabilității totale


Se presupune că o operație dată, conduce la rezultatele A1 , A2 , …,
As , care formează un sistem complet de evenimente. Fie un eveniment X care
nu se poate realiza singur, ci împreună cu unul din evenimentele A1 , A2 ,
…, As . Deci: X = ( A1 ∩ X ) ∪ ( A2 ∩ X ) ∪ 2 ∪ ( As ∩ X ) .
Deoarece evenimentele ( A1 ∩ X ) , ( A2 ∩ X ) , ..., ( As ∩ X ) sunt
incompatibile două câte două, rezultă :
P( X ) = P( A1 ∩ X ) + P( A2 ∩ X ) + 2 + P( As ∩ X ) ,
sau, dezvoltând mai departe membrul drept, obținem:
P( X ) = P( A1 ) ⋅ PA1 ( X ) + P( A2 ) ⋅ PA2 ( X ) + 2 + P( As ) ⋅ PAs ( X ) ,
rezultat care constituie formula probabilității totale exprimând următoarea:

Teoremă. Probabilitatea evenimentului X care poate să se producă,


condiționat de unul din evenimentele A1 , A2 , …, As și care împreună
formează un sistem complet de evenimente, este egală cu suma produselor
dintre probabilitățile acestor evenimente și probabilitățile condiționate
corespunzătoare ale evenimentului X .

Demonstrație. Teorema se demonstrează foarte simplu. În condițiile


teoremei, producerea evenimentului X revine la producerea unuia din
următoarele evenimente incompatibile ( A1 ∩ X ) , ( A2 ∩ X ) , ..., ( As ∩ X ) ,
adică :
X = ( A1 ∩ X ) ∪ ( A2 ∩ X ) ∪ 2 ∪ ( As ∩ X ) .
Aplicând o consecință a teoremei de adunare a probabilităților
evenimentelor incompatibile, se obține :
P( X ) = P( A1 ∩ X ) + P( A2 ∩ X ) + 2 + P( As ∩ X ) .
Însă, după regula înmulțirii probabilităților evenimentelor dependente,
atunci avem succesiv:
P( A1 ∩ X ) = P( A1 ) ⋅ PA1 ( X ) , P( A2 ∩ X ) = P( A2 ) ⋅ PA2 ( X ) , ...,
P( As ∩ X ) = P( As ) ⋅ PAs ( X ) .
Prin urmare,

92 | Elemente de teoria probabilităţilor (III)


P( X ) = P( A1 ) ⋅ PA1 ( X ) + P( A2 ) ⋅ PA2 ( X ) + 2 + P( As ) ⋅ PAs ( X ) .
Exemplu. Într-o farmacie se găsesc medicamente de același fel,
provenite de la trei depozite de medicamente. Se știe că 25% din totalul
medicamentelor sunt din primul depozit, 35% din al doilea depozit, iar
40% din cel de-al treilea depozit, și că rebuturile sunt de 2% , 3% și
respectiv, 1% pentru fiecare din ele. Să se calculeze probabilitatea ca luând
un medicament la întâmplare din farmacie, acesta să fie necorespunzător
din punct de vedere calitativ.
Soluție. Fie A1 , A2 , A3 evenimentele ca medicamentul să aparțină
unuia din cele trei depozite și fie X , evenimentul ca medicamentul să fie
necorespunzător. Medicamentul necorespunzător calitativ, putând proveni
numai de la unul din cele trei depozite, înseamnă că evenimentul X nu se
poate realiza singur, ci împreună sau cu A1 , sau cu A2 , sau cu A3 ; adică au
loc intersecțiile ( A1 ∩ X ) , ( A2 ∩ X ) , ( A3 ∩ X ) .
Probabilitățile evenimentelor A1 , A2 , A3 și a evenimentului X condiționat
de realizarea evenimentelor A1 , A2 , A3 sunt :
25 35 40
P( A1 ) = , P( A2 ) = , P( A3 ) = ,
100 100 100
2 3 1
PA1 ( X ) = , PA2 ( X ) = , PA3 ( X ) = .
100 100 100
Deci,
P( X ) = P( A1 ) ⋅ PA1 ( X ) + P( A2 ) ⋅ PA2 ( X ) + 2 + P( As ) ⋅ PAs ( X )
25 2 35 3 40 1 195
= ⋅ + ⋅ + ⋅ = = 0,0195 .
100 100 100 100 100 100 10000
Se vede de aici că la fiecare 10000 de medicamente, în medie, 195 sunt
necorespunzătoare.

Probleme rezolvate și probleme propuse spre rezolvare:

1. Notăm cu A evenimentul naşterii unui băiat şi cu B evenimentul ca la


naştere copilul să aibă peste 3 Kg. Presupunem că avem n naşteri, dintre
care p sunt băieţi, m au peste 3 Kg şi q băieţi au peste 3 Kg. Dacă ştim că
cel născut este băiat, care este probabilitatea evenimentului ca acesta să
aibă peste 3 Kg?

Soluție:
p
Probabilitatea naşterii unui băiat va fi: P ( A) = .
n

Elemente de teoria probabilităţilor (III) | 93


m
Probabilitatea naşterii unui copil de peste 3 Kg va fi: P ( B ) = .
n
q
Probabilitatea naşterii unui băiat de peste 3 Kg va fi: P( A ∩ B) = .
n
Dacă este băiat, atunci toate cazurile favorabile sunt p . Ca să aibă peste
3 Kg, doar q respectă condiţia. În concluzie, probabilitatea este:
q q / n P( A ∩ B)
P( B / A) = = = .
p p/n P( A)

2. Într-o urnă avem 5 bile albe şi 6 bile negre. Din cele 5 albe două sunt
numerotate cu 1 şi restul de trei cu 2 . Din cele 6 bile negre două sunt
numerotate cu 1 şi patru cu 2 . Se extrage la întâmplare o bilă. Dacă se
cunoaşte că bila extrasă este albă, care este probabilitatea ca ea să fie
notată cu 1 ?

Soluție:
Notăm evenimentele: A – bila este albă.
B – bila are numărul 1 .
P( A ∩ B)
Probabilitatea căutată este P ( B / A) = .
P( A)
În total avem : 5 + 6 = 11 bile (cazuri în total).
5
Probabilitatea evenimentului A este: P ( A) = .
11
2
Probabilitatea intersecţiei evenimentelor A şi B este: P ( A ∩ B ) = .
11
P ( A ∩ B ) 2 / 11 2
În final obţinem: P ( B / A) = = = .
P ( A) 5 / 11 5
Putem gândi şi astfel: Dacă s-a extras o bilă albă, înseamnă că nu poate
fi decât una din cele 5 . Dacă numărul este 1 , atunci nu sunt decât 2 cazuri
2
din cele 5 albe. Astfel, probabilitatea căutată este P = .
5

3. Analizând calitatea tabletelor dintr-un lot de medicamente, acestea pot


fi considerate acceptabile sau inacceptabile. Dacă probabilitatea ca o
tabletă sa fie acceptabilă este 0,95 , care este probabilitatea ca tableta sa
fie inacceptabilă?

94 | Elemente de teoria probabilităţilor (III)


4. Tabletele dintr-un lot de medicamente sunt considerate inacceptabile
dacă ele sunt deteriorate ( A) , prezintă pete de culoare (B ) , sau sunt
decolorate (C ) . La inspecția unui lot de 100 de tablete, 5 prezentau
defectul A , 3 prezentau defectul B și 4 tablete aveau defectul C .
Considerând că tabletele nu conțin defecte multiple, să se afle
probabilitatea de selecție a unei tablete inacceptabile?

Indicație: Se va calcula P( A ∪ B ∪ C ) .

5. Au fost inspectate 100 de tablete dintr-un al doilea lot: 6 tablete erau


deteriorate ( A) , 3 tablete prezentau pete de culoare (B ) , iar 2 tablete
erau deteriorate și aveau și pete de culoare. Care este probabilitatea de
selecție a unei tablete inacceptabile?

Indicație: Se va calcula P ( A ∪ B ) .

6. Un lot de 100 de cutii de medicamente este supus controlului de calitate.


Condiţia ca acest lot să fie respins este găsirea cel puţin a unui rebut în
cinci verificări consecutive. Care este probabilitatea ca lotul dat să fie
respins, dacă el conţine 5% cutii rebut?

Indicație: Se va calcula probabilitatea evenimentului contrar, adică a


evenimentului ca lotul, în urma controlului să fie acceptat.

Elemente de teoria probabilităţilor (III) | 95


12 ELEMENTE DE TEORIA PROBABILITĂŢILOR (IV)

Noţiuni prezentate:
 Analiza unor exemple de aplicare a Teoremei lui Bayes.

Teorema lui Bayes. Dacă D1 , D2 , 2, Dn este o familie completă de


evenimente ale căror probabilități a priori P( D1 ), P( D2 ), 2, P( Dn ) sunt
cunoscute, iar S este un alt eveniment, pentru care toate probabilitățile
condiționate P( S / D1 ), P( S / D2 ), 2, P( S / Dn ) sunt cunoscute, atunci
probabilitățile condiționate inverse P( Di / S ) sunt obținute cu formula:

P( Di ) × P( S / Di )
P( Di / S ) = .
P( D1 ) × P( S / D1 ) + P( D2 ) × P( S / D2 ) + 2 + P( Dn ) × P( S / Dn )

Teorema lui Bayes este un instrument ce poate fi folosit pentru a


reevalua probabilitățile diferitelor ipoteze-diagnostic posibile. Notațiile
D1 , D2 , 2, Dn de mai sus se pot referi la aceste ipoteze-diagnostic posibile.
Probabilitățile a priori P ( Di ) pot fi estimate prin diverse metode, de
exemplu, prin folosirea datelor statistice sau de recensământ la nivel
național.
Evenimentul S poate fi un semn (indiciu) al manifestării unei boli
sau un simptom. În contextul prezenței acestui semn/simptom,
probabilitățile ipotezelor-diagnostic trebuie să fie reevaluate. Teorema lui
Bayes enunțată mai sus ne prezintă o formulă prin care putem calcula aceste
probabilități a posteriori.

Exemplul 1.
Presupunem că avem un lot format din 10000 persoane de sex
feminin, participante la un test screening pentru determinarea prezenţei
cancerului de sân. Dintre acestea, la un număr de 120 de persoane a fost
depistată şi confirmată prezenţa maladiei. Prin a doua metodă – numită
mamografie (cunoscută ca nefiind o metodă perfectă) – s-au obţinut 95 de
persoane pozitive din cele 120. Dintre femeile sănătoase, deci în număr de
9880, au avut mamografie pozitivă 880 (falşi pozitivi). Care este
probabilitatea ca o persoană la care mamografia a ieşit pozitivă să aibă într-
adevăr cancer de sân [9]?

96 | Elemente de teoria probabilităţilor (IV)


Soluție: Răspunsul greşit şi frecvent întâlnit este „95/120, ceea ce
reprezintă aproximativ 80%”. Aici trebuie atent interpretată întrebarea la care
se cere, în mod evident, un rezultat corect. Răspunsul dat reflectă
probabilitatea ca o persoană care are cancer de sân să prezinte mamografie
pozitivă.
Introducem următoarele notaţii:
T – reprezintă volumul lotului şi are valoarea de 10000 .
CS – numărul de persoane ce au cancer de sân, CS = 120 .
M – numărul de persoane cu mamografie pozitivă,
M = 95 + 880 = 975 .

Putem defini probabilitatea căutată ca fiind P (CS / M ) . Răspunsul


95 / 120 este pentru probabilitatea condiţionată: P( M / CS ) .
P( M / CS ) ⋅ P(CS )
Conform formulei lui Bayes avem: P(CS / M ) = .
P( M )
Putem acum calcula probabilităţile:
120 975
P(CS ) = = 0,012 ; P( M ) = = 0,0975 .
10000 10000
Putem defini evenimentele elementare CS , care arată prezenţa
___
cancerului de sân, respectiv CS , care va însemna absenţa acestuia.
Aceste două evenimente elementare formează un sistem complet de
evenimente (necesar în aplicarea formulei lui Bayes). Probabilitatea P (M ) se
va calcula cu formula ( M este evenimentul a cărui realizare înseamnă
mamografie pozitivă – nu se face nici o confuzie de notaţie, deoarece
reflectă aceeaşi idee):
___ ___
P ( M ) = P (CS ) ⋅ P ( M / CS ) + P (CS ) ⋅ P ( M / CS )
120 95 9880 880 95 + 880 975
P( M ) = ⋅ + ⋅ = = = 0,0975
10000 120 10000 9880 10000 10000
95
P ( M / CS ) = = 0,791 .
120
Probabilitatea căutată este: P (CS / M ) = 9,7% .
Probabilitatea condiţionată depinde şi de procentul de mamografii
pozitive din cadrul persoanelor sănătoase.
Iniţial, fără a avea rezultatul mamografiei, puteam spune că pentru
orice persoană există un risc de a avea cancer de sân în proporţie de
P (CS ) = 0,012 = 1,2% . După realizarea mamografiei, pentru rezultat
pozitiv obţinem P (CS / M ) = 9,7% , deci o ajustare faţă de starea iniţială,
datorită informaţiei noi obţinute.

Elemente de teoria probabilităţilor (IV) | 97


Exemplul 2.
Să considerăm următorul exemplu simplu, cu doar două diagnostice
posibile:
D1 – pacientul nostru are tuberculoză,
D2 = D1 – pacientul nostru nu are tuberculoză,
S – pacientul „Ion Popescu” testează pozitiv (în
radiografia pulmonară).

Evident, D1 și D2 este o familie completă de evenimente.


Din datele de recensământ la nivel național știm că 3% din
populație are tuberculoză. Așadar, putem estima:
P( D1 ) = 3% = 0,03 ,
și în consecință
P( D2 ) = 1 − P( D1 ) = 1 − 0,03 = 0,97 .
Trebuie să estimăm și probabilitatea condiționată P ( S / D1 ) . Din
experiența medicală, știm că 90% dintre pacienții suferinzi de tuberculoză
testează pozitiv în radiografia pulmonară. Așadar, P( S / D1 ) = 0,90
De asemenea, există șanse foarte mici, să spunem de 1% , ca o
persoană care nu are tuberculoză să testeze pozitiv. Așadar, estimăm că :
P( S / D2 ) = 0,01 .
Dispunem acum de toate ingredientele pentru a folosi formula lui Bayes:
0,03 × 0,90 0,027
P( D1 / S ) = = = 0,736 .
0,03 × 0,90 + 0,97 × 0,01 0,0367
Prin urmare, probabilitatea ca „Ion Popescu”, care a fost „testat
pozitiv” în radiografia pulmonară, să aibă tuberculoză este estimată acum la
73,6% . (Cu alte cuvinte, din cauza evenimentului S , probabilitatea de a
avea tuberculoză crește de la 3% la 73,6% .)

Exemplul 3.
Să considerăm acum un exemplu ceva mai sofisticat (preluat din
„Introduction to Clinical Informatics” de Degoulet si Fieschi, Springer
Verlag, 1999):
D1 – Pacienta noastră (dintr-un spital mare) are apendicită,
D2 – Pacienta noastră are salpingita,
D3 – Pacienta noastră este în orice altă situație.
Probabilitățile a priori ar putea fi estimate și din înregistrările
spitalului. Să presupunem că în anul care a trecut, din 10000 paciente tratate

98 | Elemente de teoria probabilităţilor (IV)


în spital, 1000 au fost diagnosticate cu apendicită, iar 500 cu salpingită. Prin
urmare: P( D1 ) = 0,10 ; P( D2 ) = 0,05 ; P( D3 ) = 0,85 .
(Să ne amintim că D1 ∪ D2 ∪ D3 trebuie să reprezinte evenimentul sigur!)
Să considerăm acum următoarele două simptome:
R – durere în cadranul inferior drept,
L – durere în cadranul inferior stâng.
Specialiștii ar putea să ne dea estimări bune ale probabilităților a
priori:
P( R / D1 ) = 0,80 ; P( R / D2 ) = 0,50 ; P( R / D3 ) = 0,05 ;
P( L / D1 ) = 0,10 ; P( L / D2 ) = 0,50 ; P( L / D3 ) = 0,05 .
Ca urmare, avem toate datele necesare pentru a calcula – folosind
formula lui Bayes – probabilitățile a posteriori:
P( D1 / R) = 0,54 ; P( D2 / R) = 0,17 ; P( D3 / R) = 0,29 .
Așadar, probabilitatea ca o anumită pacientă, care acuză dureri în
cadranul inferior drept, să aibă apendicită sunt estimate la 54% , iar
salpingită la doar 17% . Totuși, ce putem spune dacă pacienta acuză dureri
în ambele cadrane inferioare? Am putea da un răspuns „probabilistic”, dacă
am dispune de estimările necesare din partea specialiștilor.

Observație importantă! Chiar dacă este un instrument puternic în


medicină, folosirea teoremei lui Bayes este oarecum limitată, din cauza
condițiilor impuse, anume:
a) Maladiile trebuie să fie mutual exclusive,
b) Diferitele semne și simptome ce intervin în procesul de
diagnoză trebuie să fie independente, condiții care se întâlnesc
destul de rar în practica medicală.

Elemente de teoria probabilităţilor (IV) | 99


13 STATISTICĂ DESCRIPTIVĂ (I)

Noţiuni prezentate:
Statistică descriptivă
 Calculul indicatorilor statistici

Statistica matematică este cea mai adecvată şi exactă metodă de


interpretare a fenomenelor de masă, cu posibile legături cauzale,
multifactoriale, unde legitatea se manifestă şi se poate observa prin
rezultanta unui număr mare de fapte luate în studiu.
Într-o primă formă extragerea de informaţii din date constă în
prezentarea descriptivă deci calculul indicatorilor statistici cât şi realizarea
distribuției de frecvenţă [9].
Există două tipuri de variabile (date) ce definesc natura informaţiei:
cantitative şi respectiv, calitative. Datele de tip calitativ mai sunt cunoscute şi
cu numele de variabile categoriale sau atributive. Valorile acestora variază
ca sortiment, categorie sau clasă, nu după magnitudine sau mărime. Practic,
nu putem realiza o ordonare între valorile existente (de ex. culoarea unui
produs) [10].
Datele sau variabilele de tip cantitativ se caracterizează prin variaţie
în magnitudine, de la element la element. Astfel, acestea pot fi ordonate,
încât relaţii de genul mai mic sau mai mare au sens în acest context. După
fineţea pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi
variabilele cantitative în discrete şi continue.
O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi:
numărul de note de 10 la examenul de admitere, sau numărul de nou
născuţi într-o zi la o maternitate.
O variabilă de tip continuu poate lua orice valoare dintr-un interval
definit.

Calculul indicatorilor statistici


În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se
observă tendințe cu două aspecte: 1 – de localizare (de poziţie), 2 – de
împrăştiere (de variaţie) [5, 9, 11, 12, 13].

100 | Analiză descriptivă (I)


Indicatori de localizare
Media aritmetică (simplă)
Este indicatorul de bază al tendinţei de localizare. Considerăm şirul
de date x1, x2, … ,xn. Media aritmetică se notează cu X sau M(x):
n

x + x 2 + ... + x n ∑x i
X = 1 = i =1

n n

Media aritmetică ponderată


Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare
valorilor x1, x2, …., xm), atunci media se poate calcula conform formulei:
m

a ⋅ x + a 2 ⋅ x 2 + ..... + a m ⋅ x m
∑a j =1
j ⋅ xj
X = 1 1 =
a1 + a 2 + ... + a m n

Media aritmetică ajustată


În situaţia în care avem posibile valori eronate apropiate de
extremele minimă respectiv maximă, este indicat să se folosească media
aritmetică ajustată (trimmean). Aceasta se va calcula folosind din datele
iniţiale doar un procent de 90% sau 80% de exemplu. Practic valorile
extreme vor fi eliminate în proporţia dorită. Dacă alegem să lucrăm cu 90%
din volumul de date, atunci 5% reprezentând valorile cele mai mici
respectiv 5% reprezentând valorile cele mai mari vor fi eliminate din calcul.

Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi
relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă
(inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru
şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este:
1 1 n 1 1 n
= ⋅∑ , MH = = n
,
M H n i =1 xi 1 1 1 1
+
x1 x 2
+ ... +
xn ∑
i =1 x i

n
cu condiţia xi ≠ 0 .
Considerând frecvenţele absolute notate ai obţinem următoarea
formulă de calcul a mediei armonice ponderate:
n n
MH = n
= .
1 m aj

i =1 x i
∑x
j =1 j

Analiză descriptivă (I) | 101


Media cronologică
Este utilizată pentru seriile care au variaţii în timp (lunare,
semestriale sau anuale). Formula de calcul:
X1 Xn
+ X 2 + ... + X n −1 +
MC = 2 2 .
n −1
Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor
unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu
raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de
creştere anuală sau în dinamica sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, x3, … , xn se notează de
obicei cu MG şi se calculează cu formula:
n
M G = n x1 ⋅ x 2 ⋅ x3 ⋅... ⋅ x n = n Πx
i =1
i .

Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se
calculează cu formula (radical din media pătratelor valorilor):
n

∑x
2
i
MP = i =1
= X2 .
n
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir
trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de
tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se
notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2⋅k+1,
avem : Me = x k +1 = x n +1 . Dacă şirul are un număr par de valori, deci n=2⋅k,
2

calculăm mediana cu formula: Me = ( x k + x k +1 ) / 2 . Mediana este un


indicator robust şi este mai puţin influenţată de valorile extreme
(asemănător mediei aritmetice ajustate) decât media şi este mai stabilă la
fluctuaţiile de selecţie.

Modul (dominanta)
Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi
corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia
poate avea mai multe maxime, dar de obicei doar unul este global, celelalte
fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală,
cu două maxime se va numi bimodală, iar cu mai multe maxime este
numită polimodală sau multimodală.

102 | Analiză descriptivă (I)


Sunt situaţii în care datele sunt grupate pe clase. În acest caz
intervalul corespunzător frecvenţei maxime se numeşte interval modal sau
clasă modală. Modul se notează cu Mo.

Valoarea centrală
Reprezintă media extremelor şirului de date studiat:
X max + X min
Xc = . Dacă valorile din şirul de date sunt grupate pe clase,
2
X clasa inf . + X clasa sup .
formula de calcul devine: Xc = .
2
Este uşor de observat că valoarea centrală este dependentă de
extreme şi nu de valorile tuturor datelor.

Observație: Unitatea de măsură a indicatorilor de localizare este


aceeași cu a elementelor componente a eșantionului sau lotului studiat.

Indicatori de variaţie
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare
numerică a împrăştierii datelor. Variaţia luată în considerare se poate
raporta chiar la valoarea medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor
faţă de valoarea medie a şirului de date. Se notează cu σ 2 sau D[x]. Are
următoarea formulă de calcul (pentru volumul n al eşantionului de valori

∑ (x − X)
n
2

mari, n>30): σ2 =
(x 1 − X ) + (x 2 − X ) + ..... + (x n − X )
2 2

=
2
i =1
i
.
n n
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …,
am, atunci formula de calcul devine:

∑ a ⋅ (x − X)
m
2

= ∑ f i ⋅ (xi − X ) .
i i m
σ2 = i =1 2

n i =1
Făcând apel la noțiunile de statistică observăm că numărul de valori ce
compun setul de date, are influență asupra formulelor de calcul a
indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30,
atunci se aplică o corecţie asupra numitorului formulei. În acest caz
ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi numărul
gradelor de libertate).

∑ (x − X) ∑ (x − X)
n n
2 2
i i
n n
s 2 estimat = i =1
= i =1
⋅ =s2 ⋅ .
n −1 n n −1 n −1
Analiză descriptivă (I) | 103
Abaterea pătratică medie (deviaţia standard)
Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea
pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se
exprimă cu aceleaşi unităţi de măsură. Formula:

∑ (x − X)
n
2
i
D[ x] = σ = i =1
.
n

∑ n ⋅ (x − X) .
m
ai
Ţinând cont de frecvenţele absolute avem: σ =
2
i
i =1

Putem exprima şi astfel: σ = M − 2 ⋅ X + X = M P2 − X 2 .


2
P
2 2

Pentru eşantioane mici se aplică formula de estimare prin împărţire


la (n-1) în loc de n.

Abaterea individuală
Reprezintă o măsură caracteristică fiecărei valori din setul de date.
Se calculează ca diferență față de valoarea medie. Se poate calcula în formă
absolută sau relativă conform formulelor:
xi − X
d i = xi − X respectiv d i % = ⋅ 100 %
X
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat
şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de
amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime
este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât
este mai mică valoarea sa cu atât lotul este mai omogen.
Aspecte negative ale amplitudinii:
• depinde de eşantion, având variaţii pentru fiecare eşantion în parte,
• nu ţine seama de tipul repartiţie.

Intervalul intercuartilic
Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în
4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3
care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de
Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu
suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de
după Q3.
Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1
(ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se
numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic
va fi: Iq = Q3 – Q1.

104 | Analiză descriptivă (I)


Observaţie: Cuartila Q2 este tocmai mediana Me.
Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul:
Q3 − Q1 Iq
q= = .
Q2 Me
Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media
valorilor studiate. Dacă avem o medie de 100 şi o abatere pătratică standard
σ = 5 , atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie
de 10, atunci variaţia este foarte mare. În concluzie, este necesară raportarea
abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea
σ
datelor. Se defineşte coeficientul de variaţie: Cx = .
X
Acest coeficient este o măsură relativă a variaţiei datelor faţă de
medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită,
pot fi comparate folosind coeficientul de variaţie.

Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a
mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei,
statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ
de asimetrie (acest indicator este adimensional, fiind astfel util pentru a
µ − Mo
compara distribuţiile între ele): Sk = . Formula actuală de calcul (de
σ
estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este:
3
n
 xi − X 
∑ 
i =1  s 

Sk = pentru n mare, respectiv
n
3
n n
x −X
Sk = ⋅ ∑  i  , pentru n de valori mici (s este deviația
(n − 1) ⋅ (n − 2) i =1  s 
standard a eşantionului).
Cazuri posibile:
1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta,
X > Mo .
2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, X < Mo
3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).

În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult


de ±1, denotă o diferenţă semnificativă faţă de distribuţia normală.

Analiză descriptivă (I) | 105


În limba engleză cuvântul consacrat este skewness, folosit în
programele de statistică.

Boltirea (excesul, kurtosis)


Acest indicator compară distribuţia dată cu cea normală sau
Gauss’iană. Statisticianul englez Karl Pearson a definit de asemenea
m4 m4
coeficientul de boltire: β 2 = = (m4 este momentul centrat de
(m2 ) 2
σ4
ordin 4 în raport cu media). Pentru o distribuţie normală β 2normal = 3 .
Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce
măsoară excesul faţă de distribuţia normală. Acesta se calculează cu

∑ (x − X)
n
4

µ4 i
formula: γ 2 = β 2 − 3 = − 3 , echivalentă cu: γ 2 = i =1
− 3 (pentru
σ4 n ⋅ s4
eşantion de volum mare). La valori mici ale volumului lotului pentru
estimare se foloseşte formula:
4
n ⋅ (n + 1) n
x −X 3 ⋅ (n − 1) 2
γ2 = ⋅ ∑  i  − .
(n − 1) ⋅ (n − 2) ⋅ (n − 3) i =1  s  (n − 2) ⋅ (n − 3)
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică  β2 = 3 , γ 2 = 0.
Leptocurtică  β2 > 3 , γ 2 > 0 .
Platicurtică  β2 < 3 , γ 2 < 0 .

(Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în


limba greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”,
,,kurtosis” – ,,exces, cocoaşă”).

Tabelul 13-1. Metode de calcul a indicatorilor statistici în Microsoft Excel


Nr Indicator statistic Funcţie Excel Descriere / formula
1. Media aritmetică Average() Media setului selectat
Averageif() Media selecţiei pentru celulele ce
îndeplinesc o singură condiţie.
Averageifs() Media selecţiei pentru condiţii multiple.
2. Media aritmetică Trimmean(domeniu, Se calculează media aritmetică
ajustată. procent) eliminând din setul de date procentul
specificat din valorile extreme atât
minimă cât şi maximă. Vor rămâne :
(100% − 2 ∙ 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝) ∙ 𝑁𝑁𝑁𝑁. 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑. 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖

106 | Analiză descriptivă (I)


Nr Indicator statistic Funcţie Excel Descriere / formula
3. Media armonică Harmean() n
MH =
n

∑x
1
i =1 i

4. Media Veţi propune o metodă X1 Xn


+ X 2 + ... + X n − 1 +
cronologică de calcul. MC = 2 2
n −1
5. Media Geomean() n
geometrică MG = n Πx i =1
i

6. Media pătratică Veţi propune o metodă n


de calcul. ∑xi =1
i
2

MP = = x2
n
7. Mediana Median() Valoarea de mijloc a şirului ordonat
8. Valoarea modală Mode() sau Valoarea de frecvenţă maximă
(modul) Mode.sngl()
9. Dispersia Varp() sau m

(pt. populaţie) Var.p() ∑ (x


i =1
i − x )2
σ2 =
n
10. Dispersia Var() sau m

(pt. eşantion) Var.s() ∑ (x


i =1
i − x )2
σ2 =
n −1
11. Deviaţia standard Stdevp() sau m
(pt. populaţie) Stdev.p() ∑ (x
i =1
i − x )2
σ=
n
12. Deviaţia standard Stdev() sau m
(pt. eşantion) Stedv.s() ∑ (x
i =1
i − x )2
σ=
n −1
13. Calcul cuartile Quartile (domeniu, Valoarea indică numărul cuartilei
valoare) calculate:
0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 -
maximul
14. Intervalul Veţi calcula diferenţa. IQ = Q3 – Q1
cuartilic
15. Asimetria Skew() n
 xi − x 
3

∑ 
n
Sk = ⋅ 
(n − 1) ⋅ (n − 2) s 
i =1
16. Boltirea Kurt() n ⋅ ( n + 1)
γ2 = ⋅
(n − 1) ⋅ (n − 2) ⋅ (n − 3)
n 4
 xi − x  3 ⋅ (n − 1) 2
⋅ ∑ 
i =1 
s 
 −
(n − 2) ⋅ (n − 3)

Analiză descriptivă (I) | 107


Figura 13-1. Indicatori statistici calculați prin statistica descriptivă.

O metodă rapidă pentru determinarea indicatorilor statistici


principali (lipsesc: media geometrică, armonică, cronologică, pătratică,
ajustată, cuartilele) constă în lansarea procedurii statisticii descriptive
(Descriptive Statistics) din Analiza datelor – rezultatele sunt prezentate în
figura alăturată [5, 9].

EXERCIŢII
Fișierul Excel de lucru conține coloanele de date numerice de tip
continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu
rezidenta, stare civila, ocupatie.
1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii
statistici prezentaţi folosind formulele de calcul şi apoi folosind
opţiunea Descriptive Statistics.
2. Aranjaţi în ordine crescătoare valorile mediilor calculate:
MH ,MG, X,MP .
3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media
persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi
din mediul urban, căsătorite şi pensionate folosind averageifs().

Observaţii:
În calculul mediei geometrice (versiunea Excel 2003) se poate atinge
uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să
înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri
se va obţine un mesaj de eroare.

108 | Analiză descriptivă (I)


Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei
logaritm de a transforma operaţia de înmulţire în adunare.
Vom folosi formula de calcul a mediei geometrice:

GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))).

Vom scrie =EXP(AVERAGE(noua coloana ce conține ln(x))).

Valoarea maximă admisă este 1.79769313486232E+308, respectiv


valoarea minimă pozitivă este 2.2250738585072E-308.

Relaţia între valorile medii este: M H < M G < X < M P .


Sintaxa funcţiilor:

Averageif(domeniu de aplicare a criteriului, criteriu de selecţie, domeniul


de calcul a mediei)

Averageifs(domeniu de calcul a mediei, domeniu 1 selecţie, criteriu1,


domeniu 2 selecţie, criteriu2, ...perechi domeniu de selecţie - criteriu).
Numărul maxim admis pentru definirea criteriilor este 127 (minim este 1).

Analiză descriptivă (I) | 109


14 STATISTICĂ DESCRIPTIVĂ (II)

Noţiuni prezentate:
Statistică descriptivă
 Distribuţia de frecvenţă, realizarea histogramei ,
 Curba Gauss-Laplace.

Distribuţia de frecvenţă, histograma


Metodele descriptive de extragere a informaţiilor din date constau în
calculul indicatorilor statistici, crearea tabelelor de frecvenţe (absolute,
relative, cumulate) şi prezentarea grafică sub formă de diagrame.
Distribuţia de frecvenţă este definita de aceste tabele a frecvenţelor.
Reprezentarea grafică este practic histograma.
Histograma este un caz special de diagramă, care reprezintă folosind
coloane (forma verticală) sau bare (forma orizontală) frecvenţele de apariţie
a grupelor (sau claselor) definite pe variabila de interes (introdusă de Karl
Pearson 1895). Într-o histogramă suprafaţa coloanei trebuie să fie egală (cel
puţin proporţională, păstrând ponderea pe fiecare grupă) cu frecvenţa pe
clasa respectivă (absolută sau relativă de obicei, mai rar cumulată). Aceasta
deoarece histograma reprezintă o aproximare a densităţii de probabilitate.
De obicei intervalele de grupare (pe axa XX’) au aceeaşi dimensiune şi astfel
se poate reprezenta înălţimea coloanei egală cu frecvenţa absolută sau
relativă. Practic avem o formă grafică cu ajutorul căreia ne facem o primă
impresie vizuală asupra distribuţiei datelor [9, 11, 12, 13].
Intervalele vor fi consecutive şi nu se vor suprapune. Suprafaţa
totală va fi astfel egală cu 1 pentru lucru cu frecvenţe relative respectiv
egală cu volumul eşantionului pentru cazul utilizării frecvenţelor absolute
(pentru un coeficient de proporţie egal cu 1).
Numărul de intervale notat k, în care se împarte variabila continuă
studiată, se poate determina cu formulele următoare:
Formula Sturges : k = 1 + log 2 n , unde n este volumul eșantionului.
3. 5 ⋅ σ
Formula Scott: k = , unde σ este deviația standard.
n1 / 3
Formula de calcul H.B. Mann şi A. Wald pentru n > 100:
1
1 5
k = 4 ⋅  ⋅ (n − 1) .
4 

110 | Analiză descriptivă (II)


Din rezultatele obţinute se ia partea întreagă. Nu există o metodă
optimă de determinare a numărului de intervale şi implicit a dimensiunii
unui interval. Ca idee generală numărul acestora nu trebuie să fie mai mic
ca 15 şi nici mai mare ca 30.

Crearea histogramei în Microsoft Excel 2010.


Se alege din grupul de comenzi Data , Data Analysis / Histogram:
Tabelul conţine valori categoriale cât şi numerice de tip continuu.
Structura datelor este: Sex (M, F), Vârsta (numeric), Glicemia
(numeric), Asigurat CAS (T,F).
Comanda funcţionează doar pentru valori numerice – prin urmare,
lângă coloanele Sex, respectiv Asigurat CAS mai adăugăm două coloane cu
acelaşi nume, în care codificăm categoriile, dar folosind numere: pentru
variabila SEX: masculin = 1, feminin = 2; pentru variabila Asigurat CAS: T =
1, F = 0.
Se introduce şirul de celule pentru
care dorim să calculăm distribuţia
de frecvenţe.

Se introduc valorile distincte,


ordonate crescător, pentru care se
calculează distribuţia de frecvenţe.

Se bifează atunci când prima


celulă din coloana / şirul selectat
conţine numele variabilei pentru
care se realizează analiza.

Se specifică poziţia în foaia de


lucru curentă unde dorim să se
afişeze rezultatele.

Eventual, rezultatele se pot afişa


pe o foaie de lucru separată, cu
numele ales de noi, în acelaşi
registru de calcul.

Se indică tipul de distribuţie de frecvenţe care se doreşte:


- Dacă nu se bifează nimic: se realizează distribuţia de frecvenţe ce conţine
frecvenţele absolute pentru categoriile specificate (fig. 14-2);
- Pareto: tabelul distribuţiei de frecvenţe se afişează în ordinea descrescătoare a
frecvenţelor calculate, şi nu a categoriilor specificate în „Bin Range” (fig. 14-3).
- Cumulative Percentage: tabelul va conţine şi frecvenţele procentuale cumulate
(fig. 14-4).
- Chart Output: se realizează şi graficul de tip Histogramă corespunzător (fig. 14-5).

Figura 14-1. Crearea histogramei – opțiuni

Analiză descriptivă (II) | 111


Pentru a calcula distribuţia de frecvenţe, trebuie specificate în mod
obligatoriu două informaţii:
- Şirul de celule care conţine valorile efective ale variabilei pentru care
dorim să realizăm distribuţia (Input Range);
- O coloană auxiliară de valori (Bin Range) ce conţine valorile distincte
din şirul iniţial, aşezate în ordine crescătoare, pentru care se
realizează distribuţia de frecvenţe (în cazul variabilelor calitative,
acestea reprezintă de fapt categoriile urmărite, aşezate ordonat –
ex.1, 2 pentru variabila SEX, iar în cazul variabilelor cantitative
reprezintă limitele inferioară şi superioară ale intervalelor de clasă).

Figura 14-2. Distribuţia de frecvenţe pentru variabila SEX

Figura 14-3. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Pareto


(sorted histogram)”

Figura 14-4. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Cumulative


percentage”

Figura 14-5. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Chart


Output”
112 | Analiză descriptivă (II)
La specificarea intervalelor de clasă pentru care
se doreşte realizarea unei distribuţii de
frecvenţe se indică limitele inferioare şi
superioare ale acestora, urmând ca intervalele
să fie interpretate sub forma: <= 110, (110, 115],
(115, 120], … (140, 145].
Figura 14-6. Pentru variabila SEX am realizat distribuţia de frecvenţe fără opţiuni
suplimentare

Pentru variabila Glicemie – mom. 0 am realizat distribuţia de frecvenţe


cu opţiunea „Pareto (sorted histogram)”.

Figura 14-7. Distribuţia de frecvenţe pentru variabila Vârstă, cu opţiunea


„Cumulative percentage”

Distribuţia Gauss-Laplace
Este utilizată pentru descrierea densității de probabilitate a unei variabile
aleatoare de tip continuu. Este caracterizată de centrarea datelor în jurul
mediei (ce coincide cu mediana şi cu valoarea modală) [9, 11, 12, 13].
− ( x − µ )2
1
Formula densităţii de probabilitate: f ( x) = ⋅e 2⋅σ 2
, pentru
σ ⋅ 2 ⋅π
x ∈ (− ∞ , + ∞ ) .

Analiză descriptivă (II) | 113


Se notează simbolic N(µ, σ2) sau N(x, µ, σ2) arătând astfel dependența de
medie µ şi dispersie σ2.
Funcţia de repartiţie se calculează cu formula:
x x − ( x − µ )2
1
F ( x) = ∫ f ( x) dx = σ ⋅ 2 ⋅π
⋅ ∫e 2⋅σ 2
dx
−∞ −∞ .
Repartiţia normală redusă se obţine prin schimbarea de variabilă
x−µ
z= . Astfel aceasta va avea media 0 şi dispersia 1. Densitatea de
σ
−z2
1
probabilitate devine f ( z) = ⋅e 2
iar funcţia de repartiţie
2 ⋅π
z − x2
1
F ( z) = ∫ 2 ⋅π
⋅e 2
dx .
−∞ [9, 11]
Graficele densităţii de probabilitate şi a funcţiei de repartiţie pentru
repartiţia normală redusă sunt prezentate mai jos.

Figura 14-8. Densitatea de probabilitate. Figura 14-9. Funcţia de repartiţie (este


suprafaţa densităţii de probabilitate).

În Excel avem funcţii implementate pentru calculul atât a densităţii


de probabilitate, a funcţiei de repartiţie cât şi pentru calculul inversei celei
din urmă – prezentate în tabelul următor.

Observaţie
Dacă cunoaştem media şi dispersia unei repartiţii normale notate µ1
respectiv σ1 şi dorim să determinăm probabilitatea pe un subinterval [a,b],
atunci vom folosi diferenţa probabilităţilor: NORMDIST(b, µ1, σ1,1)-
NORMDIST(a, µ1, σ1,1).
Mai jos este un exemplu prezentat grafic.

114 | Analiză descriptivă (II)


Tabelul 14-1. Funcţii pentru distribuţia Gauss Laplace

Funcţii pentru calculul valorilor unei distribuţii Gauss-Laplace


NORMDIST(x, µ, σ,0) sau
− ( x − µ )2 NORM.DIST(x, µ, σ,0)
1
f ( x) = ⋅ e 2⋅σ
2
Ultimul parametru poate fi 0
σ ⋅ 2 ⋅π (FALSE) sau 1(TRUE). Valoarea 0
Densitatea de probabilitate implică calculul densităţii de
probabilitate.
NORMDIST(x, µ, σ, 1) sau
NORM.DIST(x, µ, σ, 1)
x −( x−µ )
2
x
1 Diferă ultima valoare (ce este

F ( x) = f ( x) dx = ∫
⋅ e 2⋅σ dx 1) faţă de formula anterioară,
2

−∞ σ ⋅ 2 ⋅ π −∞ astfel se calculează
Funcţia de repartiţie probabilitatea deci suprafaţa
densităţii de repartiţie
(cumulativ).
−z2
1
f ( z) = ⋅e 2
Pentru µ=0 şi σ=1:
2 ⋅π NORMDIST(z, 0, 1,0) sau
Densitatea de probabilitate – repartiţie normala NORM.S.DIST(z, 0)
redusă sau standardizată.
z − x2
1 Pentru µ=0 şi σ=1:
F ( z) = ∫
−∞ 2 ⋅π
⋅e 2
dx NORMDIST(z, 0, 1,1)
Dar există şi funcţiile dedicate:
Funcţia de probabilitate – repartiţie redusă sau NORMSDIST(z) sau
NORM.S.DIST(z, 1)
standardizată.
NORMINV(probabilitate, µ, σ),
x = Inv( F ( x)) = g ( prob.cuµulata, µ , σ ) sau
Calculul inversei deci determinarea abscisei NORM.INV(probabilitate, µ, σ)
corespunzătoare. Este vorba despre
probabilitatea cumulată.
z = Inv( F ( z )) = g ( prob.cumulata ) NORMSINV(probabilitate) sau
Calculăm abscisa corespunzătoare unei distribuţii NORM.S.INV(probabilitate)
reduse (standardizate). Este inversa funcţiei de Este acelaşi lucru cu:
repartiţie. NORMINV(probabilitate, 0,1)

Analiză descriptivă (II) | 115


=NORMDIST(B4,B1,B2,1)

=NORMDIST(B7,B1,B2,1)

Probabilitatea (suprafaţa) obţinută prin


diferenţa celor două valori calculate.

Figura 14- 10. Calculul probabilităţii pe intervalul 75-100 pentru o distribuţie


normală de medie 90 şi deviaţie standard 12.

EXERCIŢII
Fișierul Excel conține coloanele de lucru: Vârstă, Înălţime, Greutate,
IMC, Talia.
1. Realizaţi tabelul cu distribuţia de frecvenţă şi reprezentaţi grafic
histograma pentru frecvenţele absolute dar şi cumulate pentru
coloanele Vârstă, Înălţime, Greutate, IMC, Talia. Pentru vârstă veţi
alege dimensiunea intervalul pentru crearea claselor de 5 ani, pentru
înălţime de 4 cm, pentru greutate 5 kg, pentru IMC 2.5 Kg/m2,
pentru talie 4 cm.
2. Care este probabilitatea de a avea o persoană cu IMC-ul peste
30Kg/m2 ? (veţi calcula mai întâi media si deviaţia standard apoi
veţi aproxima distribuţia cu forma normală , Gauss-Laplace).
3. Care este probabilitatea, în ideea aproximării cu o distribuţie
normală, de a obţine conform datelor din tabel, persoane cu
înălțimea mai mică de 150 cm. Comparaţi frecvenţa relativă calculată
din eşantion cu probabilitatea obţinută prin aproximarea Gauss-
Laplace. Comentaţi rezultatele.
4. Determinaţi cu probabilitate de 0.95 simetrică faţă de medie
intervalul de grupare al datelor pentru greutate.

116 | Analiză descriptivă (II)


15 INTERVALE DE ÎNCREDERE (CONFIDENŢĂ)

Noţiuni prezentate:
 Intervale de încredere (confidenţă) pentru estimarea mediei.

Intervalul de confidenţă este folosit pentru a estima cu o anumită


probabilitate, valoarea unui indicator statistic al populaţiei, funcţie de
valoarea aceluiaşi indicator exprimat din eşantionul studiat.
În cazuri reale nu se lucrează cu toate datele unei populaţii (deci nu
în formă exhaustivă) din motive obiective gen efort financiar, timp
îndelungat de culegere a datelor, implicarea unui număr prea mare de
persoane în studiu, ineficienţă asupra metodei în sine. Practic, din studiul
unui eşantion se poate aproxima valoarea indicatorului statistic (în general,
media este de interes major) cu o anumită probabilitate, ceea ce va duce la
determinarea unui interval de estimare a valorii căutate [9].
Este de aşteptat ca valoarea calculată cu ajutorul datelor
eşantionului să fie diferită de valoarea determinată utilizând întreaga
populaţie, tocmai prin faptul că eşantionul nu conţine toate informaţiile. Ca
urmare, s-au creat metode statistice de calcul al intervalului de confidenţă
(cu 95% probabilitate, ca prag standard de încredere) a indicatorului studiat.

Intervalul de încredere pentru media unei variabile aleatoare de


tip continuu repartizată normal
Metoda de lucru pleacă generic de la ideea studierii variabilei
aleatoare creată din media eşantioanelor extrase din populaţia ţintă.
Teoretic, putem extrage un număr enorm de eşantioane dintr-o populaţie.
Aceste eşantioane pot avea dimensiuni diferite, dar media lor va respecta
un anumit tip de distribuţie atunci când anumite condiţii sunt îndeplinite
[9].
Există în statistică teorema limită centrală (rezultat fundamental),
care afirmă că independent de tipul de distribuţie al datelor din populaţie,
media eşantioanelor extrase creează un lot de date care urmează o repartiţie
de tip Gauss-Laplace (cu observaţia să avem selecţie aleatoare simplă) [11,
12, 13]. Există şi o condiţie de consistenţă în volum a datelor. Numărul
minim de date acceptat pentru un eşantion este de 30 (este o limită statistică
ce implică erori mici).

Intervale de confidenţă (încredere) | 117


Graficul de mai jos exprimă vizual ideea demonstrată prin teorema
limită centrală.

Populaţia de studiu

Lot Medie
Distribuţia mediilor este de tip
Li 1 M1 (Gauss Laplace)
Ln 2 M2
L1 3 M3
…. …
L7 L2
45 M45
46 M46
Eşantion (lot) µ
extras ….. ….

Figura 15-1. Concluzia „teoremei limită centrală”

Observaţii
1. Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia
mediilor eşantioanelor este normală şi pentru valori mici ale volumului
eşantionului.
2. Media valorilor medii ale eşantioanelor este media populaţiei. Aceasta
arată că nu există eroare de deplasare. Matematic putem scrie:
M ( X 1 , X 2 ,... X n ) = µ .
3. Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai
mică decât deviaţia standard a întregii populaţii. Avem astfel:
σX =σ , unde n reprezintă volumul eşantionului.
n

În concluzie lotul format din mediile X 1 , X 2 ,... X n creează o


distribuţie normală de medie µ identică cu media populaţiei, respectiv
deviaţie standard σ X = σ de n ori mai mică (unde σ este deviaţia
n
standard a întregii populaţii). Practic avem descrierea statistică a datelor,
µ−X
deci variabila studiată Z= va avea o distribuţie normală
σ/ n
normalizată (medie 0, respectiv dispersie 1) [9, 11, 12 13].

118 | Intervale de confidenţă (încredere)


Pentru a estima intervalul simetric de variaţie a variabilei aleatoare
Z cu o probabilitate 1-α, avem P − Z 1−α < Z < Z 1−α  = 1 − α , conform
 2 2 
figurii alăturate (forma simetrică a intervalului).

0.5

0.4 f(Z)
0.3

0.2
α/2 α/2
0.1
Intervalul de încredere
-Z1-α/2 0 Z1-α/2
-4 -2 0 2 4
Figura 15-2. Forma simetrică a intervalului

µ−X
Putem scrie în continuare − Z 1−α < < Z 1−α
2 σ/ n 2

σ σ
⇔ X − Z 1−α ⋅ < µ < X + Z 1−α ⋅ .
2 n 2 n
În concluzie, avem următoarea formulă de calcul a intervalului de
σ
confidenţă: µ = X ± Z 1−α ⋅
2 n . [10]
σ
Raportul se numeşte eroare standard.
n

Observaţie: Literele din alfabetul grecesc sunt folosite pentru a


identifica indicatorii statistici ai populației (media µ, deviaţia standard σ) iar
cele din alfabetul latin pentru indicatorii eşantionului sau a lotului (M
pentru medie sau X , S pentru deviaţia standard, acestea au valori
aproximative).
Toate aceste formule funcţionează pentru eşantioane mari, de peste
30 de valori. De asemenea, în formulă apare deviaţia standard a populaţiei –
deci aceasta trebuie cunoscută. Pentru situaţii în care eşantionul este mai
mic de 30, valorile distribuţiei normalizate Z se înlocuiesc cu valorile
distribuţiei de tip t sau Student (este o aproximare care minimizează erorile
pentru volum mic ce apar dacă s-ar folosi distribuţia normală) [11, 12].

Intervale de confidenţă (încredere) | 119


S
Avem astfel intervalul de confidenţă: µ = x ± tυ ,1−α / 2 ⋅ , unde
n

∑ (x − x)
n
2
i
S= i =1
iar υ este numărul gradelor de libertate υ = n − 1 (n este
n −1
volumul eşantionului).
În Excel pentru calculul valorilor normalizate Gauss se va folosi
funcţia normsinv(probabilitate) [4, 5]. Probabilitatea este măsurată ca
suprafaţa cuprinsă între curbă şi axa XX’ de la -∞ spre +∞. Vom avea
corespondenţa Z 1−α / 2 = normsinv (1 − α / 2) .
Pentru 95% interval simetric avem α=1-0.95=0.05, deci probabilitatea
de calcul pentru Z 1−α / 2 va fi 1-α/2 egală cu 0.975. Astfel avem: Z 0.975 =
normsinv(0.975)=1.9599. Funcţia normsinv() foloseşte Gauss-iana normalizată
aşadar de medie 0, respectiv dispersie 1.
Putem folosi şi funcţia norminv(probabilitate, medie, dispersie) - ce este
forma generală inversă a unei funcţii Gauss. Vom avea astfel
norminv(0.975,0,1)=1.9599.

Pentru calculul folosind distribuţia Student avem funcţia


tinv(probabilitate, grade libertate) [4, 5]. Şi ca să nu existe o uniformitate în
măsura probabilităţii, în cadrul acestei funcţii pentru un interval simetric se
va trece chiar valoarea α a întregului interval atât dreapta cât şi stânga. În
concluzie, vom avea 𝑡𝑡𝜈𝜈,1−𝛼𝛼/2 = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡(𝛼𝛼, 𝜐𝜐). Funcţia de distribuţie Student
tinde către funcţia Gauss normalizată pentru eşantioane mari. Putem
verifica aceasta pentru un eşantion de 100 date, TINV(0.05,99)=1.98, valoare
apropiată de 1.9599.

Calculul intervalului de confidenţă pentru estimarea unei proporţii


Proporţia poate fi asemănată cu o medie şi ca urmare metodele de
lucru pot fi transpuse în acest context.
Notăm: p – proporţia din eşantion, π – proporţia reală a populaţiei,
α – nivelul de semnificaţie, care de obicei este 0.05.
Aplicând acelaşi raţionament, definim variabila aleatoare de
π−π
repartiţie normală normalizată: Z =
σ
p ⋅ (1 − p )
Deviația standard este σ = , aşadar intervalul de
n
p ⋅ (1 − p )
confidenţă va fi p ± z (1−α / 2 ) ⋅ .
n

120 | Intervale de confidenţă (încredere)


Aceasta formulă (numită şi intervalul Wald) funcţionează corect
pentru volume de peste 30 de unități ale eşantionului şi pentru proporţii în
domeniul 0.4-0.6. O condiţie necesară de verificat este n ⋅ p ⋅ (1 − p ) ≥ 10 .
Statistica Student sau t va da rezultate mai bune pentru eşantioane mai mici
de 100.
Există mai multe metode de calcul aproximativ pentru ajustare a
intervalului de confidenţă a unei proporţii pentru volume mici şi pentru
valori extreme (proporţii mici sau mari). De asemenea, se ţine cont şi de
faptul că distribuţia nu este continuă.
Pentru corecţia de continuitate se foloseşte formula:
p ⋅ (1 − p ) 0.5
p ± z (1−α / 2 ) ⋅ ±
n n
Metoda Wilson (Edwin Bidwell Wilson - 1927)
1 p ⋅ (1 − p ) z 21−α / 2
p+ ⋅ z 21−α / 2 ± z1−α / 2 ⋅ +
2⋅n n 4 ⋅ n2
Intervalul de confidenţă: .
1
1 + ⋅ z 21−α / 2
n
Calculul intervalului de confidenţă ajută la estimarea indicatorului
statistic studiat şi de asemenea ajută la compararea populaţiilor între ele sau
cu o valoare de referinţă.
Compararea cu o valoare de referinţă – dacă intervalul de confidenţă
cuprinde valoarea de referinţă, atunci putem afirma cu probabilitate de 95%
(standard definită) că nu există diferenţă statistic semnificativă între
indicatorul studiat şi valoarea de referinţă. În caz contrar, dacă intervalul de
confidenţă nu cuprinde valoarea de referinţă, vom accepta existenţa
diferenţei semnificative, aşadar avem confirmare statistică.
Compararea a două populaţii prin intervalul de confidenţă a
indicatorului studiat – Dacă cele două intervale de confidenţă nu se
suprapun atunci sigur vom avea diferenţă semnificativă statistic, ca urmare
cele două populaţii diferă din punct de vedere al indicatorului statistic
studiat (media este în centrul atenţiei).

Metode de calcul
1. Primă metodă ar consta în implementarea funcţiilor folosind Microsoft
Excel. Practic, vom calcula pas cu pas funcţiile care determină intervalul
de confidenţă.
σ
Avem de calculat funcţiile: µ = X ± Z1−α ⋅ iar pentru eşantioane mici
2 n

∑ (x − x)
n
2
i
S
µ = x ± tυ ,1−α / 2 ⋅ , unde S = i =1
.
n n −1

Intervale de confidenţă (încredere) | 121


p ⋅ (1 − p ) 0.5
Pentru proporţii avem: p ± z (1−α / 2 ) ⋅ ± , sau cu o
n n
aproximare mai bună avem expresia:
1 p ⋅ (1 − p ) z 21−α / 2
p+ ⋅ z 21−α / 2 ± z1−α / 2 ⋅ +
2⋅n n 4 ⋅ n2
1 2
1 + ⋅ z 1−α / 2
n (Wilson).
Pentru calcul vom folosi funcţiile Excel prezentate în tabel [4, 5].

Tabelul 15-1. Funcţii pentru calcului intervalului de confidenţă


Funcţie de calculat Funcţie Excel
X - media eşantionului =average()
σ se va aproxima cu S =stdev()
p – este proporţia calculată cu datele din
Probabil count(), sau pivot table
eşantion
n – numărul de cazuri =count()
Z1−α / 2 - abscisa densităţii de probabilitate (Gauss
normalizată) corespunzătoare unei probabilităţi = normsinv (1 − α / 2)
de 1 − α / 2
𝑡𝑡𝜈𝜈,1−𝛼𝛼/2 - abscisa densităţii de probabilitate
(Student) corespunzătoare unei probabilităţi de = 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡(𝛼𝛼, 𝜐𝜐)
1 − α / 2;n = n − 1

2. Putem folosi statistica descriptivă (Descriptive Statistics) pentru calculul


intervalului mediei, din grupul de analiză statistică (Data Analysis) [4, 5].
În ultimul rând, din tabelul creat va fi prezentat nivelul de confidenţă
(Confidence Level(95.0%)), reprezentând termenul ce se adaugă/scade
pentru a determina limitele intervalului pentru eşantioane mici →
S
tυ ,1−α / 2 ⋅ . Astfel, se foloseşte distribuţia Student pentru calcul. Practic,
n
va trebui să determinăm limitele intervalului de încredere prin scăderea
valorii obținute din medie şi apoi adăugarea acesteia la medie – calcule
ce se vor efectua în două celule separate.

3. Tot pentru intervalul mediei se poate folosi funcţia confidence (alpha,


σ
dev.std., dimensiune eşantion), confidence(α , σ , n) = Z1−α ⋅ . Aceasta
2 n
aproximează intervalul prin folosirea unei statistici de tip Z (Gauss
normalizată). Valoarea alfa va fi egală cu 0.05 pentru 95% încredere în
estimare.

122 | Intervale de confidenţă (încredere)


EXERCIŢII
Pentru rezolvarea acestor cerinţe se va utiliza fișierul excel ce conţine
datele medicale necesare.
1. Calculaţi pentru coloanele Înălţime, IMC, Greutate şi Talie media şi
intervalul de confidenţă pentru medie cu probabilitate de 0.9
respectiv 0.95.
2. Calculaţi şi comparaţi datele după frecvenţa de tip True din coloana
NutriţieA cu aceeași categorie din coloana NutriţieB.
3. Comparaţi mediile IMC’ului pentru grupele casnici şi pensionari,
folosind cele 3 metode de calcul prezentate.
4. Comparaţi prin intervalele de confidenţă greutatea pentru grupurile
create de categoriile coloanei NutriţieA.

Exemplu:
Iată rezultatele obţinute pentru coloana Înălţime prin cele 3 metode
prezentate.

Figura 15-3. Prezentarea rezultatelor pentru variabila Înălţime

Intervale de confidenţă (încredere) | 123


16 DIMENSIUNEA EŞANTIONULUI

Noţiuni prezentate:
 Calculul dimensiunii (volumului) eşantionului de studiu.

În cadrul efectuării unei analize statistice, într-o primă etapă, o


problemă crucială constă în determinarea eşantionului de studiu. Ne
interesează în mod imperativ numărul de date necesare pentru ca lotul de
studiu să fie reprezentativ statistic, ceea ce înseamnă să avem încredere în
rezultatele obţinute prin aplicarea analizei statistice [9, 13].
În statistică obiectivul fundamental constă în luarea unei decizii, chiar
în cazul existenţei unei incertitudini. Se emit mai multe ipoteze şi prin
decizie se acceptă doar o ipoteză care se încadrează în probabilitatea
stabilită [9, 13].
În enunţarea unei ipoteze există două posibilităţi ce cuprind variantele:
 Ipoteza nulă notată H0, în care parametrii de comparat se consideră
egali. Spre exemplu, media populaţiei 1 având date în eşantionul 1 este
egală cu media populaţiei 2 caracterizată de eşantionul 2.
H0 : µ1 = µ 2 .
Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei
unei relaţii.
 Ipoteza alternativă notată H1, în care se consideră cei doi parametri
diferiţi.
H1 : µ1 ≠ µ 2 .
Această ipoteză este contrară ipotezei nule şi arată existenţa
diferenţelor sau a relaţiilor posibile între parametri.
Lucrând cu aceste ipoteze şi cu o anumită probabilitate decizia finală va
fi supusă erorii. Practic, între realitate şi decizia luată vor exista două tipuri
de erori posibile prezentate în tabelul de mai jos.

Situaţie adevărată
Sistem decizional cu prag
Ipoteza H0 este adevărată Ipoteza H1 este adevărată
Nu există eroare Eroare tip II
Decizie prin test

Acceptare ipoteză
1−α β
H0
Adevărat pozitiv Fals negativ
Respingere ipoteză Eroare tip I Nu există eroare
H0 α (nivel de semnificaţie) 1 − β (puterea testului)
Acceptare H1 Fals pozitiv Adevărat negativ

124 | Dimensiunea eşantionului


Nivelul de semnificaţie (eroarea de tip I) este determinat de valoarea α
a probabilităţii şi standard are valori de 0.05 (5%) sau 0.01(1%). Acesta
reprezintă eroarea de a accepta ipoteza alternativă în mod eronat, când în
realitate ipoteza H0 este adevărată [9, 13].
Eroarea de tip II exprimată prin probabilitatea β , arată acceptarea
ipotezei nule deci a lipsei diferenţelor, când în realitate acestea sunt
confirmate [9, 13]. Puterea testului se defineşte prin 1 − β . Valorile
standard sunt de 0.8 sau 0.9 şi corespunzător β = 0.2 respectiv β = 0.1 .
Funcţie de tipul de studiu aplicat se poate ţine cont de eroarea de tip I
în principal sau de ambele tipuri.
Pentru verificarea unei ipoteze se creează o statistică care este practic o
funcţie ce depinde de ipoteza H0 respectiv H1. Datele astfel create prin
funcţia mai sus amintită respectă o distribuţie cu un anumit specific. De
exemplu, în ipoteza H0: definită de µ = µ 0 putem avea o distribuţie
normală N ( µ , σ 0 ) , iar în cazul alternativ putem avea o distribuţie normală
cu alţi parametri N ( µ , σ 1 ) .

1. Determinarea volumului eşantionului de studiu pentru o variabilă


de tip continuu în care precizia în estimare mediei este luată în
calcul
Pentru o variabilă de tip continuu, în multe din cazurile de interes,
focalizarea problemei se face asupra valorii medii.
Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la
95% (de obicei acesta este standardul).
Se stabileşte de către
echipa de cercetare care este
eroarea maximă admisă,
d reprezentată grafic d în
figura alăturată.
Estimarea cu interval
de confidenţă a mediei duce
0 Xmin Xmed Xmax la formula: X ± Z α  ⋅
σ
.
1−
  n
 2

Figura 16-1. Eroarea maximă admisă

Volumului eşantionului se află prin condiţia ca dimensiunea


σ
intervalului de confidenţă să fie mai mică ca eroarea admisă: Z α  ⋅ ≤d .
1−  n
 2
2
 
  σ2
În concluzie, avem dimensiunea n ≥  Z α   ⋅ .
 1− 2   d 2
  

Dimensiunea eşantionului | 125


2. Determinarea volumului eşantionului de studiu pentru estimarea
unei proporţii
Prin analogie putem determina volumul eşantionului necesar pentru
estimarea unei proporţii [10].
2
 
  p ⋅ (1 − p )
Avem astfel: n ≥  Z α   ⋅
2
. Dacă nu cunoaştem proporţia din
  1−   d
  2
literatura de specialitate sau dintr-un studiu pilot, putem profita de faptul
ca formula prezintă un maxim pentru p=0.5. Astfel, vom estima prin adaos
volumul necesar al eşantionului.
Această formulă de calcul este valabilă pentru o populaţie infinită
sau de volum foarte mare (pentru estimarea corectă a proporţiilor). În
realitate, populaţiile au volum finit. Este normal să se aplice o corecţie
matematică în situaţiile finite. Formula corectată a determinării volumului
n
eşantionului: ncorectat = . Prin notația pop înţelegem dimensiunea
n −1
1+
pop
populației de studiu (de ex. populaţia unui judeţ).

3. Determinarea volumului eşantionului de studiu pentru estimarea


unei corelaţii
În această situaţie pentru determinarea volumului eşantionului
necesar estimării valorii coeficientului de corelaţie într-un mod consistent,
se va apela la testele ipotezelor statistice. Este greu să se determine o eroare
acceptată a coeficientului de corelaţie, aşa cum s-a făcut de exemplu pentru
estimarea proporţiei.
Se vor impune condiţii, atât asupra nivelului de semnificaţie α , cât
şi asupra puterii testului, 1 − β .
Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0, ρ = 0 .
Ipoteza alternativă este: H1 – coeficientul de corelaţie are valoarea
cunoscută ρc , ρ = ρ c .
Valoarea cunoscută a coeficientului se ştie din studii anterioare,
publicaţii recente sau un studiu pilot efectuat special cu acest scop.
2
Z +Z 
Formula de calcul dedusă în acest caz este : n = 3 +  (1−α ) (1− β )  .
 F (ρ c ) 
1 1 + ρc
F ( ρ c ) = ⋅ ln este transformata Fisher utilizată şi la formarea
2 1 − ρc
intervalelor de confidenţă.

126 | Dimensiunea eşantionului


4. Determinarea volumului eşantionului de studiu pentru verificarea
unei diferenţe impuse
În cadrul unei cercetări se poate impune condiţia ca diferenţa
existentă între parametrii de interes (medie sau proporţie) să depăşească o
anumită valoare critică pentru a fi decisivă.
Faptul că există teste de detectare a diferenţei semnificative nu este
suficient. Noutatea constă în dimensiunea impusă diferenţei căutate. De
exemplu, determinarea eficienţei unui tratament (se compară cu efectul
placebo).
Dacă indicatorul de interes este media, deci măsura se realizează pe
o scară de tip continuu, atunci importantă este diferenţa µ1 − µ 2 ≥ d .
Valoarea d este decisă de specialiştii în domeniul de studiu. Indicatorii µ1 ,
respectiv µ 2 , reprezintă mediile populaţiilor de studiu (deci fără eroare).
Media calculată din eşantion este notată cu X 1 şi aceasta este o estimare a
mediei populaţiei (are deci o anumită eroare).
Menţionăm că în cazurile reale se defineşte mai întâi noţiunea de
tratament mai bun (în cazul nostru µ1 ≥ µ 2 ).
Pentru determinarea volumului eşantionului se va ţine cont atât de
eroarea de tip I cât şi de eroarea de tip II ce exprimă diferenţa impusă ca
necesară în verificarea eficienţei tratamentului.
Se determină cu următoarea formula volumul eşantionului:
σ2
n = 4 ⋅ (Z (1−α ) + Z (1− β ) ) ⋅ .
2

d2
Ca şi în cazurile precedente, valoarea dispersiei este de multe ori
necunoscută, mai ales în studiile preliminare ale cercetării. Problema trebuie
rezolvată prin estimare din studii pilot (evident, tot cu un anumit grad de
eroare).
Dacă indicatorul de interes este proporţia, atunci formula de calcul se
p ⋅ (1 − p )
deduce în mod asemănător şi rezultă: n = 4 ⋅ Z (1−α ) + Z (1− β )( )2
⋅ . În
d2
acest caz d = p1 - p2.
Observaţie – dacă studiul este bilateral atunci vom transforma
Z (1−α ) → Z  α  şi Z (1− β ) → Z  β 
 1−   1− 
 2  2
În calculul realizat n reprezintă volumul ambelor eşantioane. Pentru
n
situaţia în care volumele eşantioanelor sunt egale n1 = n2 = , avem
2
p1 + p 2
p= .
2

Dimensiunea eşantionului | 127


În aceste calcule a dimensiunii eşantionului intervin funcțiile Excel
prezentate în tabelul de mai jos:

Valoarea abscisei în cadrul


Echivalentul de calcul în Excel
distribuţiei normalizate
Z (1−α ) =NORMSINV(1-α)
Z (1− β ) =NORMSINV(1-β)
Z α
=NORMSINV(1-α/2)
 1− 
 2

EXERCIŢII

1. Calculaţi dimensiunea eșantionului necesar pentru a estima


greutatea la naştere a copiilor dintr-o anumită comunitate. Dintr-un
studiu pilot se cunoaşte deviaţia standard σ=0.7. Nivelul de
semnificaţie acceptat este α=0.05 iar eroarea admisă de specialişti
este de 0.2 Kg.
Dacă scădem nivelul erorii de două ori aşadar d=0.1 la cât va creşte
volumul eşantionului de studiu ?
Cât devine volumul eşantionului pentru d=0.1 şi α=0.1 ?

Răspuns: 48, 189, 133.

2. Dorim să determinăm prevalenţa (într-un studiu transversal) a unei


anumite afecţiuni prezente într-o populaţie ce conţine un număr de
15000 indivizi. Se cunoaşte din anul anterior valoarea prevalenţei ce
a fost 0.17 (17%). Determinaţi volumul necesar al eşantionului de
studiu pentru ca eroarea asupra estimării să nu fie mai mare de 4%.
Dacă nu se cunoştea prevalenţa afecţiunii din anul anterior care ar fi
fost volumul eşantionului de studiu (aproximaţi prin adaos,
considerăm prevalenţa 0.5, caz în care volumul eşantionului va fi
maxim )?
Răspuns: 347, 626.

3. Se doreşte să se calculeze volumul eşantionului necesar pentru


determinarea unui coeficient de corelaţie cu un nivel de semnificaţie
0.05 şi cu o putere a testului de 0.9. Dintr-un studiu anterior s-a
dedus valoarea de corelaţie de aproximativ 0.32.

Răspuns: 81.

128 | Dimensiunea eşantionului


4. În cercetările pentru validarea unui nou tratament împotriva
cancerului, se doreşte ca proporţia celor vindecaţi să fie cu cel puţin
10% mai mare decât procentul obţinut prin metoda clasică de
terapie. Pentru a putea sesiza un astfel de procent determinaţi
volumul eşantionului pentru semnificaţie de 0.05.
Consideraţi cele două volume egale (definite de cele 2 tratamente).
Nu ni se dau informaţii despre puterea testului ,astfel vom folosi o
formulă dedicată.
Numărul total de valori n1+n2=n se va calcula astfel:
2
 
  p ⋅ (1 − p )
n = 4 ⋅  Z α   ⋅
 1− 2   d2
  

Produsul p*(1-p) este maxim pentru p=0.5. Deoarece nu ni se dau


informaţii despre valorile proporţiilor, vom considera cazul extrem
(vom folosi formula de calcul prin adaos, vom obţine un volum mai
mare ce ne va asigura consistenta statistică).

n
Răspuns: n1 = n 2 = = 193 .
2
5. În cadrul unei cercetări se doreşte studiul eficienţei unui tratament
nou, prin comparaţie cu subiecţii trataţi prin efect placebo.
Presupunem că efectul este măsurat şi se doreşte o scădere a
parametrului medical cu 4 unităţi (d=4). Se consideră eşantioane
n
egale în volum n1 = n 2 = . Se va aplica un nivel de semnificaţie
2
α=0.05 bilateral, iar puterea testului va fi 1-β=0.9. Se cunoaşte că
varianţa are valoarea aproximativă 38.

n
Răspuns: n1 = n 2 = = 50 .
2

Dimensiunea eşantionului | 129


17 COMPARAREA SETURILOR DE DATE (I)

Noţiuni prezentate:
 Compararea a două seturi de date – testul t (Student)

Unul dintre obiectivele majore ale unui studiu statistic este acela de
a compara între ele seturi de valori aparţinând unor eşantioane diferite,
pentru a evidenţia diferenţele între aceste eşantioane. În acest scop se
folosesc aşa-numitele „teste de semnificaţie statistică”, sau „teste de
ipoteză” [14].
Testele de ipoteză funcţionează conform următorului principiu: se
formulează ceea ce se numeşte o „ipoteză statistică” privind
comportamentul datelor în eşantioanele analizate, şi se verifică această
ipoteză prin metode matematice, care au drept scop confirmarea sau
infirmarea ei. În condiţiile în care a fost identificată valoarea de adevăr a
ipotezei formulate pentru eşantioanele luate în studiu, marele avantaj al
testelor statistice este că această valoare de adevăr a ipotezei poate fi
generalizată pentru populaţiile din care provin eşantioanele respective, cu
condiţia ca ele să fi fost alese astfel încât să fie reprezentative pentru
populaţiile de origine.
Enunţarea unei ipoteze se poate face prin două modalităţi:
1. Ipoteza nulă: parametrii de comparat se consideră egali (de ex.:
media populaţiei 1, caracterizată de eşantionul 1, este egală cu media
populaţiei 2, caracterizată de eşantionul 2).
H0: m1 = m2
2. Ipoteza alternativă: parametrii de comparat se consideră diferiţi.
H1: m1 ≠ m2

Etapele de parcurs în verificarea unei ipoteze prin test statistic vor fi:
1. Enunţarea ipotezei;
2. Alegerea parametrului de studiu (poate să fie conţinut implicit
în enunţarea ipotezei);
3. Deducerea şi calculul formulei matematice a testului (numită şi
discriminanta statistică) dorită prin regula de decizie;
4. Acceptarea sau respingerea ipotezei, în urma comparării valorii
calculate a testului cu valori tabelate corespunzătoare tipului de
repartiţie a datelor în care se încadrează.

130 | Compararea seturilor de date (I)


În funcţie de natura datelor cu care se lucrează, testele de
semnificaţie statistică se încadrează în două categorii – teste parametrice,
proiectate în general pentru date cantitative, a căror distribuţie de valori
respectă legea normală, şi care compară parametri statistici cum ar fi media
sau varianţa, şi teste neparametrice, proiectate pentru date calitative sau
date cantitative a căror distribuţie de valori nu respectă legea normală, şi
care compară mărimi statistice cum ar fi frecvenţele de apariţie a anumitor
valori sau rangurile.
Cele mai simple şi mai frecvent utilizate teste de semnificaţie
statistică sunt testele parametrice, bazate pe compararea mediilor sau a
varianţelor. Alegerea testului de semnificaţie statistică care se va folosi
pentru a compara valorile unui parametru între două sau mai multe
eşantioane se face strict în funcţie de natura şi de caracteristicile datelor cu
care se lucrează [15]. Astfel, în cazul în care se lucrează cu un parametru
cantitativ, a cărui distribuţie de valori respectă legea de repartiţie normală
(fapt verificat eventual prin aplicarea unui test de fitare a datelor) apar de
obicei următoarele posibilităţi:

1. Se doreşte compararea valorilor acestui parametru între două


eşantioane diferite, sau independente – caracterizate prin aceea
că valorile parametrului cantitativ care se analizează provin
de la subiecţi diferiţi (de exemplu, într-un lot de pacienţi se
doreşte compararea valorilor glicemiei la bărbaţi şi la femei) –
se va folosi testul t de comparare a mediilor;
2. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, dar dependente – caracterizate prin aceea că
valorile parametrului cantitativ care se analizează provin de
la aceiaşi subiecţi (de exemplu, într-un lot de pacienţi se
doreşte compararea valorilor glicemiei la momentul 0 şi la
momentul 3 luni, cele 2 determinări fiind realizate la aceleaşi
persoane) – se va folosi testul t corelat (t-pairs sau pereche);
3. Se doreşte compararea valorilor unui parametru între mai mult
de două eşantioane. În acest caz avem următoarele soluţii: să
luăm eşantioanele două câte două, şi să comparăm valorile
parametrului analizat între acestea folosind testul t (ceea ce ar
putea conduce la un număr însemnat de comparaţii atunci când
se lucrează cu relativ multe eşantioane – de exemplu, la 5
eşantioane ar însemna 10 combinaţii posibile şi în general, la 𝑛𝑛
eşantioane ar însemna 𝐶𝐶𝑛𝑛2 combinaţii posibile), sau să realizăm
o comparare globală între cele 𝑛𝑛 eşantioane folosind un test de
semnificaţie adecvat, respectiv testul ANOVA de analiză a
varianţelor.

Compararea seturilor de date (I) | 131


CAZUL 1. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, sau independente – caracterizate prin aceea că valorile
parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de
exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la
bărbaţi şi la femei).

Într-o situaţie de acest tip, pentru a evidenţia eventualele diferenţe


între valorile parametrului urmărit în cele două eşantioane, se foloseşte
testul t (Student) de comparare a mediilor. Acest test a fost creat de
matematicianul William Gosset, care l-a publicat sub pseudonimul Student,
de unde provine şi numele testului.
Presupunem că cele două eşantioane au dimensiunile n1 şi n2
suficient de mari (cel mai bine peste 30 de cazuri, dar în mod obligatoriu
mai mult de 10 – 12 cazuri), iar parametrul urmărit are mediile aritmetice
corespunzătoare x1 şi x 2 . Se pune problema de a decide dacă diferenţa
între aceste medii este suficient de mare pentru a se putea afirma că ea nu
este întâmplătoare, ci se datorează unor factori externi care acţionează
sistematic şi afectează într-un mod semnificativ valorile parametrului în
unul dintre eşantioane comparativ cu celălalt. Pentru a soluţiona această
problemă, se formulează ipoteza de lucru că mediile aritmetice ale
parametrului analizat în cele două eşantioane sunt egale, adică x1 = x 2
(IPOTEZA NULĂ) şi se determină valoarea de adevăr a acestei ipoteze
calculând valoarea unui parametru statistic, notat cu t, care la rândul său se
determină în două moduri [14]:
 Pe baza formulei următoare, denumită şi „formulă de bază”, şi folosită
în cazul în care pentru cele 2 eşantioane varianţele σ1 şi σ2 sunt egale:
x1 − x 2
t=
∑x +∑x
2
1
2
2  1
⋅  +
1 

n1 + n 2 − 2 
 n1 n 2 
 Pe baza formulei următoare, denumită şi “formulă separate”, şi folosită
în cazul în care pentru cele 2 eşantioane varianţele σ1 şi σ2 sunt diferite:
x1 − x 2
t=
σ 12 σ 22
+
n1 n2
Această valoare calculată, tcalculat , se compară apoi cu valori
teoretice ale parametrului t, determinate anterior de către statisticieni
pentru eşantioane de diferite dimensiuni şi anumite intervale de încredere
prestabilite P (de obicei 0.95 sau 0.99) – alegându-se dintre acestea valoarea
teoretică corespunzătoare intervalului de încredere dorit şi dimensiunii
corespunzătoare a celor două eşantioane cu care se lucrează.

132 | Compararea seturilor de date (I)


Dacă valoarea absolută a lui t calculat, tcalculat > t(P)tabel, urmează că
ipoteza nulă este INFIRMATĂ, iar diferenţa mediilor aritmetice nu este
întâmplătoare, fiind semnificativă statistic (se datorează unor factori
externi care acţionează sistematic). În caz contrar, adică atunci când
tcalculat<t(P)tabel, urmează că ipoteza nulă este CONFIRMATĂ şi nu avem
motive să considerăm că diferenţa între medii este semnificativă (adică ea
poate fi considerată ca o abatere întâmplătoare).
În practică, soft-urile de analiză statistică, deşi calculează şi
valoarea parametrului t şi o compară cu valorile teoretice cunoscute,
returnează, pentru această valoare, un coeficient de încredere, notat cu p,
referitor la confirmarea ipotezei nule cu o probabilitate de 95% sau de 99%.
Acest fapt este valabil nu numai pentru testul t, ci pentru orice test de
semnificaţie statistică (parametric sau neparametric), valoarea lui p fiind cea
mai facilă de utilizat pentru interpretarea testului [16]. Astfel:
- Dacă p≤0.05, urmează că diferenţa între medii nu este
întâmplătoare, fiind semnificativă statistic, iar ipoteza nulă este
infirmată;
- Dacă p>0.05, urmează că diferenţa între medii este
întâmplătoare, fiind nesemnificativă statistic, iar ipoteza nulă
este confirmată.

Exemplu:
Se foloseşte fişierul LP15.xlsx. Dorim să stabilim dacă există
diferenţe semnificative între valorile Glicemiei la momentul 0 între femei şi
bărbaţi. Analog, pentru valorile glicemiei la 3 luni şi la 6 luni, pentru a
determina dacă evoluţia pacienţilor este diferenţiată între femei şi bărbaţi.

Având în vedere că se lucrează cu variabile cantitative şi cu două


eşantioane, pentru a testa dacă există sau nu diferenţe semnificative statistic
între valorile lor se va folosi Testul t.
Se lucrează evident cu eşantioane diferite pentru care se
înregistrează valorile Glicemiei (bărbaţii şi femeile din tabel), deci se va
folosi testul t: Two-Sample; trebuie însă determinat care dintre cele 2
variante ale acestuia se va folosi: varianta „t-Test: Two-Sample Assuming
Equal Variances” sau varianta „t-Test: Two-Sample Assuming Unequal
Variances”. Prima variantă se foloseşte în cazul în care ştim că cele două
eşantioane provin din populaţii cu varianţe egale (testul t homoscedastic),
în timp ce a doua se foloseşte în cazul în care cele două eşantioane provin
din populaţii de origine cu varianţe inegale (testul t heteroscedastic).
Având în vedere că valorile Glicemiei sunt în aceeaşi coloană, şi
sunt amestecate între ele, mai întâi va trebui să sortăm tabelul după
variabila Sex, după care putem aplica testele statistice.

Compararea seturilor de date (I) | 133


Pentru a putea decide ce variantă de test t se foloseşte în situaţia
noastră, vom verifica mai întâi dacă cele două eşantioane au varianţele egale
sau nu. Pentru aceasta, se va folosi un alt test statistic, şi anume testul F
(Fisher) de egalitate a varianţelor.
Acest test este relativ simplu ca structură; el calculează valorile
medii şi varianţele pentru cele două eşantioane luate în discuţie şi apoi
determină raportul celor două varianţe calculate, notat cu F; dacă F este
foarte apropiat sau chiar egal cu 1, înseamnă că varianţele în cele două
eşantioane sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai
diferite între ele în ceea ce priveşte acest parametru [15].
Atenție F nu poate fi negativ ! (este un raport de varianțe).
Se selectează comanda Data / Data Analysis / F-Test Two Sample
for Variances:

Se specifică şirul de celule în


care se află valorile primei
variabile – Glicemia la femei.

Se specifică şirul de celule în


care se află valorile primei
variabile – Glicemia la bărbaţi.

Nu se bifează, deoarece şirurile


de valori au acelaşi nume.

Se precizează locul de afişare a


rezultatelor – pe foaia de calcul
curentă, pe o nouă foaie de calcul sau
chiar într-un registru de calcul nou.

Figura 17-1. Fereastra corespunzătoare testului F de egalitate a varianţelor

Rezultatele sunt afişate după cum urmează:

Figura 17-2. Modul de afişare a rezultatelor testului F de egalitate a varianţelor

134 | Compararea seturilor de date (I)


Sunt calculaţi următorii indicatori:
- Media, varianţa şi numărul de observaţii pentru cele două şiruri de
valori;
- Valoarea statisticii calculate F = 1.0204;
- P(F<=f) one-tail: probabilitatea de a se observa o valoare f mai mare
ca Fcalculat în ipoteza în care varianţele variabilei Glicemie la femei şi
bărbaţi sunt egale. Dacă această probabilitate este mai mică de 0.05
(5%), se poate considera că ipoteza de la care s-a pornit, că varianţele
variabilei Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ,
diferenţele între ele fiind semnificative statistic.
Pentru a aplica logica Fcalculat>Ftabelat (sau Fcritic) trebuie ca primul
eșantion să aibă varianța cea mai mare ! Atenție !
Statistica Fisher este un raport al varianțeșor deci nu poate fi
negativă.
În cazul nostru P(F<=f) one-tail = 0.4669 > 0.05, deci ipoteza nulă
este CONFIRMATĂ, VARIANŢELE SUNT EGALE.

În continuare este clar că vom folosi testul t pentru varianţe egale,


adică:
Se selectează comanda Data / Data Analysis / t-Test Two-Sample
Assuming Equal Variances:

Se specifică şirul de celule


în care se află valorile
primei variabile – Glicemia
la femei.

Se specifică şirul de celule


în care se află valorile
primei variabile – Glicemia
la bărbaţi.

Nu se bifează, deoarece
şirurile de valori nu au
nume diferite.

Se precizează locul de afişare a rezultatelor –


pe foaia de calcul curentă, pe o nouă foaie de
calcul sau chiar într-un registru de calcul nou.

Figura 17-3. Fereastra corespunzătoare testului t pentru varianţe egale

Compararea seturilor de date (I) | 135


Rezultatele sunt afişate după cum urmează:

Figura 17-4. Modul de afişare a rezultatelor testului t pentru varianţe egale

Pentru valorile Glicemiei la femei, respectiv bărbaţi sunt calculaţi


următorii indicatori:
- Media aritmetică, varianţa şi numărul de cazuri;
- Hypothesized Mean Difference = 0: formularea ipotezei nule – se
presupune că mediile pentru cele 2 variabile sunt egale, diferenţa
între ele fiind 0;
- Valoarea statisticii t calculate, tcalculat = -1.2089;
- P(T<=t) one-tail: probabilitatea de a se observa o valoare t mai mare
ca tcalculat atunci când tcalculat este un număr pozitiv respectiv un t mai
mic ca tcalculat atunci când tcalculat este un număr negativ (în ipoteza în
care mediile variabilei Glicemie la femei şi bărbaţi sunt egale). Dacă
această probabilitate este mai mică de 0.05 (5%), se poate considera
că ipoteza de la care s-a pornit, că mediile variabilei Glicemie la
femei şi bărbaţi sunt egale, este INFIRMATĂ, deci EXISTĂ
DIFERENŢE SEMNIFICATIVE STATISTIC ÎNTRE VALORILE
MEDIEI LA FEMEI ŞI BĂRBAŢI.
- t Critical one-tail: valoarea limită a statisticii t, pentru care P(t > =
tcritic) = 0.05.
- P(T<=t) two-tail: probabilitatea de a se observa o valoare mai mare
în valoare absolută decât tcalculat în ipoteza în care mediile variabilei
Glicemie la femei şi bărbaţi sunt egale – este dublul valorii P(T<=t)
one-tail.

136 | Compararea seturilor de date (I)


- t Critical two-tail: valoarea limită a statisticii t, pentru care P(t > =
tcritic) = 0.05.
În cazul nostru, P(T<=t) one-tail = 0.1162, deci este >0.05, deci
ipoteza nulă este CONFIRMATĂ, diferenţele între valorile medii ale
glicemiei la femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC.

LA MOMENTUL 3 LUNI:
Se procedează similar. Testul F (Fisher) de egalitate a varianţelor
indică F=0.8820 și corespunzător P(F<=f) one-tail=0.3983>0.05, deci ipoteza
nulă este CONFIRMATĂ, VARIANŢELE SUNT EGALE.

Figura 17-5. Modul de afişare a rezultatelor testului F (la 3 luni)

Prin urmare, se va folosi tot testul t pentru varianţe egale, care furnizează
următoarele rezultate:

Figura 17-6. Modul de afişare a rezultatelor testului t de egalitate a varianţelor (la


3 luni)

Valoarea statisticii t calculate, tcalculat = -0.6770, iar P(T<=t) one-tail


= 0.2507, deci este mai mare decât 0.05. Așadar, ipoteza nulă este

Compararea seturilor de date (I) | 137


CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi
bărbaţi sunt NESEMNIFICATIVE STATISTIC şi la momentul 3 luni.
LA MOMENTUL 6 LUNI:
Testul F de egalitate a varianţelor indică F = 0.5335, P(F<=f) one-
tail = 0.0820 > 0.05, deci ipoteza nulă este confirmată, varianţele sunt egale
şi se va folosi varianta testului t, corespunzătoare pentru varianţe egale, „t-
Test: Two-Sample Assuming Equal Variances”.

Figura 17-7. Modul de afişare a rezultatelor testului F de egalitate a varianţelor


(la 6 luni)

În continuare prezentăm situația pentru varianțe inegale (deoarece cea


pentru varianțe egale a fost deja prezentată).
Fereastra de introducere a parametrilor testului este absolut
identică cu cea din cazul testului t pentru varianţe egale:

Figura 17-8. Fereastra corespunzătoare testului t pentru varianţe inegale


(la 3 luni)

138 | Compararea seturilor de date (I)


iar rezultatele urmează şi ele aceeaşi schemă. Prin urmare, şi interpretarea
lor va fi similară.

Figura 17-9. Modul de afişare a rezultatelor testului t de inegalitate a varianţelor


(la 6 luni)

Valoarea statisticii t calculate, tcalculat = 8.8039, iar P(T<=t) one-tail =


9.9423 E-12, deci este mult mai mică decât 0.05. Așadar, ipoteza nulă este
INFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi
bărbaţi sunt SEMNIFICATIVE STATISTIC la momentul 6 luni.
Prin urmare, s-ar putea astfel concluziona că bărbaţii au reacţionat
mult mai bine la tratament decât femeile după 6 luni (valoarea medie a
glicemiei la bărbaţi a ajuns la 81.3225, în timp ce cea a femeilor a fost de
110.0526), urmând ca medicul să deceleze şi să explice ulterior elementele
practice care au condus la acest fenomen.

Compararea seturilor de date (I) | 139


18 COMPARAREA SETURILOR DE DATE (II)

Noţiuni prezentate:
 Compararea seturilor de date prin testul t corelat şi metoda
ANOVA
CAZUL II. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, dar dependente – caracterizate prin aceea că valorile
parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de
exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la
momentul 0 şi la momentul 3 luni, cele 2 determinări fiind realizate la
aceleaşi persoane):
În această situaţie se foloseşte tot testul t; în notaţiile anterioare,
diferă numai formula de calcul a lui t, folosindu-se ceea ce se numeşte testul
t corelat (t-pairs, sau t-Test: Paired Two Sample For Means):
x1 − x 2
t=
σ 12 σ 22 σ1 σ2
+ − 2r ⋅ ⋅
n1 n2 n1 n2
Testul t în această formă determină dacă valorile variabilei
urmărite la cele două momente în timp provin din populaţii cu media
aritmetică a variabilei egală [14]. Nu este necesară verificarea unor condiţii
privind varianţa parametrului în cele două populaţii.
Se selectează comanda Data / Data Analysis / t-Test: Paired Two
Sample For Means:
Se specifică şirul de celule
în care se află valorile
primei variabile (mom. 0).

Se specifică şirul de celule


în care se află valorile celei
de a doua variabile (la 3
luni).

Se bifează când în prima


celulă din şir se află
numele variabilei.

Se precizează locul de afişare a rezultatelor – pe


foaia de calcul curentă, pe o nouă foaie de
calcul sau chiar într-un registru de calcul nou.

Figura 18-1. Fereastra corespunzătoare testului t pentru varianţe egale

140 | Compararea seturilor de date (II)


Rezultatele sunt afişate după cum urmează:

Figura 18-2. Modul de afişare a rezultatelor testului t de egalitate a varianţelor

În plus faţă de cazul anterior este calculat şi un coeficient de


corelaţie între cele 2 variabile, Glicemia la momentul 0 şi Glicemia la
momentul 3 luni, Pearson Correlation, a cărui semnificaţie va fi discutată
ulterior şi care are rolul de a măsura intensitatea legăturii între ele –
legătura între două variabile fiind cu atât mai puternică cu cât acest
coeficient este mai apropiat de 1 (vezi capitolul 19).
Valoarea statisticii t calculate, tcalculat = 10.4554, iar P(T<=t) one-tail
= 2.2471 E-14, deci este mai mică decât 0.05. Așadar, ipoteza nulă este
INFIRMATĂ, diferenţele între valorile medii ale glicemiei la momentul 0
şi la momentul 3 luni sunt SEMNIFICATIVE STATISTIC, deci
tratamentul prescris de medic pentru micşorarea acestui indicator este
eficient – glicemia micşorându-se de la o valoare medie iniţială de 127.18 la
o valoare medie după 3 luni de 119.86.
Pentru a vedea dacă trend-ul favorabil se menţine, putem compara
şi valorile glicemiei la
3 luni cu cele la 6 luni,
folosind exact aceeaşi
manieră de lucru –
respectiv testul t
pentru perechi, t-Test:
Paired Two Sample
For Means. Se
procedează similar,
rezultatele obţinute
fiind cele alăturate:

Figura 18-3. Modul de afişare a rezultatelor testului t de egalitate a varianţelor

Compararea seturilor de date (II) | 141


Aşadar, valoarea statisticii t calculate, tcalculat = 9.7781, iar P(T<=t)
one-tail = 2.1082 E-13, deci este o valoare mult mai mică decât 0.05. Așadar,
ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale
glicemiei la momentul 3 luni şi la momentul 6 luni sunt
SEMNIFICATIVE STATISTIC, iar tratamentul prescris de medic pentru
micşorarea glicemiei este în continuare eficient, aducând acest parametru
aproape în limite normale după 6 luni de tratament – glicemia se
micşorează în continuare, de la valoarea medie de 119.86 după 3 luni de
tratament la o valoare medie după 6 luni de 92.24.
CAZUL III. Se doreşte compararea valorilor unui parametru între mai mult
de 2 eşantioane. În acest caz avem următoarele soluţii: să luăm eşantioanele
două câte două, şi să comparăm valorile parametrului analizat între acestea
folosind testul t (ceea ce ar putea conduce la un număr însemnat de
comparaţii atunci când se lucrează cu relativ multe eşantioane – de
exemplu, la 5 eşantioane ar însemna 10 combinaţii posibile şi în general la 𝑛𝑛
eşantioane ar însemna 𝐶𝐶𝑛𝑛2 combinaţii posibile), sau să realizăm o comparare
globală între cele 𝑛𝑛 eşantioane folosind un test de semnificaţie adecvat,
respectiv testul ANOVA.
Testul ANOVA (Analysis of Variance) a fost proiectat pentru a
studia diferenţa globală între toate loturile incluse în studiu, determinată
prin intermediul analizei varianţei în două moduri: între loturi şi în
interiorul fiecărui lot [15].
Ipoteza nulă de la care se porneşte este aceea că mediile pentru
fiecare lot în parte sunt egale, iar loturile provin din aceeaşi populaţie de
origine. Eventualele diferenţe sunt determinate de fluctuaţiile de eşantionaj.
Conform acestei ipoteze, toate loturile provin din aceeaşi populaţie de bază
– origine, iar varianţa, la rândul ei, provine din 2 surse:
- varianţa între loturi, V(BL);
- varianţa în interiorul fiecărui lot, V(WL).
Varianţele specificate se calculează în modul următor:
A) Varianţa între loturi V(BL):
1
Se calculează cu formula [16]: 𝑉𝑉(𝐵𝐵𝐵𝐵) = ∑𝑘𝑘 𝑛𝑛 ∙ (𝑚𝑚𝑖𝑖 − 𝑀𝑀)2
𝑘𝑘−1 𝑖𝑖=1 𝑖𝑖
unde: - k este numărul de loturi luate în consideraţie, pentru care se
calculează valorile medii;
- ni este dimensiunea fiecăruia dintre cele k loturi;
- mi este valoarea medie a parametrului urmărit, calculată la nivelul
fiecărui lot;
- M este media globală a parametrului.
În fapt, această varianţă este de fapt suma abaterilor pătrate ale
mediilor la nivelul fiecărui lot faţă de media generală a parametrului,
raportată la numărul de grade de libertate k – 1.

142 | Compararea seturilor de date (II)


B) Varianţa în interiorul fiecărui lot V(WL):
Se calculează cu formula [16]:
𝑘𝑘
1
𝑉𝑉(𝑊𝑊𝑊𝑊) = �(𝑛𝑛𝑗𝑗 − 1) ∙ 𝑆𝑆𝑗𝑗2
𝑁𝑁 − 𝑘𝑘
𝑗𝑗=1
unde: - N este suma dimensiunilor celor k loturi comparate;
- k este numărul de loturi luate în consideraţie;
- (nj – 1) este numărul de grade de libertate la nivelul fiecărui lor,
astfel încât numărul total de grade de libertate cu care se lucrează va
fi calculat cu formula:
γ = (n1 – 1) + (n2 – 1) + … + (nk – 1)
= n1 + n2 + …+nk – k
=N–k
- 𝑆𝑆𝑗𝑗2 este deviaţia standard calculată la nivelul fiecărui lot, cu
𝑛𝑛𝑗𝑗
∑𝑖𝑖 =1(𝑥𝑥𝑖𝑖 −𝑚𝑚𝑗𝑗 )2
𝑗𝑗
𝑆𝑆𝑗𝑗2
𝑗𝑗
formula: = 𝑛𝑛𝑗𝑗 −1
După ce au fost calculate aceste varianţe, se defineşte raportul:
𝑉𝑉(𝐵𝐵𝐵𝐵)
𝐹𝐹 =
𝑉𝑉(𝑊𝑊𝑊𝑊)
şi se compară acest raport cu valorile teoretice obţinute din tabele, pentru
care ipoteza nulă este adevărată, pentru un interval de încredere stabilit P =
0.95 sau P = 0.99 – corespunzător pragului de semnificaţie cu un coeficient
de securitate de 95% (sau 99%). Apar aşadar două situaţii posibile:
- Fcalculat > F(P)tabel ⇒ Ipoteza nulă este respinsă: diferenţa între medii este
semnificativă statistic;
- Fcalculat < F(P)tabel ⇒ Ipoteza nulă este acceptată: diferenţa între medii este
aleatoare, şi nu are o semnificaţie specială.
Testul ANOVA, la rândul său, se poate folosi în mai multe
variante:
- Varianta clasică (cea prezentată anterior);
- Varianta multivariată (MANOVA) – în cazul în care există mai
mulţi factori de grupare a variabilelor;
- Varianta pentru perechi – atunci când se lucrează cu eşantioane
dependente.
Testul ANOVA, însă, se foloseşte numai dacă este verificată
condiţia de egalitate a varianţelor între grupuri – care se verifică prin testul
F de omogenitate a varianţelor [15]. ANOVA nu determină însă decât dacă
există sau nu diferenţe semnificative statistic între toate mediile valorilor
parametrului numeric analizat corespunzătoare grupurilor generate de
parametrul calitativ, dar nu indică exact între ce grupuri apar diferenţele
semnificative statistic între medii. Pentru a se stabili acest lucru, se poate
apela la aşa-numitele „teste post-hoc”, iar în particular la următoarele teste:

Compararea seturilor de date (II) | 143


- Testele de comparaţie multiplă pairwise LSD şi Bonferroni, care
verifică diferenţele între fiecare pereche de medii şi generează o
matrice în care sunt marcate cu ∗ mediile semnificativ diferite cu un
prag de semnificaţie de 0.05:
 Testul LSD realizează comparaţii perechi între mediile
grupurilor, fără a ajusta rata de eroare în cazul comparaţiilor
multiple.
 Testul Bonferroni funcţionează analog, dar controlează rata
globală de eroare prin limitarea ratei de eroare a fiecărui test
sub o anumită valoare de prag, determinată experimental.
- Testele de rang multiplu – SNK (Student – Newman-Keuls), care
identifică grupurile de medii omogene. Testul SNK realizează toate
comparaţiile perechi între medii, identifică subgrupurile de medii
omogene şi ordonează crescător mediile în cadrul acestora. În cazul
în care eşantioanele au dimensiuni egale, compară de asemenea şi
perechile de medii din interiorul subgrupurilor omogene.

Exemplu:
Pe acelaşi tabel de date ca în cazul anterior (LP15.xlsx) dorim să
stabilim dacă există diferenţe semnificative statistic între valorile glicemiei
la momentul 0, la momentul 3 luni şi la momentul 6 luni.
Se selectează comanda Data / Data Analysis / ANOVA: Single
Factor, care este cea mai simplă dintre metodele de analiză a varianţei puse
la dispoziţie de Excel:
Se specifică şirul de celule în
care se află valorile
parametrului analizat (glicemia)
care, în această situaţie, trebuie
să acopere toate cele 3 coloane
cu determinările succesive ale
parametrului (la momentul 0, la
3 luni şi la 6 luni) .
Se indică modul de grupare a
datelor – în cazul nostru pe
coloane, deoarece lucrăm cu
eşantioane perechi.

Se bifează când în prima celulă


din şir se află numele variabilei.

Se precizează locul de afişare a rezultatelor – pe foaia


de calcul curentă, pe o nouă foaie de calcul sau chiar
într-un registru de calcul nou.

Figura 18-4. Fereastra corespunzătoare testului ANOVA

144 | Compararea seturilor de date (II)


Testul ANOVA furnizează următoarele rezultate:

Figura 18-5. Modul de prezentare a rezultatelor testului ANOVA

- Suma valorilor, valoarea medie şi varianţa pentru parametrul


analizat în fiecare dintre cele 3 eşantioane;
- Valoarea varianţei inter-grup şi a varianţei intra-grup, precum şi a
varianţei globale, care este suma acestora;
- Valoarea raportului celor două varianţe F, F = 109.6955;
- Valoarea critică a raportului celor două varianţe, Fcrit, pentru care
coeficientul de încredere p = 0.05; pentru valori ale statisticii F mai
mari decât valoarea critică, coeficientul de încredere p va fi mai mic
sau egal decât 0.05, iar când F scade sub această valoare critică
coeficientul de încredere p devine mai mare decât 0.05, diferenţele
între medii fiind nesemnificative statistic;
- Valoarea coeficientului de încredere p, p = 7.04 E-30 < 0.05, care
indică confirmarea ipotezei alternative.

În cazul nostru, deoarece p este mai mic decât 0.05, urmează că


ipoteza nulă este infirmată, deci diferenţele între valorile medii ale glicemiei
în cele 3 eşantioane sunt semnificative statistic – fapt verificat de altfel şi
prin exemplele anterioare, în care am folosit testul t pentru perechi pentru a
compara valorile glicemiei la momentul 0 şi după 3 luni, şi apoi între 3 şi 6
luni.

Compararea seturilor de date (II) | 145


19 REGRESIE - CORELAŢIE

Noţiuni prezentate:
 Regresie liniară şi corelaţie

În ştiinţele experimentale şi, în particular, în medicină şi biologie,


interesează nu numai variaţia unui singur parametru, ci şi a doi parametri,
cantitativi, despre care presupunem că se influenţează unul pe altul. De
exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie între
greutate şi înălţime, între tensiunea arterială şi valoarea colesterolului, etc.
Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi joacă
un rol important în ştiinţele vieţii, şi în particular în medicină. Cel mai
simplu caz de corelaţie este corelaţia liniară, unde una dintre mărimi variază
proporţional cu alta, ambele mărimi fiind numerice sau cantitative [16].
Pentru a se determina o expresie precisă a influenţei pe care unul
dintre parametri îl exercită asupra celuilalt în cazul unei variaţii
proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.
Astfel, pentru un eşantion dintr-o populaţie dată, se calculează:
mediile aritmetice ale celor doi parametri analizaţi, x şi y , precum şi
abaterile de la medie ale valorilor individuale, x − x şi y − y . Variaţia
proporţională a celor doi parametri x, y este exprimată din punct de vedere
matematic prin faptul că suma produselor abaterilor de la medie ale celor
doi parametri este un număr pozitiv:
∑ ( x − x)( y − y) > 0 .
Analog, variaţia invers proporţională a celor doi parametri x, y este
exprimată prin faptul că suma produselor abaterilor de la medie ale celor
doi parametri este un număr negativ:
∑ (x − x) ⋅ ( y − y) < 0 .
iar absenţa oricărei influenţe între cei doi parametri este exprimată prin
faptul că această expresie este egală sau tinde spre 0:
∑ ( x − x)( y − y) → 0 .
Pentru a se da o semnificaţie mai generală acestei sume, ea se
raportează la numărul de cazuri N, definindu-se astfel noţiunea de
covarianţă, COV(x, y) [16]:

P=
∑ ( x − x)( y − y) .
N
146 | Regresie. Corelaţie
care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi
parametri cantitativi.
Din punct de vedere grafic, această dependenţă proporţională între
două variabile este caracterizată printr-o dreaptă, care se numeşte „dreaptă
de regresie” şi de asemenea poate fi descrisă precis din punct de vedere
matematic.
Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus,
va fi:

y − y = a x ( x − x) , unde a x =
∑ ( x − x)( y − y) =
𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥,𝑦𝑦)
.
∑ ( x − x) 2 𝜎𝜎𝑥𝑥2

ax se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară


panta dreptei D pe orizontala Ox. Indică de câte ori în medie y este mai mare
sau mai mic decât x. Este pozitiv sau negativ după cum dreapta are o pantă
ascendentă sau descendentă de la stânga la dreapta.

În mod simetric (schimbând x cu y şi y cu x) se defineşte dreapta de


regresie a lui x în raport cu y, care corespunde ecuaţiei:

x − x = a y ⋅ ( y − y ) , unde a y =
∑ ( y − y)( x − x) =
𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥,𝑦𝑦)
.
∑ ( y − y) 2 𝜎𝜎𝑦𝑦2

ay se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta


dreptei D pe verticala Oy. Indică de câte ori în medie x este mai mare sau mai
mic decât y.

Pe baza acestor doi coeficienţi liniari de regresie ai lui y în x,


respectiv x în y, se defineşte produsul r 2 = a x ⋅ a y (media geometrică a celor
două pante de regresie); acest parametru se numeşte coeficientul corelaţiei
liniare, sau coeficientul de corelaţie Pearson. Formula de calcul a
coeficientului de corelaţie liniară va fi [16]:
𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥, 𝑦𝑦) 𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥, 𝑦𝑦)
𝑟𝑟 2 = 𝑎𝑎𝑥𝑥 ∙ 𝑎𝑎𝑦𝑦 ⟹ 𝑟𝑟 2 = ∙
𝜎𝜎𝑥𝑥2 𝜎𝜎𝑦𝑦2
𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥, 𝑦𝑦) ∑(𝑥𝑥 − 𝑥𝑥) ∙ (𝑦𝑦 − 𝑦𝑦)
⟹ 𝑟𝑟 = =
𝜎𝜎𝑥𝑥 ∙ 𝜎𝜎𝑦𝑦 �∑(𝑥𝑥 − 𝑥𝑥)2 ∙ ∑(𝑦𝑦 − 𝑦𝑦)2
Coeficienţii de corelaţie Pearson reprezintă măsura intensităţii
legăturii liniare între două variabile şi au valori cuprinse între -1 şi 1.
Valorile apropiate de 0 indică absenţa corelaţiei între variabilele respective,
iar valorile apropiate de 1 sau de -1 indică prezenţa unei corelaţii puternice
între variabile.
Valorile negative indică prezenţa unei corelaţii invers proporţionale
(atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile
scad corespunzător), iar valorile pozitive indică prezenţa unei corelaţii

Regresie. Corelaţie | 147


direct proporţionale (atunci când valorile uneia dintre variabile cresc,
valorile celeilalte variabile cresc şi ele).

Colton (1974) a indicat următoarele reguli empirice pentru


interpretarea coeficienţilor de corelaţie:
 Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă
sau foarte slabă,
 Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie
acceptabilă,
 Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie
moderată spre bună,
 Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.

Exemple:

1. Determinaţi coeficienţii de corelaţie între Vârstă, Greutate şi


Glicemie la momentul 0, pentru a putea afla dacă vârsta sau
greutatea influenţează în vreun fel valorile Glicemiei.

Una dintre condiţiile necesare pentru a putea calcula coeficienţii de


corelaţie este ca variabilele pentru care dorim să îi calculăm să fie situate în
coloane învecinate – condiţie realizată în cazul tabelului nostru – altfel,
coloanele respective ar trebui copiate şi rearanjate separat.
Se selectează comanda Data / Data Analysis / Correlation:

Se specifică şirul de celule în


care se află valorile
variabilelor pentru care
dorim să calculăm
coeficienţii de corelaţie.

Se specifică modul de
grupare a valorilor – în
coloane în cazul de faţă.

Se bifează când în prima


celulă din fiecare coloană se
află numele variabilei.

Se precizează locul de afişare a rezultatelor – pe foaia de calcul


curentă, pe o nouă foaie de calcul sau chiar într-un registru de
calcul nou.

Figura 19-1. Fereastra corespunzătoare calculului coeficienţilor de corelaţiei

148 | Regresie. Corelaţie


Rezultatele sunt afişate după cum urmează:

Figura 19-2. Modul de prezentare a rezultatului corelaţiei

Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce


conţine coeficienţii de corelaţie Pearson între toate perechile posibile de
variabile selectate prin comandă.
În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci
pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697),
respectiv glicemie şi greutate (0.0660) sunt practic nule.

2. Determinaţi coeficienţii de covarianţă între Vârstă, Greutate şi


Glicemie la momentul 0, pentru a putea afla dacă vârsta sau
greutatea influenţează în vreun fel valorile Glicemiei.

După cum am arătat, covarianţa este o măsură premergătoare


calculului coeficienţilor de corelaţie între două variabile, definită ca media
produselor deviaţiilor pentru fiecare pereche de puncte. Spre deosebire de
coeficientul de corelaţie, coeficientul de covarianţă nu aparţine unui interval
dat de valori, putând lua ca valoare orice număr real.
Se selectează comanda Data / Data Analysis / Covariance:

Se specifică şirul de celule în care se află


valorile variabilelor pentru care dorim
să calculăm coeficienţii de covarianţă.

Se specifică modul de grupare a


valorilor – în coloane în cazul de faţă.

Se bifează când în prima celulă din


fiecare coloană se află numele
variabilei.

Se precizează locul de afişare a rezultatelor – pe


foaia de calcul curentă, pe o nouă foaie de calcul
sau chiar într-un registru de calcul nou.
Figura 19-3. Fereastra corespunzătoare calculului covarianţei

Covarianţa se foloseşte pentru a determina doar natura legăturii


între cele 2 variabile: valorile pozitive ale ei indică o legătură direct

Regresie. Corelaţie | 149


proporţională între variabile, valorile negative indică o legătură invers
proporţională, iar valorile apropiate de 0 indică absenţa unei influenţe între
cele două variabile.
Rezultatele sunt afişate după cum urmează:

Figura 19-4. Modul de prezentare a rezultatului calculului covarianţei

Între toate cele 3 variabile există o legătură direct proporţională, mai


accentuată între Greutate şi Vârstă (69.0012), şi foarte slabă între Glicemie şi
Vârstă (6.3772), respectiv Greutate (7.7596).

3. Construiţi modelul de regresie liniară între Vârstă şi Glicemie la


mom. 0, respectiv Greutate şi Glicemie la mom. 0, pentru a
determina modul în care aceste variabile influenţează valorile
Glicemiei. Comentaţi rezultatele obţinute şi realizaţi reprezentarea
grafică corespunzătoare (de tip SCATTER).
Se selectează comanda Data / Data Analysis / Regression:
Se specifică şirul de celule
în care se află valorile
variabilei dependente/
influenţate - Glicemia.

Se specifică şirul de celule


în care se află valorile
variabilei independente/
care influenţează - Vârsta.

Se bifează când în prima


celulă din fiecare coloană
se află numele variabilei.

Se vor calcula şi intervalele


de încredere 95% în jurul
dreptei de regresie.

Se precizează locul de afişare a rezultatelor – pe foaia de


calcul curentă, pe o nouă foaie de calcul sau chiar într-un
registru de calcul nou.

Figura 19-5. Fereastra corespunzătoare regresiei

150 | Regresie. Corelaţie


Rezultatele sunt afişate după cum urmează:

Figura 19-6. Modul de prezentare a rezultatului regresiei (vârstă vs. glicemie)

Regression Statistics:
- Multiple R: este coeficientul de corelaţie calculat anterior, între
Vârstă şi Glicemie;
- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă
proporţia din variaţia variabilei Y (Glicemie) care este explicată de
influenţa liniară a variabilei X (0.0048 – foarte mic în cazul nostru);
- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;
- Standard Error: eroarea medie înregistrată la predicţia valorilor
medii ale variabilei Y (Glicemie) prin ecuaţia de regresie liniară
(7.9118 – de asemeni foarte mică, dar nu pentru că modelul de
regresie este bun, ci pentru că acesta este total inadecvat).
ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care
afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel
de corelaţie între cele 2 variabile). Pentru a se verifica testul respectiv, se
calculează statistica F=0.234971 şi nivelul său de semnificaţie p=0.63007.
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta
dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o
relaţie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este
CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaţie
semnificativă între X şi Y – cazul de faţă, p=0.63007.
- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855)
- Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult
mai mare decât celălalt coeficient)
- Total: reprezintă variaţia totală a lui Y, suma între Regression şi
Residual.
- Coefficients: reprezintă coeficienţii dreptei de regresie.
Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:

Regresie. Corelaţie | 151


- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât
semnifică o dreaptă mai înclinată, (dar nu neapărat o legătură mai
puternică); când panta are o valoare pozitivă, atestă o corelaţie direct
proporţională între cele 2 variabile, în timp ce atunci când are o
valoare negativă, atestă o corelaţie invers proporţională între cele 2
variabile.
- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în
care dreapta intersectează axa verticală.
Reprezentarea grafică se realizează folosind comanda SCATTER, în
care pe axa Orizontală se pune variabila independentă, iar pe cea Verticală
variabila dependentă (influenţată de cealaltă):

150
Corelatia intre Varsta si Glicemie
140
130
Glicemie

120
110
100
90
80
0 20 40 60 80
Varsta
Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie

Pentru a se figura pe acest


grafic ecuaţia dreptei de
regresie, se selectează punctele
din norul de puncte, după care
se activează meniu-ul
personalizat (click dreapta) din
care se alege opţiunea „Add
trendline…”.
Se bifează tipul de regresie
dorit – Linear, şi opţiunile
- Display Equation on
chart: pentru afişarea pe grafic a
ecuaţiei dreptei de regresie,
- Display R-squared value
on chart: pentru afişarea pe
grafic a coeficientului de
determinare.

Figura 19-8. Modul de setare pentru afişarea dreptei de regresie

152 | Regresie. Corelaţie


Graficul care se obţine va fi:

Corelatia intre Varsta si Glicemie


150
Se vede clar din ecuaţia
140 dreptei de regresie că practic
130 Vârsta nu influenţează deloc
Glicemie

120 Glicemia, dreapta fiind


aproape paralelă cu axa
110
orizontală.
100
y = 0.0461x + 125.54
90 R² = 0.0049
80
0 20 40 60 80
Varsta
Figura 19-9. Reprezentarea grafică a dreptei de regresie

Construim similar modelul de regresie liniară între Greutate şi


Glicemie la momentul 0.
Rezultatele obţinute vor fi:

Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Coeficientul de corelaţie între Greutate şi Glicemie la momentul 0


este cel deja cunoscut, R = 0.0660, fiind de asemenea foarte mic.
Testul ANOVA de caracterizare a pantei dreptei de regresie
furnizează de asemenea un coeficient de încredere p = 0.6487 > 0.05, care
conduce la concluzia că panta dreptei de regresie este aproape egală cu 0,
iar ecuaţia dreptei de regresie, aşa cum rezultă din calcule, va fi y = 0.0339∗x
+ 124.3388, adică o dreaptă de regresie din nou aproape paralelă cu axa
orizontală – fapt deja anticipat de valoarea coeficientului de corelaţie şi de
rezultatul testului ANOVA.

Regresie. Corelaţie | 153


Aceste elemente sunt de asemenea confirmate de reprezentarea
grafică corespunzătoare:

Corelatia intre Greutate si Glicemie la mom. 0


160
140
120
Glicemie

100
80
60
40 y = 0.0339x + 124.34
20 R² = 0.0044
0
0 50 100 150
Greutate
Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)

154 | Regresie. Corelaţie


20 ANALIZA SUPRAVIEŢUIRII

Noţiuni prezentate:
 Analiza supravieţuirii prin metoda Kaplan Meier.

Suntem adesea interesaţi în studiul intervalului de timp până la apariţia


unui eveniment de interes. De exemplu, timpul scurs până la însănătoşire în
cazul aplicării unui nou tratament sau timpul de utilizare a unui cateter sau
chiar timpul scurs de la îmbolnăvire până la deces – cercetare des întâlnită
în studiul afecţiunilor terminale. Observăm natura pozitivă sau negativă a
evenimentului urmărit. Cum putem examina acest interval de timp, cum
extragem informaţii din datele culese şi cum interpretăm rezultatele
obţinute, sunt probleme la care vom răspunde în acest capitol [9].
Avem nevoie mai întâi de informaţii de tipul timp (o coloană de date) şi
o altă coloană ce defineşte realizarea sau nu a evenimentului urmărit.
Aceste date sunt corespunzătoare fiecărui pacient în parte.
Trebuie să răspundem la întrebări de genul: care este supraviețuirea în
prima lună de tratament, sau care este supravieţuirea medie, sau în cât timp am
pierdut 50% din pacienţi? Evident toate întrebările sunt legate de conceptul
de timp.
Am putea în primă etapă să folosim noţiunile specifice din statistica
descriptivă deci, am putea caracteriza populaţia prin indicatorii statistici de
localizare, împrăştiere, distribuţie de frecvenţă. În realitate problema se
complică. Sunt dese situaţiile în care pe parcursul studiului se pierd pacienţi
din diferite motive (schimbare de adresă, abandon, deces din alte cauze
etc.). Astfel suntem nevoiţi să eliminăm datele incomplete pe perioada de
analiză. Dacă pierdem cantităţi importante de informaţie putem
compromite întregul studiu. Datele pierdute se numesc date cenzurate.
Acestea conţin informaţie parţială. De asemenea pot apărea cazuri noi care
ar trebui incluse în lot. Dacă am transla toate înregistrările la o origine de
timp comună am putea ţine cont de informaţia chiar parţial introdusă. Ar
trebui să folosim într-un mod corect această informaţie care ne-ar aduce,
evident, un plus de cunoştinţe. Analiza de tip Kaplan-Meier permite exact
acest tip de lucru cu date cenzurate şi/sau noi. Practic profităm de toată
informaţia pe care o avem pe parcursul intervalului de timp investit în
cercetare [9].
Metoda Kaplan Meier este o tehnică statistică neparametrică ce
determină probabilităţile de supravieţuire în timp, acceptă lucrul cu date

Analiza supravieţuirii | 155


cenzurate şi permite introducerea de noi cazuri în perioada de cercetare [9,
13].
Curba Kaplan Meier reprezintă evoluţia probabilităţii de supravieţuire
în timp. Ca metodă de calcul într-un mod vag exprimată, aceasta reprezintă
numărul de cazuri în viaţă raportat la numărul total de cazuri de la
începutul studiului. Dacă pierdem pacienţi în perioada de studiu, atunci pe
fiecare subinterval vom avea probabilităţile condiţionate calculate conform
formulei sus menţionate. Va trebui să calculăm probabilitatea pe
subinterval şi vom face apel la teoria probabilităţilor.
Evenimentele au loc la momentele notate T1 < T2 < … < Ti < … < Tn.
Momentul de start este T0 definit de scopul studiului. Aici trebuie să se
acorde o atenţie deosebită deoarece, poate exista o mare relativitate în
stabilirea momentului de start (de ex.: în cancerul de sân, care este
momentul de determinare a prezenţei neoplaziei ?). Toate cazurile luate în
studiu trebuie să fie tratate uniform pentru a nu introduce erori.
Funcţia de supravieţuire sau rata de supravieţuire este definită de
probabilitatea ca o persoană (sau caz de studiu) să supravieţuiască mai mult
de n unităţi de timp Ps(T > Ti ) . Aceste unităţi de timp sunt chiar valorile T1,
T2, …Tn [9, 13].
Se poate calcula uşor probabilitatea pe fiecare interval Ti-1, Ti. Aceasta
este însă o probabilitate condiţionată. Practic în intervalul Ti-1–Ti , avem o
anumită compoziţie a lotului de studiu. La momentul Ti­1 avem în viaţă Ni-1
pacienţi. Aceştia sunt supuşi riscului de a deceda. În intervalul precizat o
parte din pacienţi va fi eliminată din studiu (cenzuraţi), notaţi cu Ci, iar o
parte va deceda, notaţi Di.
Putem calcula numărul de pacienţi supuşi riscului la momentul Ti.
Vom scădea pe cei decedaţi şi pe cei cenzuraţi. N i = N i −1 − Di − C i .
Probabilitatea de deces pe acest interval, condiţionată de faptul că
pacienţii au supravieţuit până la începutul intervalului este
Di
Pd (T > Ti T > Ti −1 ) = , T este timpul de supravieţuire, ce caracterizează
N i −1
studiul [13]. Astfel probabilitatea de supravieţuire condiţionată este:
Di
Ps (T > Ti T > Ti − 1 ) = 1 − Pd (T > Ti T > Ti − 1 ) = 1 − .
N i −1
Această probabilitate se poate calcula pe fiecare interval care prezintă
evenimente de tip deces sau cenzură. Trebuie în final să calculăm
probabilitatea necondiţionată: Ps(T > Ti ) .
Făcând apel la teoria probabilităţilor avem:
P( A ∩ B)
P( A B) = - formula de calcul a probabilităţii condiţionate [17].
P( B)

156 | Analiza supravieţuirii


Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare
ca Ti (T>Ti), iar evenimentul B poate reprezenta T>Ti-1. Observăm că
probabilitatea de intersecţie a evenimentelor P( A ∩ B) = P(T > Ti ∩ T > Ti −1 )
este tocmai P(A), deoarece evenimentul A este mai restrictiv decât B.
P(T > Ti )
În acest caz avem: P(T > Ti T > Ti −1 ) = . Obţinem probabilitatea
P(T > Ti −1 )
de supravieţuire pentru intervalul i ca un produs de forma:
Ps(T > Ti ) = Ps(T > Ti T > Ti −1 ) ⋅ Ps(T > Ti −1 ) .
Înlocuind în continuare probabilitatea de supravieţuire de la momentul
Ti-1 cu o formulă asemănătoare celei de sus, obţinem un produs al
probabilităţilor condiţionate. În final ultima valoare va fi probabilitatea de
supravieţuire la momentul 0 (aceasta este considerata de valoare 1,
Ps (T > T0 ) = 1 ).
Este justificat astfel şi pseudonimul: „product limit estimate”.
Ps (T > Ti ) = Ps (T > Ti T > Ti −1 ) ⋅ ..... ⋅ Ps (T > T2 T > T1 ) ⋅ Ps (T > T0 )
Fiind un produs de probabilităţi putem uşor observa că în timp, forma
grafică va fi de tip descrescător.
Practic vom determina pe fiecare interval numărul de pacienţi la risc
(Ni), numărul de decese (Di) şi numărul de pacienţi eliminaţi (sau cenzuraţi,
Ci). Se poate calcula apoi probabilitatea condiţionată şi în final prin
produsul acestora se află funcţia de supravieţuire în fiecare punct în timp,
unde se întâlnesc evenimente [13].
Se poate astfel determina curba de supravieţuire. În continuare se
calculează cuartilele prin metoda grafică prin trasarea de drepte paralele cu
abscisa în punctele de probabilităţi egale cu 0.75, 0.50 respectiv 0.25.
Exemplu (date generice).
Avem următoarele date prezente în tabelul de mai jos. Acestea descriu
evenimentele de tip deces respectiv cenzură. Să se determine prin metoda
Kaplan Meier curba de supravieţuire şi să se calculeze cuartilele.
Tabelul 20-1. Date necesare în calculul supravieţuirii (metoda Kaplan-Meier)
An Cenzuri Eveniment urmărit
1 1 1
2 2 2
3 2 2
4 3 3
6 3 1
8 3 4
10 4 3
11 2 2
13 1 2
14 1 1
Total 22 21

Analiza supravieţuirii | 157


Numărul total de pacienţi este 22+21=43.
În tabelul următor sunt prezentate calculele necesare realizării curbei
Kaplan Meier.

Tabelul 20-2. Date necesare realizării curbei Kaplan Meier


An Cenzuri Eveniment Pacienţi la Prob. Prob. de supravieţuire
urmărit risc condiţionată
1 1 1 43 1-1/43=97.67% 97.67%
2 2 2 43-1-1=41 1-2/41=95.12% 0.97.67*95.12=92.91%
3 2 2 41-2-2=37 1-2/37=94.59% 92.91*94.59=87.89%
4 3 3 37-2-2=33 1-3/33=90.91% 87.89*90.91=79.90%
6 3 1 33-3-3=27 1-1/27=96.30% 79.90*96.30=76.94%
8 3 4 27-3-1=23 1-4/23=82.61% 76.94*82.61=63.56%
10 4 3 23-3-4=16 1-3/16=81.25% 63.56*81.25=51.64%
11 2 2 16-4-3=9 1-2/9=77.78% 51.64*77.78=40.17%
13 1 2 9-2-2=5 1-2/5=60.00% 40.17*60=24.10%
14 1 1 5-1-2=2 1-1/2=50.00% 24.10*0.50=12.05%
Total 22 21

În continuare se poate reprezenta grafic curba de supravieţuire. Pentru


aceasta vom folosi graficul de tip scatter (XY). Datele le vom aranja ca în
tabelul de mai jos:

Tabelul 20-3. Valorile probabilităţii de supravieţuire


An Supravieţuire 8 76.94%
0 1 8 63.56%
1 1 10 63.56%
1 97.67% 10 51.64%
2 97.67% 11 51.64%
2 92.91% 11 40.17%
3 92.91% 13 40.17%
3 87.89% 13 24.10%
4 87.89% 14 24.10%
4 79.90% 14 12.05%
6 79.90%
6 76.94%

Vom obţine graficul:

158 | Analiza supravieţuirii


Citim din grafic cuartilele:
 Supravieţuire de 75% avem la
8 ani.
 Supravieţuire de 50% avem la
11 ani.
Supravieţuire de 25% avem la 13
ani.

Figura 20-1. Curba Kaplan Meier

EXERCIŢIU

1. Calculaţi cuartilele şi reprezentaţi grafic curba Kaplan Meier pentru


datele prezentate în tabelul de mai jos.

An Cenzuri Eveniment urmărit


1 7 2
2 4 1
3 2 2
4 3 3
6 1 2
8 3 4
10 2 1
11 2 2
13 1 2
14 0 1
Total 25 20

Răspuns:
 Supravieţuire de 75% avem la 6 ani.
 Supravieţuire de 50% avem la 10 ani.
 Supravieţuire de 25% avem la 13 ani.

Analiza supravieţuirii | 159


BAZE DE DATE MICROSOFT ACCES.
21 NOŢIUNI GENERALE

Noţiuni prezentate:
 elemente introductive;
 deschiderea şi crearea unei baze de date;
 sortarea şi filtrarea datelor.

Elemente introductive

Bazele de date Access [18] sunt fişiere care conţin obiecte de diverse tipuri
[19]:
• tabele pentru stocarea datelor;
• form-uri (ferestre) pentru editarea pe ecran a datelor din tabele;
• rapoarte pentru tipărirea datelor;
• query-uri (interogări) pentru selecţia şi combinarea datelor;
• macro-uri şi module care conţin programe scrise pentru a rezolva
diverse probleme.

O bază de date Access poate conţine mai multe tabele, de exemplu în


baza de date a unei clinici pot exista: o tabelă cu datele personale ale
pacienţilor (nume, prenume, adresă, nr. de telefon, etc. şi o tabelă cu
istoricul medical al acestora (dată internare, afecţiune, tratament, etc.).
In imaginea de mai jos este arătată o tabelă care conţine informaţii
despre angajaţii unei companii.

Figura 21-1. Tabel cu date în Microsoft Access

160 | Baze de date Microsoft Access. Noţiuni generale.


Deschiderea unei baze de date
Pentru a putea lucra cu o bază de date, ea trebuie deschisă în
prealabil. Deschiderea unei baze de date Access se poate face în mai multe
moduri.
1) Una din variante este de a alege “Open” din meniul principal (vezi
figura de mai jos).
2) Altă metodă este de a alege o bază de date deschisă anterior din lista
“Recent Documents”.
3) O altă posibilitate este prin “dublu-clic” pe fişierul bază de date
(acesta este un fişier cu extensia accdb sau mdb (versiuni anterioare
de Access).

Figura 21-2. Modul de deschidere a unei baze de date în Microsoft Access

Crearea unei noi baze de date


O modalitate simplă de a crea o bază de date este de a utiliza un
template. Acesta reprezintă o bază de date deja creată, cu o structură
preexistentă, destinată unui anumit tip de aplicaţie. Utilizarea template-
urilor reduce mult timpul necesar creării unei baze de date, care ulterior
poate fi adaptată cerinţelor specifice.
A doua variantă este crearea bazei de date de la zero prin
intermediul comenzii New / Blank Database / Create. Baza de date este creată
ca un container, care conţine iniţial un singur tabel, cu numele generic
Table1 – şi la care ulterior putem adăuga alte tabele, în funcţie de
necesităţile pe care le avem.
Un tabel într-o bază de date este asemănător ca structură cu un tabel
în Excel şi conţine o colecţie de informaţii împărţite în categorii precis
caracterizate şi neredundante (care apar doar o singură dată).

Baze de date Microsoft Access. Noţiuni generale. | 161


Pentru a se defini un tabel într-o bază de date [18] trebuie parcurse două
etape:
1. Definirea structurii tabelului: Înseamnă caracterizarea categoriilor de
informaţii pe care le va conţine tabelul respectiv – numite în teoria
bazelor de date CÂMPURI. Câmpurile unei baze de date sunt foarte
asemănătoare ca şi concept cu coloanele unui tabel în Excel, dar, în timp
ce în Excel pentru caracterizarea unei coloane este de obicei suficient să
îi stabilim un nume, în Access (şi în orice limbaj de lucru cu baze de
date) pentru a realiza acest lucru trebuie să fim mai riguroşi.
Astfel, pentru a caracteriza un câmp într-un tabel care aparţine unei
baze de date trebuie indicate în mod obligatoriu următoarele elemente
referitoare la acesta:
 Numele câmpului: reprezintă descrierea informaţiilor care vor fi
memorate în câmpul respectiv (Ex. Nume şi prenume, Vârstă, Data
naşterii, etc.); poate avea maximum 64 de caractere, inclusiv caractere
speciale: „spaţiu _”, „virgulă ,”, „punct şi virgulă ;”, „semnul întrebării ?”
sau „semnul exclamării !”, dar nu şi „punct .”. În cazul câmpurilor cu
nume compuse (care conţin în structura lor caractere speciale dintre cele
menţionate mai sus), acestea vor fi apelate prin comenzi sau expresii
Access fiind incluse în paranteze pătrate [ ]: ex. [nume, prenume].
În fapt, referirea completă la numele unui câmp dintr-un tabel al unei
baze de date se face precizând înaintea sa şi numele tabelului din care
acesta provine, separat printr-un punct: ex. persoane.[nume, prenume].

Figura 21-3. Definirea structurii tabelului unei baze de date

162 | Baze de date Microsoft Access. Noţiuni generale.


 Tipul de dată al câmpului: se alege dintr-o listă de tipuri de dată
predefinite, în funcţie de natura informaţiilor care vor fi memorate în
câmpul respectiv.
Pe lângă acestea, mai pot fi precizate (opţional) şi alte proprietăţi ale
câmpului, cum ar fi: dimensiune, indexare, obligativitatea unui
conţinut, etc. (vezi figura de mai jos).

Toate aceste elemente referitoare la definirea câmpurilor unui tabel


într-o bază de date se definesc vizualizând conţinutul tabelului în
modalitatea View / Design View.
Tipurile de dată disponibile în Access pentru câmpurile unui tabel
sunt următoarele:

Tabelul 21-1. Tipurile de dată disponibile în Microsoft Access


Tip Descriere
Text Şiruri de caractere (litere şi cifre) cu o lungime maximă de 255 caractere
Şiruri de caractere (litere şi cifre) cu o lungime maximă de 65536
Memo
caractere
Number Valoare numerică întreagă sau reală, în funcţie de proprietatea FieldSize
DateTime Dată calendaristică (zi, lună, an) şi moment de timp (oră, minut, secundă)
Valoare numerică care reprezintă o sumă de bani, folosită în special în
Currency
calcule financiare, unde nu sunt permise rotunjiri.
AutoNumber Valoare numerică autogenerată, unică pt. fiecare înregistrare din tabelă
Yes/No Valoare logică (booleană) cu două posibilităţi: da, nu (adevărat, fals)
Obiect generic inserat în baza de date (document Word, imagine, film,
OLE
etc.)
Hyperlink Adresă către o pagină Web din Internet
Valoare autogenerată în urma efectuării unor calcule asupra valorilor din
Calculated
celelalte câmpuri ale tabelului
Lookup Valoare care se selectează dintr-o listă de valori posibile, specificate
Wizard manual sau preluate din alte tabele ale bazei de date
Tipul de dată optim pentru a stoca imagini digitale şi orice alt fel de
Attachment
fişiere binare.

2. Definirea conţinutului tabelului: înseamnă introducerea efectivă a


informaţiilor care vor fi stocate în tabelul respectiv – numite în teoria
bazelor de date ÎNREGISTRĂRI. Înregistrările într-o bază de date sunt
foarte asemănătoare cu liniile unui tabel în Excel şi conţin valori
particulare pentru câmpurile (coloanele) tabelului; ca şi principiu
general, este bine ca într-un tabel înregistrările să nu se repete şi să
existe şi un mecanism de identificare a lor în mod unic pentru a nu se
putea confunda unele cu altele.

Baze de date Microsoft Access. Noţiuni generale. | 163


Încărcarea efectivă a tabelului cu înregistrări se realizează
vizualizând conţinutul acesteia în modalitatea View / Datasheet View (vezi
figura de mai jos) [20].

Figura 21-4. Încărcarea cu date a unui tabel Microsoft Access

Exemplu:
Vom crea un tabel care să conţină informaţii generale despre
pacienţii luaţi în evidenţa unui spital. În structura acestui tabel dorim să
introducem următoarele câmpuri:
 NUME, PRENUME
 DATA NASTERII
 VARSTA
 SEX
 DOMICILIU
 JUDET
 LOCALITATE
 CAS
 ANAMNEZĂ
 INALTIME
 GREUTATE
 BMI
 GLICEMIE
 COLESTEROL
 SUSPECT DIABET
 COLESTEROL MARIT

Descriem în continuare cum se poate defini fiecare câmp în parte:


1. Câmpul NUME, PRENUME: deoarece va conţine numele şi
prenumele persoanelor care urmează a fi luate în evidenţă, tipul
de dată cel mai adecvat este tipul Text.

164 | Baze de date Microsoft Access. Noţiuni generale.


Dintre proprietăţile auxiliare ale acestuia, este bine să stabilim şi
dimensiunea câmpului (proprietatea „Field Size”, vezi figura) pentru a nu
se aloca o dimensiune mult mai mare decât este necesar. Am stabilit
dimensiunea câmpului la 50 de caractere, spaţiu suficient pentru a tipări
nume şi prenume de persoane – dacă nu am fi personalizat această
proprietate, dimensiunea implicită a câmpului ar fi fost cea maximă, adică
255 caractere.

Figura 21-5. Definirea proprietăţilor auxiliare a unui câmp

2. Câmpul DATA NASTERII: tipul de dată adecvat este DateTime.

Figura 21-6. Definirea proprietăţilor auxiliare a unui câmp de tip DateTime

Există mai multe formate de dată calendaristică, care pot fi


accesate şi modificate prin proprietatea «Format» (vezi figura). Formatul
implicit este «Short Date», dar dacă este cazul, acesta poate fi înlocuit cu una
dintre celelalte şase alternative.

Baze de date Microsoft Access. Noţiuni generale. | 165


3. Câmpul VARSTA: va fi de tip Number.
Pentru câmpurile numerice este util de particularizat două
proprietăţi: “Field Size” şi “Format”.
Proprietatea „Field Size” stabileşte tipul şi mărimea valorilor
numerice care vor putea fi introduse în câmpul respectiv, conform
următorului tabel:

Byte Numere ÎNTREGI, între 0 şi 255


Integer Numere ÎNTREGI, între -32.768 şi 32.767
Long Integer Numere ÎNTREGI, între -2.147.483.648 şi 2.147.483.647
Decimal Numere REALE, între –10^28–1 şi 10^28–1, cu precizie de 28
zecimale
Single Numere REALE, între –3.402823 E38 şi –1.401298 E–45 (valori
negative) şi între 1.401298 E–45 şi 3.402823 E38 (valori pozitive),
cu precizie de 7 zecimale
Double Numere REALE, între –1.79769313486231 E308 şi
–4.94065645841247 E–324 (valori negative) şi între
4.94065645841247 E–324 şi 1.79769313486231 E308 (valori
pozitive), cu precizie de 15 zecimale

În cazul nostru, deoarece este vorba de vârsta pacienţilor, tipul


„Byte” este suficient pentru a introduce valori în acest câmp (vezi figura de
mai jos).

Figura 21-7. Definirea proprietăţilor auxiliare a unui câmp de tip Number

Proprietatea “Format” stabileşte modul de afişare a valorilor


numerice cu care se lucrează. Dacă nu se personalizează, opţiunea implicită
este “General Number” (vezi figura de mai jos).

166 | Baze de date Microsoft Access. Noţiuni generale.


Figura 21-8. Definirea modului de afişare a unui câmp de tip Number

4. Câmpul SEX: Va avea doar două valori posibile, M (pentru


masculin) şi F (pentru feminin). Ca principiu de lucru în
proiectarea bazelor de date, se urmăreşte în general ca
informaţia să fie introdusă în maniera cea mai concisă posibil,
folosindu-se prescurtări sau coduri numerice ori de câte ori este
posibil – pentru a se micşora la maximum timpul de introducere
a datelor şi a se minimiza riscul de eroare.
Tot din aceleaşi considerente, deşi am fi tentaţi să definim acest
câmp de tip Text, eventual cu dimensiunea 1, un tip de dată încă
mai adecvat ar fi „Lookup Wizard”, care elimină complet riscul de
eroare, deoarece nu permite utilizatorului decât să selecteze una
dintre cele două valori posibile stabilite în faza de proiectare a
bazei de date, respectiv M şi F (vezi figura).

Etapele de personalizare [21] a unui câmp de tip „Lookup Wizard”:


1. Se stabileşte locul de unde să fie încărcate valorile predefinite ale
câmpului – dintr-un alt tabel, sau introduse manual.

Figura 21-9. Crearea câmpului de tip Lookup Wizard

Baze de date Microsoft Access. Noţiuni generale. | 167


2. Se stabilesc valorile care vor fi afişate în lista derulantă şi eventual se
modifică dimensiunile fizice ale acesteia. De obicei este suficientă
utilizarea unei singure coloane de valori.

Figura 21-10. Stabilirea valorilor listei derulante a câmpului de tip Lookup Wizard

3. Se stabileşte, dacă este cazul, o etichetă pentru câmpul de tip Lookup


(de obicei aceasta se lasă identică cu numele câmpului). Este de
asemeni utilă limitarea valorilor posibile care vor fi tipărite în câmp la
cele din lista derulantă (pentru a se reduce la maximum riscul de
introducere a valorilor eronate) şi interzicerea introducerii de valori
multiple (un alt principiu de lucru în proiectarea bazelor de date este
acela de a memora, pe cât posibil, valori singulare în câmpurile unui
tabel – când este totuşi necesară introducerea de valori multiple fiind
mai bine să se adauge câmpuri suplimentare la tabel).

Figura 21-11. Stabilirea etichetei câmpului de tip Lookup Wizard


168 | Baze de date Microsoft Access. Noţiuni generale.
4. Rezultatul acestei operaţiuni: La introducerea înregistrărilor, în
coloana „Sex” avem în dreptul fiecărei înregistrări o listă derulantă
de tip ComboBox cu valorile posibile, dintre care se va selecta
valoarea dorită.

Figura 21-12. Vizualizarea listei derulante pentru câmpul de tip Lookup Wizard

5. Câmpurile DOMICILIU, JUDET: se pot defini tot de tip Text sau


Lookup Wizard; la DOMICILIU valorile posibile vor fi U (pentru
mediul urban) şi R (pentru mediul rural), iar la JUDET se va încărca
lista tuturor judeţelor din România.
6. Câmpul LOCALITATE: este de tip Text, cu dimensiunea de 25
caractere (spaţiu suficient pentru a scrie nume de localităţi din
România).
7. Câmpul CAS: prin acest câmp dorim să bifăm pacienţii care
beneficiază de asigurare de sănătate; prin urmare, tipul de dată cel
mai adecvat este „Yes/No”.
În funcţie de natura informaţiilor dintr-un câmp de tip „Yes/No”, se
poate opta între 3 formatări disponibile de afişare a datelor: True/False,
Yes/No sau On/Off, deşi acestea, indiferent de formatul selectat, vor fi
introduse în acelaşi mod – prin bifarea unui control de tip CheckBox (vezi
figura).

Figura 21-13. Setarea formatului de data de tip „Yes/No”


Baze de date Microsoft Access. Noţiuni generale. | 169
8. Câmpul ANAMNEZA: În acest câmp va fi descrisă anamneza bolii;
deoarece este necesar un spaţiu mai mare, pentru introducerea unor
caracterizări potenţial complexe, tipul de dată cel mai adecvat va fi
Memo. Fiind vorba de un câmp de tip text, cu lungime mare, nu este
necesară specificarea altor proprietăţi suplimentare.

9. Câmpul INALTIME: Se va introduce înălţimea pacienţilor,


exprimată în metri – prin urmare, tipul de dată adecvat va fi Number,
şi, pentru a putea lucra cu numere reale, este obligatoriu să folosim
un format adecvat – de exemplu, formatul „Double” în proprietatea
„Field Size” şi să precizăm numărul de cifre cu care dorim să
exprimăm partea zecimală a valorilor introduse, în proprietatea
„Decimal Places” – de exemplu 2 cifre (vezi figura).

Figura 21-14. Setarea proprietăţilor auxiliare pentru câmpul de tip numeric

10. Câmpurile GREUTATE, GLICEMIE, COLESTEROL: se vor


introduce valori numerice, întregi, prin urmare tipul cel mai potrivit
de dată este Number – cu formatul “Long Integer” – pentru a putea
introduce valori suficient de mari dacă este cazul.
De multe ori, în cazul în care se lucrează cu valori numerice (dar şi
cu valori de tip Text), în ideea de a se controla rata erorilor care pot
apare la încărcarea datelor în tabel se introduce în descrierea
câmpurilor o regulă de validare (prin personalizarea proprietăţii
„Validation Rule”), astfel încât să nu fie acceptate în câmpul respectiv
decât valorile care satisfac acea regulă de validare – în cazul în care
regula nu este satisfăcută, fiind afişat un mesaj de atenţionare,
stabilit prin personalizarea proprietăţii „Validation Text”.
Astfel, convenim că greutatea unei persoane nu poate depăşi
valoarea 1000 kg. Regula de validare şi textul de validare vor fi
definite conform figurii de mai jos:

170 | Baze de date Microsoft Access. Noţiuni generale.


Figura 21-15. Setarea proprietăţilor auxiliare pentru câmpul de tip numeric

Rezultatul definirii acestei reguli de validare este indicat în figura de


mai jos şi se manifestă în etapa de introducere a datelor, atunci când
sunt introduse valori care nu satisfac regula de validare definită:

Figura 21-16. Mesaj de nerespectarea setării de validare

Convenim că glicemia unei persoane se exprimă în mg/dl, ceea ce


înseamnă că plaja de variaţie a sa va fi între 10 şi 1000. Regula de
validare şi textul de validare vor fi definite conform figurii de mai
jos:

Figura 21-17. Setarea regulii de validare pentru glicemie

Baze de date Microsoft Access. Noţiuni generale. | 171


11. Câmpul BMI: Se vor introduce valorile BMI, calculate pe baza
înălţimii şi a greutăţii pacienţilor. Se cunoaşte formula de calcul a
Indicelui de Masă Corporală (BMI):
BMI = Greutatea (kg) / (Înălţime (m) x Înălţime (m)).
O posibilitate este de a calcula valorile manual, pentru fiecare
pacient în parte, şi de a le introduce în câmpul BMI de tip Number,
dar mult mai comod este să calculăm automat aceste valori, definind
câmpul BMI de tip Calculated şi introducând în proprietatea
„Expression” formula de calcul a acestuia, construită pe baza
valorilor existente în celelalte câmpuri ale tabelului (vezi figura).

Figura 21-18. Setarea expresiei de calcul a BMI

Editarea de expresii [20] nu este foarte dificilă în Access, realizându-


se într-o fereastră de construcţie, numită „Expression Builder”, care permite
combinarea în expresii matematice a câmpurilor unui tabel – indicate prin
numele lor, scris între paranteze pătrate [ ], precum şi a funcţiilor,
constantelor şi operatorilor disponibili în program (vezi figura).

Figura 21-19. Editarea expresiilor cu „Expression Builder”,

172 | Baze de date Microsoft Access. Noţiuni generale.


12. Câmpul SUSPECT DIABET: Se va completa cu DA dacă glicemia
înregistrată a persoanei este peste valoarea 110 şi cu NU în caz
contrar; poate fi definit ca un câmp de tip text care se completează
manual pentru fiecare pacient în parte, sau poate fi definit tot ca un
câmp de tip Calculated, care se va completa automat prin evaluarea
funcţiei din figura de mai jos.

Figura 21-20. Definirea câmpului de tip Calculated

Pentru calcularea sa am folosit funcţia IIF() disponibilă în Access,


care are sintaxa:
IIF (expresie, adevărat, fals), cu următoarea semnificaţie:
 Expresie: este o expresie matematică, ce va fi evaluată: în cazul nostru
am folosit expresia [glicemie] > 110;
 Adevărat: este o valoare sau o expresie care va fi returnată în cazul în
care expresia evaluată iniţial este adevărată: în cazul nostru dorim să
afişăm textul DA;
 Fals: este o valoare sau o expresie care va fi returnată în cazul în care
expresia evaluată iniţial este falsă: în cazul nostru dorim să afişăm textul
NU.

13. Câmpul COLESTEROL MARIT: Se va completa cu DA dacă


colesterolul înregistrat al persoanei este peste valoarea 200 şi cu NU
în caz contrar; cel mai eficient este să definim şi acest câmp tot de tip
Calculated şi să îl calculăm folosind funcţia IIF (vezi figura de mai
jos).

Figura 21-21. Definirea câmpului de tip Calculated

Baze de date Microsoft Access. Noţiuni generale. | 173


Sortarea înregistrărilor
Sortarea are ca efect aranjarea înregistrărilor într-o ordine astfel încât
valorile din câmpul după care se face sortarea să se afle în ordinea dorită
[18]. Sortarea se poate face în ordine crescătoare sau descrescătoare astfel
[22]:
1. se selectează câmpul după care se va face sortarea (criteriu sau cheie
a sortării),
2. se declanşează sortarea în ordinea dorită (vezi figura de mai jos).

Figura 21-22. Sortarea înregistrărilor

In figura de mai jos sunt ilustrate butoanele utilizate pentru sortarea


crescătoare, descrescătoare şi pentru eliminarea sortării şi revenirea la
ordinea iniţială.

Figura 21-23. Tabel cu date în Microsoft Acces

Filtrarea înregistrărilor
Filtrarea permite afişarea doar a înregistrărilor care satisfac un
criteriu (condiţie) de filtrare.
Selectând câmpul după care se doreşte filtrarea şi apoi alegând Filter va fi
afişat dialogul cu opţiunile de filtrare. Aici sunt listate valorile distincte din
174 | Baze de date Microsoft Access. Noţiuni generale.
câmpul selectat. Prin bifarea sau
debifarea lor, realizăm filtrarea
înregistrărilor pe baza valorilor
respective.
O altă metodă de filtrare
presupune activarea comenzii Text Filters
sau Number Filters din meniul de filtrare. În
continuare, trebuie ales un operator de
tipul: Equals (egal cu), Does Not Equal
(diferit de), Less Than (mai mic decât),
Greater Than (mai mare decât), Between (în
intervalul). Se va introduce apoi
operandul, adică valoare asupra căreia
acţionează operatorul selectat (vezi figura
de mai jos).
Figura 21-24. Filtrarea înregistrărilor

Figura 21-25. Tabel cu date în Microsoft Access

Pentru eliminarea filtrului definit la nivelul unui câmp al unui tabel


se foloseşte butonul Toggle Filter din meniu-ul superior.

Figura 21-26. Eliminarea filtrului definit

Baze de date Microsoft Access. Noţiuni generale. | 175


Alte operaţii referitoare la înregistrările unui tabel
(Secţiunile Records şi Find)

Figura 21-27. Secţiunile Records şi Find

a) Adăugarea de înregistrări noi: În momentul în care se începe


editarea conţinutului unei înregistrări într-un tabel, după aceasta se
adaugă automat o linie nouă, vidă, pe care urmează a se introduce o
nouă înregistrare. Comanda New din meniu-ul superior are exact

acelaşi efect, , cu singura deosebire că, în plus, cursorul se


mută pe linia nou-introdusă în tabel pentru a se începe editarea
acesteia.
b) Ştergerea unei înregistrări: Se selectează înregistrarea (linia) din
tabel pe care dorim să o ştergem, după care se foloseşte comanda

Delete, . În acest moment va apare un mesaj de


confirmare a ştergerii (vezi figura), prin care suntem avertizaţi că,
din momentul în care efectuăm ştergerea datele nu vor mai putea fi
recuperate, pentru a se evita eventualele ştergeri accidentale.

Figura 21-28. Confirmarea ştergerii unei înregistrări

c) Salvarea înregistrărilor: Se foloseşte dacă dorim în mod explicit să


salvăm doar conţinutul tabelului curent din baza de date, folosind

comanda Save .
În mod normal, salvarea globală a fişierului care conţine întreaga
bază de date, folosind comanda generală de salvare,

, presupune şi salvarea modificărilor din


tabelele bazei de date, deci poate fi folosită ca înlocuitor al comenzii
specializate de salvare fără nici un fel de dificultăţi.
176 | Baze de date Microsoft Access. Noţiuni generale.
d) Poziţionarea pe o anumită înregistrare din tabel: Se realizează

folosind comanda Go To, , cu opţiunile:


• First: ne poziţionăm pe prima înregistrare din tabel
• Last: ne poziţionăm pe ultima înregistrare din tabel
• Previous: ne poziţionăm pe înregistrarea anterioară celei
curente;
• Next: ne poziţionăm pe înregistrarea care o urmează pe
cea curentă;
• New: se adaugă o nouă înregistrare, vidă, la finalul
tabelului şi ne poziţionăm pe ea.

e) Select all: Este o opţiune a comenzii Select , prin care se


selectează întregul conţinut al tabelului – echivalentă cu combinaţia
de taste CTRL+A sau cu click pe pătratul din colţul din stânga-sus al
tabelului (similar cu comanda de selectare a unui tabel în Excel) –
vezi figura.

Figura 21-29. Modul de afişare a selecţiei totale

f) Căutarea unei valori specifice într-un tabel: Se realizează folosind

comanda Find , după care se precizează modul în care


urmează a se realiza căutarea respectivă:
• În secţiunea „Find What”: se indică valoarea pe care dorim să o
căutăm;
• În secţiunea „Look In”: se indică locul în care se va realiza
căutarea – în câmpul selectat al tabelului, „Current field”, sau în
întregul tabel , „Current document”;
• În secţiunea „Match”: se indică modul în care se va realiza
căutarea – se caută potrivirile exacte ale valorilor din câmpuri cu
valoarea căutată, „Whole Field”, câmpurile care încep cu valoarea
căutată, „Start of Field”, sau câmpurile care conţin în interiorul
lor valoarea căutată, „Any Part of Field”.

Baze de date Microsoft Access. Noţiuni generale. | 177


Figura 21-30. Setarea ferestrei Find

g) Înlocuirea unei valori specifice într-un tabel cu o valoare nouă: Se

realizează folosind comanda Replace, , specificând


aceleaşi informaţii ca la comanda Fiind.

Figura 21-31. Setarea ferestrei Replace

h) Realizarea de calcule cu valorile dintr-un tabel: Se foloseşte

comanda Totals, , care adaugă la finalul tabelului o linie


de totaluri în care se pot calcula rezultatele următoarelor funcţii:
• Pentru câmpuri de tip Text, Memo sau Yes/No: Se calculează
funcţia COUNT, adică numărul înregistrărilor care au valori
nevide în câmpul respectiv (de tip Text sau Memo) sau care au
controlul de tip CheckBox bifat (câmpuri de tip Yes/No);
• Pentru câmpuri de tip Number: Se calculează oricare dintre
următoarele funcţii disponibile:
 SUM (suma valorilor din câmpul respectiv),

178 | Baze de date Microsoft Access. Noţiuni generale.


 AVERAGE (valoarea medie),
 COUNT (numărul valorilor nevide),
 MAXIMUM (valoarea maximă),
 MINIMUM (valoarea minimă),
 STANDARD DEVIATION (deviaţia standard),
 VARIANCE (varianţa).
• Pentru câmpuri de tip Date/Time: Se calculează oricare dintre
funcţiile COUNT, AVERAGE, MINIMUM sau MAXIMUM.
Aceste calcule se realizează în mod implicit pentru toate
înregistrările tabelului, dar dacă definim filtre pe câmpurile acestuia,
calculele vor fi reactualizate doar pentru înregistrările care
îndeplinesc criteriile de filtrare specificate.

EXERCIŢII

1. Sa se creeze o bază de date Access cu o tabelă având următoarea


structură:
• ID - Long Integer;
• CNP - Text (13);
• Nume - Text (20);
• Prenume - Text (20);
• DataNasterii - DateTime;
• Sex - Text (1);
• Casatorit - Boolean
• Greutate - Numeric, Single;
• Diagnostic - Memo.
2. Să se încarce structura creată cu 10 înregistrări.
3. Să se deschidă baza de date pers.accdb.
4. Să se sorteze înregistrările din pers.accdb, tabela Pers, după valorile
din câmpul Ocupatie, în ordine crescătoare (A->Z).
5. Să se sorteze înregistrările din pers.accdb, tabela Pers, după valorile
din câmpul Inaltime, în ordine descrescătoare.
6. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să
fie afişate doar persoanele casnice şi pensionarii.
7. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să
fie afişate doar persoanele cu înălţimea mai mare decât 170.
8. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să
fie afişate doar persoanele cu greutatea în intervalul [70,80].

Baze de date Microsoft Access. Noţiuni generale. | 179


BAZE DE DATE MICROSOFT ACCESS.
22 RELAŢIONAREA TABELELOR

Noţiuni prezentate:
 Relaţii între tabele

Bazele de date folosite în practică sunt adesea containere foarte vaste


de informaţie – care conţin sute de mii sau milioane de înregistrări,
structurate pe zeci sau sute de câmpuri. De aceea este esenţială identificarea
unor metode cât mai eficiente pentru manevrarea rapidă a acestor colecţii
de date. Astfel s-a născut conceptul de modelare a unei baze de date cu
instrumente de natură matematică, care constă în specificarea unei structuri
logice după care informaţia din aceasta să fie organizată, în vederea creării,
actualizării şi consultării sale cât mai simple şi rapide.
Cele mai cunoscute modele de baze de date sunt modelul ierarhic,
modelul reţea, modelul relaţional şi modelul obiectual – în prezent,
primele două nu se mai utilizează, cel mai eficient şi răspândit model de
baze de date fiind modelul relaţional [18].
Acest model, creat în 1970 de matematicianul E.F.Codd, se bazează
pe noţiunea matematică de relaţie n-ară şi are în vedere fracţionarea
tabelelor de date în tabele mai mici, care să conţină în general informaţii
omogene şi din care să poată fi reconstituit în orice moment tabelul iniţial
fără nici un risc de amestecare a informaţiilor.
De exemplu, un tabel cu informaţii despre pacienţii unui spital ar
trebui să conţină următoarele categorii de informaţii:
 datele administrative ale pacientului: date personale de identificare şi
date financiare (situaţia asigurării sale de sănătate)
 datele medicale permanente: înregistrările unor parametri biologici
constanţi pe parcursul vieţii individului şi care nu sunt afectaţi de starea
de sănătate sau de boală a acestuia: rasă, înălţime, grupă de sânge,
măsurători antropometrice (ex. măsurători faciale în ortodonţie)
 date medicale variabile: înregistrările unor parametri biologici care sunt
afectaţi de starea de boală a pacientului, fiind chiar un indicator al
gravităţii acesteia şi al eficienţei tratamentului administrat: rezultatele
examenului fizic, analize de laborator, imagini (radiografii, RMN-uri,
CT-uri, scintigrame), înregistrări ale semnalelor biologice (EKG, ECG,
etc.). În majoritatea situaţiilor sunt necesare chiar mai multe determinări
pentru aceşti parametri, tocmai pentru a se putea cuantifica evoluţia
bolii.

180 | Baze de date Microsoft Access. Relaţionarea tabelelor.


 date privind spitalizarea şi costurile acesteia
 date privind tratamentul administrat: medicamente, doze, perioade,
costuri, furnizori.
Este clar că utilizarea unui singur tabel care să conţină toate aceste
informaţii este foarte dificilă, astfel încât se recomandă structurarea datelor
în mai multe tabele, care să conţină informaţiile similare. De exemplu,
datele administrative ale pacienţilor pot fi stocate într-un tabel denumit
Pacienţi, datele medicale permanente într-un tabel separat denumit
Med_permanente, iar datele medicale variabile, în funcţie de natura lor, în
tabele separate numite Examen_fizic, Laborator, Imagistica, Tratament etc.
Vorbim astfel despre baze de date relaţionale.
Problema majoră care apare este însă aceea de a „pune în legătură”
informaţiile/înregistrările din aceste tabele astfel încât să ştim, fără nici o
posibilitate de eroare, cărei înregistrări din tabelul Pacienţi îi corespunde o
înregistrare din tabelul Med_permanente, din tabelul Examen_fizic şi aşa mai
departe.
Această sincronizare se face prin crearea unei relaţii între tabele,
două câte două. În general relaţiile între tabele sunt direcţionate dinspre un
tabel, care se va numi primar, către celălalt, care se va numi legat. Condiţia
pentru a putea crea o astfel de relaţie este existenţa unui câmp comun în
cele două tabele pe baza căruia înregistrările vor fi sincronizate, şi care să
identifice aceste înregistrări, denumit cheie de legătură. De obicei, pentru a
se asigura unicitatea, câmpul comun va conţine un cod numeric de
identificare – în cazul unor liste de persoane acesta fiind codul numeric
personal (CNP) sau, în spitale, codul foii de observaţie.
De exemplu, în cazul tabelelor propuse mai sus, Pacienţi şi
Med_permanente, câmpul comun este ID, un cod numeric de identificare a
persoanei/pacientului (vezi figura de mai jos). Pentru a asigura unicitatea,
câmpul ID va fi declarat drept cheie primară (primary key) – dar numai în
situaţiile în care se doreşte ca valorile din acest câmp să apară o singură
dată în tabel, identificând astfel în mod unic înregistrările.

Figura 22-1. Definirea chei primare (primary key)

Baze de date Microsoft Access. Relaţionarea tabelelor. | 181


Relaţiile între tabele sunt de mai multe tipuri:
 Unu la Unu (One-to-One): unei înregistrări din primul tabel îi
corespunde o singură înregistrare din al doilea tabel - vezi exemplul cu
tabelele Pacienţi şi Med_permanente de mai sus; în acest caz este necesar
ca, atât la nivelul tabelului primar cât şi la nivelul tabelului legat, cheia
de legătură (respectiv câmpul ID) să fie cheie primară – adică în ambele
tabele să existe câte o singură înregistrare care să aibă o valoare dată
pentru cheia de legătură.
 Unu la Mai Multe (One-to-Many): unei înregistrări din primul tabel îi
corespund mai multe înregistrări din al doilea tabel – acesta este cazul
tabelelor Pacienţi şi Examen_fizic: tabelul Pacienţi este tabel primar, în
care cheia de legătură ID este cheie primară, deoarece identifică în mod
unic pacienţii, iar tabelul Examen_fizic este tabel legat, în care pentru
acelaşi pacient, identificat prin cheia de legătură ID, au fost realizate pe
parcursul internării mai multe examinări fizice ale căror rezultate au fost
înregistrate – astfel încât cheia de legătură nu poate fi definită drept
primară, iar relaţia are rolul de a asocia fiecărui pacient toate examenele
fizice care i-au fost efectuate.
 Mai Multe la Mai Multe (Many-to-Many): nici una, una sau mai multe
înregistrări din prima tabelă sunt puse în corespondenţă cu nici una,
una sau mai multe înregistrări din a doua tabelă – acesta este cazul
tabelelor Examen_fizic şi Laborator: la mai multe examene fizice efectuate
pentru acelaşi pacient, identificat prin intermediul codului său numeric
ID se asociază mai multe seturi de analize de laborator pentru acel
pacient, identificate tot prin codul numeric ID. În acest caz, nici în
tabelul primar, Examen_fizic, şi nici în tabelul legat, Laborator, cheia de
legătură nu poate fi definită drept cheie primară.
În practică, acest tip de relaţie între tabele nu este recomandat şi se
reduce la două relaţii de tip One-to-Many prin introducerea unui tabel
auxiliar între cele două tabele, denumit tabel de joncţiune, astfel încât
vom defini câte o relaţie de tip One-to-Many între tabelul primar şi
tabelul de joncţiune, respectiv între tabelul legat şi tabelul de joncţiune.

Presupunem că avem o bază de date denumită Medicale.accdb,


care conţine trei tabele după modelul de mai sus:

 Tabelul Pacienti, cu structura:


ID Number
NUME, PRENUME Text
VARSTA Number
SEX Text
CAS Yes/No

182 | Baze de date Microsoft Access. Relaţionarea tabelelor.


 Tabelul Med_permanente, cu structura:
ID Number
INALTIME Number
GREUTATE Number
GRUPA DE SANGE Text

 Tabelul Examen_fizic, cu structura:


ID Number
TEMPERATURA Number
CEFALEE Yes/No
AMETEALA Yes/No
DURERI DE GAT Yes/No

Cheia de legătură între cele trei tabele va fi câmpul ID, tabelul


primar fiind Pacienti.
Între tabelele Pacienti şi Med_permanente vom defini o relaţie de
tip One-to-One, iar între tabelele Pacienti şi Examen_fizic vom defini o
relaţie de tip One-to-Many. Din acest motiv, în tabelele Pacienti şi
Med_permanente, cheia de legătură ID este definită drept cheie primară, iar
în tabelul Examen_fizic aceasta este doar cheie de legătură (fără a fi
primară).
Pentru definirea unei baze de date noi se foloseşte comanda File /
New / Blank Database / Create, iar primul tabel, Pacienti, se defineşte în mod
obişnuit (vezi capitolul anterior). Câmpul ID se defineşte drept cheie
primară folosind comanda Primary Key (vezi figura).

Figura 22-2. Definirea Primary key

Pentru adăugarea celorlalte două tabele în baza de date Medicale se


foloseşte din meniul superior comanda Create / Table, după care tabelele se
definesc similar.

Baze de date Microsoft Access. Relaţionarea tabelelor. | 183


Pasul următor îl reprezintă crearea relaţiilor. Pentru
aceasta, mai întâi se închid toate cele trei tabele. Apoi, din
secţiunea Database Tools se selectează comanda Relationships
şi se încarcă toate cele trei tabele în zona de editare a relaţiei,
folosind butonul Add (vezi figura).

Figura 22-3. Încărcarea tabelelor bazei de date

Se iniţiază crearea relaţiilor dintre tabele selectându-se cu mouse-ul


câmpul comun din tabelul primar, după care acesta se trage cu mouse-ul
(prin drag&drop) peste câmpul corespunzător din tabelul legat. Tipul relaţiei
este stabilit în mod automat, în funcţie de modul în care sunt definite
câmpurile între care se stabileşte relaţia (One-to-One dacă ambele câmpuri
sunt definite drept chei primare, şi One-to-Many dacă doar câmpul din
tabelul primar este definit drept cheie primară) [22].

Figura 22-4. Editarea relaţiilor

184 | Baze de date Microsoft Access. Relaţionarea tabelelor.


În continuare se setează proprietăţile relaţiei (vezi figura).
- Opţiunea Enforce Referential Integrity permite activarea unui sistem
de verificare a consistenţei conţinutului celor două tabele aflate în
relaţie, respectiv, dacă pentru fiecare înregistrare din tabelul părinte
există o înregistrare corespondentă în tabelul legat şi reciproc;
- Cascade Update Related Fields face ca modificarea conţinutului unui
câmp aflat la în tabelul părinte (ID) să se propage şi în tabelul legat;
- Cascade Delete Related Records propagă ştergerea înregistrărilor dintr-
un tabel către celălalt tabel la înregistrările corespondente.
Definirea efectivă a relaţiei se realizează folosind butonul Create, după care
relaţia este prezentată grafic între cele două tabele ca în figura de mai jos.

Figura 22-5. Setarea proprietăţilor relaţiei

Relaţia de tip One-to-Many se creează în aceeaşi manieră (vezi figura).

Figura 22-6. Editarea relaţiei

Dacă, la crearea relaţiilor, nu se bifează proprietatea „Enforce


Referential Integrity”, acestea vor fi figurate doar generic, fără etichetele 1 –
1 respectiv 1 - ∞.

Baze de date Microsoft Access. Relaţionarea tabelelor. | 185


Odată ce relaţiile sunt active, o înregistrare poate fi expandată prin
intermediul nodului + astfel încât să fie afişată şi înregistrarea /
înregistrările corespondente din celălalt tabel (vezi figura de mai jos).

Figura 22-7. Module de afişare a înregistrărilor corespondente din mai multe


tabele

Editarea relaţiilor după ce acestea au fost definite se realizează prin


selectarea lor, după care se foloseşte, din secţiunea Design, comanda Edit
Relationships. Pentru ştergerea unei relaţii între două tabele aceasta se
selectează, după care se foloseşte din secţiunea Home / Records comanda
Delete.

EXERCIŢII

1. Să se adauge în tabelele Pacienti şi Med_permanente un câmp nou


numit CNP de tip Text. Să se creeze o relaţie de tip One-to-One între
cele două tabele pe baza câmpului CNP.
2. Să se seteze ambele opţiuni Cascade Update Related Fields şi Cascade
Delete Related Records după care să se verifice efectul activării acestor
opţiunii.
3. Să se şteargă relaţia dintre cele două tabele.

186 | Baze de date Microsoft Access. Relaţionarea tabelelor.


23 INTEROGĂRI SQL ÎN MICROSOFT ACCES

Noţiuni prezentate:
 Interogări (queries) SQL

O interogare (query) este un obiect Access care se construieşte în


jurul unei instrucţiuni SQL, SQL (Structured Query Language) fiind un limbaj
pentru accesarea bazelor de date relaţionale [21]. Interogările scrise în acest
limbaj sunt folosite pentru extragerea de informaţii din baza de date.
Pentru crearea unei interogări, în secţiunea Create, se activează
butonul Query Design. Există mai multe modalităţi de a crea un query dar
vom prezenta în continuare editarea directă, textuală, a query-urilor în
modul SQL View.

Figura 23-1. Crearea interogărilor SQL

Editarea se face într-o fereastră separată (vezi figura), în care


interogarea se tipăreşte de la tastatură, cu respectarea unor reguli de sintaxă
bine definite.

Figura 23-2. Editarea sintaxei interogării SQL

Execuţia query-ului creat se face prin apăsarea butonului Run.

Interogări SQL în Microsoft Access | 187


Într-o fereastră de editare se poate tipări o singură interogare la un
moment dat – pentru tipărirea unei noi interogări trebuind activată o nouă
fereastră de editare, tot cu ajutorul comenzilor Create / Query Design.
Interogările SQL sunt în principal de patru tipuri:
- Extragere de informaţii din baza de date: folosind comanda SELECT
[23]:
SELECT câmpuri FROM table_name WHERE condiţie
- Adăugare de noi înregistrări într-un tabelă folosind comanda INSERT:
INSERT INTO tabel (câmp1, câmp1, ...) VALUES (valoare1, valoare2, ...)
- Modificarea conţinutului înregistrărilor unui tabel: folosind comanda
UPDATE:
UPDATE tabel SET câmp1=valoare1,câmp2=valoare2,...WHERE condiţie
- Ştergerea înregistrărilor dintr-un tabel: folosind comanda DELETE:
DELETE FROM tabel WHERE condiţie

Extragerea de informaţii dintr-o bază de date: SELECT

Sintaxa generală şi simplificată a comenzii SELECT este:


SELECT <listă de câmpuri> FROM <nume tabel>
WHERE <condiţie>
ORDER BY <lista de câmpuri> [ASC /DESC], unde:

- <listă de câmpuri>: se foloseşte pentru a specifica unul sau mai multe


câmpuri / coloane din tabel care vor fi selectate şi afişate prin comanda
de interogare;
- FROM <nume tabel>: reprezintă numele tabelului din care se aleg
informaţiile care vor fi extrase şi afişate;
- WHERE <condiţie>: se foloseşte pentru a indica un criteriu de filtrare a
înregistrărilor / liniilor tabelului, astfel încât vor fi selectate doar
înregistrările care îndeplinesc acel criteriu;
- ORDER BY <lista de câmpuri> [ASC /DESC]: se foloseşte pentru a
defini un criteriu de ordonare a înregistrărilor selectate din tabel, după
valorile specificate în lista de câmpuri; ordinea implicită în care sunt
aşezate înregistrările este cea crescătoare, [ASC], iar dacă dorim ca
înregistrările să fie aşezate în ordine descrescătoare trebuie să folosim
parametrul [DESC].

Observaţie: Utilizarea tuturor acestor parametri într-o interogare nu


este obligatorie, în schimb ordinea de utilizare a lor trebuie să fie cea din
sintaxa de mai sus – în cazul în care ordinea este inversată, interogarea
generând un mesaj de eroare [21].

188 | Interogări SQL în Microsoft Access


În cele ce urmează vom lucra cu tabelul PERSOANE, pe care l-am
creat în capitolul 21.

a) Selectarea unuia sau mai multor câmpuri dintr-un tabel al unei


baze de date:
Se realizează folosind comanda SELECT sub forma:

SELECT <listă de câmpuri> FROM <nume tabel>, unde:

- Câmpurile se precizează indicând exact numele lor, separate prin


virgulă;
- Dacă se lucrează cu câmpuri având numele format dintr-un singur
cuvânt (nume simple), este suficient să precizăm în comanda SELECT
doar numele acestora:

Exemplu: Pentru a afişa, din tabelul PERSOANE, vârsta, sexul şi anamneza


pacienţilor, interogarea va avea sintaxa:
SELECT VARSTA, SEX, ANAMNEZA FROM PERSOANE

- Dacă se lucrează cu câmpuri având numele format din mai multe


cuvinte şi eventual alte semne de punctuaţie (nume compuse), în mod
obligatoriu acestea vor trebui incluse între paranteze pătrate:

Exemplu: Pentru a afişa, din tabelul PERSOANE, numele şi prenumele,


data naşterii şi vârsta pacienţilor, interogarea va avea sintaxa:
SELECT [NUME, PRENUME], [DATA NASTERII], VARSTA FROM
PERSOANE

- Regula sintactică completă pentru a specifica numele unui câmp al unui


tabel presupune, în general, şi indicarea numelui tabelului din care
provine acesta, într-o construcţie de forma:
nume tabel.[nume câmp]
Unele dintre aceste elemente sunt facultative, după cum am descris în
situaţiile anterioare, dar comenzile SELECT complete ar fi fost:
SELECT PERSOANE.[VARSTA], PERSOANE. [SEX],
PERSOANE.[ANAMNEZA]
FROM PERSOANE
respectiv
SELECT PERSOANE.[NUME, PRENUME], PERSOANE.[DATA
NASTERII], PERSOANE.[VARSTA]
FROM PERSOANE

Interogări SQL în Microsoft Access | 189


- Dacă dorim să selectăm şi să afişăm toate câmpurile dintr-un tabel, nu
este necesar să indicăm numele lor în mod explicit, fiind suficient să
folosim semnul *:
SELECT * FROM PERSOANE

b) Selectarea înregistrărilor care îndeplinesc o anumită condiţie


dintr-un tabel al unei baze de date
Se realizează folosind comanda SELECT sub forma:

SELECT <listă de câmpuri> FROM <nume tabel> WHERE


<condiţie> ,
unde condiţia este o expresie în Access, scrisă folosind regulile de editare
ale acesteia, care depind în principal de tipul de dată al câmpurilor utilizate.
Forma generală a unei condiţii în Access este:
[nume câmp] operator <expresie>
sau, în cazul în care se doreşte combinarea mai multor condiţii,
<condiţie 1> AND <condiţie 2> AND … AND <condiţie n>
când se doreşte ca aceste condiţii să fie îndeplinite simultan, respectiv
<condiţie 1> OR <condiţie 2> OR … OR <condiţie n>
când se doreşte ca măcar una dintre aceste condiţii să fie îndeplinită,
fiecare dintre condiţiile specificate, <condiţie 1>, <condiţie 2>, … <condiţie
n> fiind de forma indicată mai sus: [nume câmp] operator <expresie>.

Reguli pentru construirea de expresii folosind câmpuri de tip Text


sau Memo:
- Valoarea căutată în câmpul respectiv se va specifica întotdeauna între
ghilimele, „ ”
- Pentru a se căuta potrivirile exacte se foloseşte operatorul „=”

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume


este „popescu”, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [NUME, PRENUME] = „POPESCU”

- Pentru a se căuta potrivirile parţiale se foloseşte operatorul LIKE şi


simbolurile de tip „wildcard”: *, care înlocuieşte orice şir de caractere,
de lungime neprecizată, respectiv ?, care înlocuieşte un singur caracter:

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume


începe cu litera P, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [NUME, PRENUME] LIKE „P*”

190 | Interogări SQL în Microsoft Access


Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume NU
începe cu litera P, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [NUME, PRENUME] NOT LIKE „P*”

Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume se


termină cu literele „escu”, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [NUME, PRENUME] LIKE „*ESCU”

Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume


începe cu literele D, E, F sau G, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [NUME, PRENUME] LIKE „[D-G]*”
(când dorim să indicăm un caracter care aparţine unui şir de caractere, este
suficient să precizăm şirul respectiv între paranteze pătrate [], iar dacă şirul
conţine caractere consecutive, se vor indica doar primul şi ultimul caracter,
iar între ele se pune semnul -).

- Pentru a se căuta potrivirile multiple, se poate folosi operatorul IN,


urmat o listă de şiruri de caractere, ceea ce înseamnă că vor fi selectate
toate înregistrările care conţin în câmpul specificat unul dintre şirurile
de caractere indicate în listă:

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care au în


anamneză „febra” sau „cefalee”, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE ANAMNEZA IN ( „FEBRA”, „CEFALEE”)
sau
SELECT * FROM PERSOANE
WHERE ANAMNEZA = „FEBRA” OR ANAMNEZA = „CEFALEE”
Reguli pentru construirea de expresii folosind câmpuri de tip
Number sau AutoNumber:
- Valoarea căutată în câmpul respectiv se va specifica direct, fără
ghilimele;
- Operatorii disponibili sunt: =, <>, <, <=, >, >=, BETWEEN:

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta de 30


de ani, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE VARSTA=30

Interogări SQL în Microsoft Access | 191


Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta peste 30
de ani, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE VARSTA >=30

Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta între 30 şi


35 de ani, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE VARSTA BETWEEN 30 AND 35
sau
SELECT * FROM PERSOANE
WHERE VARSTA >= 30 AND VARSTA <= 35

Reguli pentru construirea de expresii folosind câmpuri de tip


Date/Time:
- Valoarea căutată în câmpul respectiv se va specifica între semnele # #;
- Operatorii disponibili sunt = şi BETWEEN, la care se pot adăuga
funcţiile care utilizează date calendaristice, respectiv:
• YEAR(dată calendaristică) – returnează anul din data
calendaristică introdusă;
• MONTH(dată calendaristică) – returnează luna din data
calendaristică introdusă;
• DAY(dată calendaristică) – returnează ziua din data
calendaristică introdusă;
• DATE() – returnează data curentă a sistemului;
• NOW() – returnează data şi ora curentă a sistemului.

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut
pe 20 iunie 2000, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [DATA NASTERII] = #6/20/2000#

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în luna
iunie 2000, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [DATA NASTERII] BETWEEN #6/1/2000# AND
#6/30/2000#

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în anul
2000, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE YEAR([DATA NASTERII]) = 2000

192 | Interogări SQL în Microsoft Access


Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în
luna iunie, indiferent de an, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE MONTH([DATA NASTERII]) = 6

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut


într-o zi de 23, indiferent de lună şi an, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE DAY([DATA NASTERII]) = 23

Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în


anul curent, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE YEAR([DATA NASTERII]) = YEAR(DATE())

Reguli pentru construirea de expresii folosind câmpuri de tip


Yes/No:
- Valoarea căutată în câmpul respectiv se va specifica direct; indiferent de
formatul indicat pentru câmp, valorile YES, TRUE şi ON sunt
echivalente, la fel ca şi valorile NO, FALSE şi OFF;
- Operatorii disponibili sunt = şi <>.

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care au asigurare


de sănătate, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE CAS = YES

Pentru a afişa, din tabelul PERSOANE, pacienţii care nu au


asigurare de sănătate, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE CAS = NO

Condiţiile de filtrare a înregistrărilor dintr-un tabel pot fi combinate


fără nici un fel de restricţii, şi se pot referi la mai multe câmpuri ale
tabelului; de asemenea, ele pot fi combinate şi cu selectarea anumitor
câmpuri din tabel, nefiind obligatorie afişarea tuturor câmpurilor atunci
când selectăm înregistrări dintr-un tabel.

Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii de sex feminin şi


cu vârsta peste 30 de ani, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE SEX=”F” AND VARSTA>30

Interogări SQL în Microsoft Access | 193


Pentru a afişa, din tabelul PERSOANE, numele pacienţilor de sex
feminin şi cu vârsta peste 30 de ani, interogarea va avea sintaxa:
SELECT [NUME, PRENUME] FROM PERSOANE
WHERE SEX=”F” AND VARSTA>30

c) Afişarea în ordine a înregistrărilor selectate dintr-un tabel:


Se realizează folosind comanda SELECT sub forma:

SELECT <listă de câmpuri> FROM <nume tabel>


WHERE <condiţie>
ORDER BY <lista de câmpuri> [ASC /DESC]

Exemplu: Pentru a afişa, din tabelul PERSOANE, toţi pacienţii în ordine


alfabetică, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
ORDER BY [NUME, PRENUME]

Pentru a afişa, din tabelul PERSOANE, pacienţii cu asigurare de


sănătate în ordinea crescătoare a vârstelor, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE CAS = YES
ORDER BY VARSTA

Pentru a afişa, din tabelul PERSOANE, pacienţii cu asigurare de


sănătate în ordinea descrescătoare a vârstelor, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE CAS = YES
ORDER BY VARSTA DESC

d) Copierea informaţiilor selectate prin SELECT într-un tabel nou al


bazei de date curente:
Se realizează adăugând o nouă clauză la comanda SELECT, sub
forma:
SELECT <listă de câmpuri> INTO <tabel nou>
FROM <nume tabel>
WHERE <condiţie>
ORDER BY <lista de câmpuri> [ASC /DESC], unde:

Observaţie: Câmpurile autocalculate nu pot fi inserate în tabele noi


folosind clauza INTO.

194 | Interogări SQL în Microsoft Access


Exemplu: Pentru a copia, din tabelul PERSOANE, numele, data naşterii şi
anamneza tuturor pacienţilor de sex feminin, în ordine crescătoare a
vârstelor, într-un alt tabel din baza de date curentă, denumit FEMEI,
interogarea va avea sintaxa:
SELECT [NUME, PRENUME], [DATA NASTERII], ANAMNEZA
INTO FEMEI
FROM PERSOANE
WHERE SEX=”F”
ORDER BY VARSTA

e) Folosirea comenzii SELECT împreună cu funcţii de agregare,


pentru realizarea de calcule într-o bază de date:
Comanda SELECT poate fi folosită indicând, în locul listei de
câmpuri, o listă de funcţii (identice cu cele din comanda Totals, de realizare
de calcule pentru conţinutul unui tabel), cu acelaşi rezultat – de realizare a
calculelor respective. Funcţiile disponibile sunt [20]:
 COUNT() – determină numărul de înregistrări din tabel care
îndeplinesc o anumită condiţie;
 AVG() – determină valoarea medie dintr-un câmp numeric al unei baze
de date;
 MIN() – determină valoarea minimă dintr-un câmp numeric al unei
baze de date;
 MAX() – determină valoarea maximă dintr-un câmp numeric al unei
baze de date;
 STDEV() – determină deviaţia standard a unui câmp numeric al unei
baze de date;
 VAR() – determină varianţa unui câmp numeric al unei baze de date;
 SUM() – determină suma valorilor unui câmp numeric al unei baze de
date.

Exemplu: Pentru a calcula, în tabelul PERSOANE, numărul pacienţilor de


sex feminin, interogarea va avea sintaxa:
SELECT COUNT(∗) FROM PERSOANE
WHERE SEX=”F”

Pentru a calcula, în tabelul PERSOANE, vârsta medie, minimă şi


maximă ale pacienţilor de sex feminin, interogarea va avea sintaxa:
SELECT AVG(VARSTA), MIN(VARSTA), MAX(VARSTA) FROM
PERSOANE
WHERE SEX=”F”

Interogări SQL în Microsoft Access | 195


Pentru a calcula, în tabelul PERSOANE, deviaţia standard, varianţa
şi suma vârstelor pacienţilor de sex feminin, interogarea va avea sintaxa:
SELECT STDEV(VARSTA), VAR(VARSTA), SUM(VARSTA) FROM
PERSOANE
WHERE SEX=”F”

f) Folosirea comenzii SELECT pentru extragerea de informaţii din


două tabele ale aceleiaşi baze de date, care sunt legate printr-o
relaţie:
Pentru această operaţie este necesar să folosim comanda SELECT
adăugând clauza JOIN, după cum urmează:
SELECT <listă de câmpuri>
FROM <nume tabel1> INNER JOIN <nume tabel1>
ON <regula de corespondenţă>
WHERE <condiţie>
ORDER BY <lista de câmpuri> [ASC /DESC]

În fapt, există trei variante de combinare a înregistrărilor din două


tabele care sunt legate printr-o relaţie [18]:
 INNER JOIN: combină înregistrările din cele două tabele ori de câte ori
acestea au aceeaşi valoare în câmpul comun al celor două tabele;
 LEFT JOIN: foloseşte acelaşi principiu, doar că include toate
înregistrările din primul tabel, chiar dacă pentru unele dintre ele nu
există valori cu care să se potrivească în câmpul comun din al doilea
tabel;
 RIGHT JOIN: foloseşte acelaşi principiu, doar că include toate
înregistrările din al doilea tabel, chiar dacă pentru unele dintre ele nu
există valori cu care să se potrivească în câmpul comun din primul
tabel.
Prin urmare, INNER JOIN este varianta adecvată de combinare a
înregistrărilor dacă cele două tabele sunt legate printr-o relaţie de tip one-
to-one, în timp ce LEFT JOIN şi RIGHT JOIN sunt variantele adecvate de
combinare a înregistrărilor dacă cele două tabele sunt legate printr-o relaţie
de tip one-to-many; de obicei este de preferat combinarea înregistrărilor
prin LEFT JOIN celei prin RIGHT JOIN, pentru a nu se pierde
înregistrările din tabelul primar pentru care nu există corespondenţe în
tabelul legat, dar există şi situaţii speciale în care varianta RIGHT JOIN este
mai potrivită – în funcţie de modul de proiectare a tabelelor şi de obiectivele
concrete pe care le urmărim la unificarea lor.
<Regula de corespondenţă> indică numele câmpului comun al celor
două tabele, în care se vor căuta valorile identice după care să se facă
potrivirea înregistrărilor.

196 | Interogări SQL în Microsoft Access


Deoarece în această situaţie comanda SELECT foloseşte câmpuri din
două tabele diferite ale unei baze de date, pentru a nu avea erori este
esenţial să utilizăm numele complete ale câmpurilor cu care se lucrează,
precizând şi tabelul din care provin acestea. În rest, celelalte clauze ale
comenzii SELECT se pot folosi la fel ca în exemplele anterioare.

Exemplu: Avem tabelele PACIENTI şi MED_PERMANENTE, legate printr­o


relaţie de tip one-to-one. Dorim să afişăm numele, vârsta, înălţimea şi
greutatea persoanelor cu grupa de sânge B; interogarea va avea sintaxa:
SELECT PACIENTI.[NUME, PRENUME], PACIENTI.VARSTA,
MED_PERMANENTE.INALTIME,
MED_PERMANENTE.GREUTATE
FROM PACIENTI INNER JOIN MED_PERMANENTE
ON PACIENTI.ID = MED_PERMANENTE.ID
WHERE MED_PERMANENTE.[GRUPA DE SANGE] =”B”

Avem tabelele PACIENTI şi EXAMEN_FIZIC, legate printr-o relaţie


de tip one-to-many. Dorim să afişăm numele, vârsta, şi temperatura
persoanelor cu cefalee; interogarea va avea sintaxa:
SELECT PACIENTI.[NUME, PRENUME], PACIENTI.VARSTA,
EXAMEN_FIZIC.TEMPERATURA
FROM PACIENTI LEFT JOIN EXAMEN_FIZIC
ON PACIENTI.ID = EXAMEN_FIZIC.ID
WHERE EXAMEN_FIZIC.CEFALEE = YES

Interogări SQL în Microsoft Access | 197


FORMURI ŞI RAPOARTE ÎN MICROSOFT
24 ACCESS

Noţiuni prezentate:
 formuri;
 rapoarte

Formuri
Cu toate că tabelele prezintă în totalitate datele conţinute în baza de
date, ele sunt un mod anost şi nefinisat de afişare. Pentru un aspect
profesional al interfeţei cu utilizatorul trebuie să folosim Formuri. Acestea
pot fi proiectate după dorinţă, pot conţine texte explicative şi pot afişa doar
acele informaţii care sunt necesare. Formurile pot executa şi anumite calcule
pe baza datelor introduse.
Pentru crearea unui form, vom folosi una din opţiunile din meniul
Create, secţiunea Forms [24]. Există câteva tipuri de formulare predefinite
(Form, Split Form, Multiple Items) dar şi posibilitatea de a crea un design de
la zero pentru noul form (Form Design).

Figura 24-1. Meniul corespunzător creării formurilor

Formularul va fi “populat” cu diverse obiecte numite controale (vezi


figura de mai jos).

Figura 24-2. Obiecte (controale) necesare în crearea formurilor

Aceste controale pot fi: casete de introducere a textului sau a


valorilor numerice (text box), text static (label), butoane virtuale care
declanşează o anumită acţiune (button), opţiuni care pot fi bifate (option
button sau check box), etc.

198 | Formuri şi rapoarte în Microsoft Access


De exemplu, formularul din imaginea de mai jos (Fişa medicală)
conţine o serie de texte statice (label) care indică informaţia conţinută în text
box-urile alăturate.
În modul Design, conţinutul formularului şi dispunerea obiectelor în
formular pot fi schimbate. Pot fi adăugate noi obiecte sau pot fi eliminate
obiecte existente. De asemenea, pentru fiecare obiect pot fi afişate şi
modificate proprietăţile acestuia, utilizând fereastra Property Sheet (vezi
figura de mai jos). Acesta conţine de exemplu: numele obiectului (Name),
sursa informaţiilor afişate de acest control (Control Source), formatul de
afişare (Format), număr de zecimale afişate în cazul valorilor numerice
(Decimals), dimensiunile controlului (Width, Height), etc.

Figura 24-3. Modul Design a unui form (exemplu)

In modul rulare, form-ul arată ca în figura de mai jos. Obiectele


Nume, Ocupaţie, Greutate, Înălțime, sunt conectate cu câmpurile cu aceeaşi
denumire din baza de date. În partea de jos a ferestrei există un control
standard care afişează numărul curent al înregistrării afişate, numărul total
de înregistrări şi oferă posibilitatea deplasării pe înregistrarea precedentă
sau următoare sau pe prima, respectiv ultima înregistrare din tabelă. De
asemenea controlul conţine un buton care oferă posibilitatea adăugării de
noi înregistrări. Conţinutul acestora va fi introdus în casete de text din
formular.

Formuri şi rapoarte în Microsoft Access | 199


Figura 24-4. Modul de rulare a unui form (exemplu)

Observaţi câmpul IMC (indexul de masă corporală) din formular.


Acesta conţine o valoare care nu se găseşte în baza de date ci este o valoare
calculată ca greutate/pătratul înălțimii (figura de mai jos).

Figura 24-5. Modul de afişare a unui câmp cu valoare calculată (Expression Builder)

Această formulă se introduce în proprietatea Control Source aflată în


lista de proprietăţi a casetei de text IMC. Formula poate fi editată în

200 | Formuri şi rapoarte în Microsoft Access


fereastra Expression Builder folosind denumiri de câmpuri, operatori
aritmetici şi logici, constante, etc.

Figura 24-6. Modul de editare al formulei

Rapoarte
Rapoartele sunt modalitatea prin care informaţii din baza de date
sau legate de acestea pot fi puse într-o formă potrivită pentru tipărire.
Putem alege cum să fie tipărită informaţia, ce câmpuri să facă parte din
raport, fonturi, dimensiuni, spaţiere, linii, casete, desene şi alte elemente
grafice, etc.
Rapoartele şi formurile se creează într-un mod foarte similar,
introducând controale care for afişa informaţiile dorite.
Un raport poate fi vizualizat în 3 moduri diferite:
 Design View: se poate observa şi modifica structura raportului;
 Print Preview: afişează raportul aşa cum va apărea după tipărire;
 Layout View: mod asemănător cu Print Preview dar se pot face
modificări.

Pe lângă caracteristicile prezente în form-uri, rapoartele mai prezintă


o serie de facilităţi suplimentare:
 grupuri şi secţiuni;
 antele şi subsoluri de pagină;
 setarea marginilor, dimensiunii şi orientării paginii.

Pentru crearea unui raport se merge la secţiunea Create şi se alege


unul din butoanele pentru crearea rapoartelor.
Design View - permite crearea unui raport de la zero;
Report Wizard – asistent pentru crearea unui raport specificând
câmpurile, gruparea şi sortarea dorite;

Formuri şi rapoarte în Microsoft Access | 201


Report – pentru crearea unui raport simplu pe baza tabelului sau a
query-ului curent selectat.
În figura de mai jos, observaţi structura unui raport în Design View,
cu patru secţiuni: antetul raportului, antetul de pagină, conţinutul, subsolul
paginii şi subsolul raportului.

Figura 24-7. Structura (secţiunile) unui raport

EXERCIŢII

1. Să se creeze un formular care să conţină câmpurile Nume, Ocupaţie,


Greutate, Înălțime, reprezentând numele, ocupaţiile, greutăţile şi
înălţimile persoanelor din baza de date.
2. Să se adauge două câmpuri în formular, LnG, Isq reprezentând
valorile calculate Ln(Greutate) şi Înălțime^2.
3. Să se adauge o imagine în colţul de sus stânga al formularului.
4. Să se adauge, folosind formularul, o nouă înregistrare în baza de
date.
5. Să se creeze un raport cu acelaşi conţinut cu al formularului.

202 | Formuri şi rapoarte în Microsoft Access


BIBLIOGRAFIE

1 John Walkenbach. Excel 2010 Bible. Wiley Publishing, Inc., Indianopolis,


Indiana, 2010.
2 Matthew MacDonald. Excel 2010: The Missing Manual. O’Reilly Media, Inc.,
Sebastopol, CA, 2010.
3 Vijay Gupta. Excel: Beyond the Basics. VJ Books Inc., Canada, 2002.
4 Vijay Gupta. Statistical Analysis with Excel. VJ Books Inc., Canada, 2002.
5 Gerald Knight. Analyzing Business Data with Excel. O'Reilly, 2006.
6 Vijay Gupta. Charting in Excel. VJ Books Inc., Canada, 2002.
7 Jaba E., Grama A. Analiza statistică cu SPSS sub Windows, Polirom, Iași,
2004.
8 Jaba E., Pintilescu C. Statistică: teste grilă și probleme, Ed. a 2-a rev., Sedcom
Libris, Iași, 2007.
9 Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu. Elemente de
Biostatistică – Analiza statistică a datelor biologice. Editura PIM Iasi, 2007.
10 Doina Azoicăi, Lucian V. Boiculese, George Pisică-Donose, Noţiuni de
metodologie epidemiologică şi statistică medicală, Ed. DAN, Iaşi, 2001.
11 Jaba E. Statistica Ediția a III-a. Ed. Econmică, București, 2002.
12 Rand R. Wilcox. Fundamentals of Modern Statistical Methods, Second
Edition. Springer Science+Business Media, LLC, 2010.
13 Le C.T. Introductory Biostatistics, John Wiley & Sons, Inc. 2003.
14 Everitt B.S. Modern Medical Statistics – A practical guide. Oxford University
Press, New York, 2003.
15 Anthony D. Statistics for Health, Life and Social Sciences. Ventus Publishing
ApS, Frederiksberg, Danemarca, 2010.
16 Brink D. Essentials of Statistics. Ventus Publishing ApS, Frederiksberg,
Danemarca, 2010.
17 Ash R.B. Basic Probability Theory, Dover Publications. New York, 2008.
18 Teodorescu Al. Lecţii de Access, Editura Albastră Cluj Napoca, 2002
19 J. Cox and J. Lambert. Microsoft Access 2010 Step by Step. Redmond,
Washington, Microsoft Press, 2010.
20 Groh M.R., Stockman J.C., Powell G., Prague C.N., Irwin M.R., Reardon J.
Access 2007 Bible, John Wilez and Sons Inc., New York, 2007.
21 Jennings R. Using Microsoft Office Access 2003, Que Pub, Pearson
Technology Group, Canada, 2003.
22 M. Mac Donald. Access 2010: The Missing Manual. Sebastopol, O’Reilly
Media, 2010.
23 w3schools.com. SQL Tutorial. [Online]. Disponibil la:
http://www.w3schools.com/sql/default.asp, 2012.
24 GCFLearnFree.org. Access 2010. [Online]. Disponibil la:
http://www.gcflearnfree.org/access 2010, 2012.

Bibliografie | 203

S-ar putea să vă placă și