Sunteți pe pagina 1din 9

CURS 7

Metode de prelucrare date experimentale (I) - Tipurile de date obținute; tipurile de erori,
exactitate și precizie; noțiunile de populație și selecție; importanța acestor noțiuni în
domeniul farmaceutic; exemple de utilizare a acestora în farmacie.

Variabile şi date
Prin noțiunea de variabilă se înțelege o mărime care a fost cuantificată sau măsurată în cadrul unui
experiment. Aceasta nu reprezintă neapărat o valoare numerică.
Valorile posibile ale variabilei se mai numesc și date ale experimentului. În general într-un
experiment se obține un anumit număr de date, finit, mai mare de unu, care urmează a fi vizualizate, analizate
(prelucrate) și interpretate. Aceste valori se pot denumi, în funcție de natura variabilei și de context, și ca:
măsură, rezultat, eveniment, valoare, subiect.
Variabilele (respectiv datele) se clasifică în patru categorii:
a) Variabile calitative
- variabilele nominale (categoriale),
- variabilele ordinale
b) Variabile cantitative
- variabilele discrete,
- variabile continue.
Variabilele nominale se referă strict la variabila experimentului, fără o ordonare intrinsecă, ceea ce
înseamnă că, clasificarea se face fără o anumită ordine sau valoare, acest tip de variabile referindu-se la o
calitate.
Variabilele ordinale se referă la informații legate de variabilă, care permit o ordonare intrinsecă. Prin
urmare, în cazul acestora se poate realiza o ierarhizare a setului de date, conform unei scări convenționale.
Un caz particular este reprezentat de variabilele calitative binare, acest tip de date putând lua doar una din
două valori posibile. În acest caz variabila este denumită „binară”, „dicotomială” sau „dihotomică”.
Variabilele calitative nu sunt măsurabile (nu au o unitate de măsură), prelucrarea și interpretarea
acestora presupunând utilizarea de teste statistice neparametrice.
Variabilele discrete sunt variabile cantitative, putând lua doar anumite valori numerice, bine definite,
de obicei numere întregi.

1
Variabilele continue sunt de asemenea cantitative, variabilele putând lua, teoretic, orice valoare
numerică într-un anumit interval, ceea ce înseamnă un număr infinit de posibilități. În realitate, numărul de
valori posibile ale unei variabile este finit și este dat de sensibilitatea instrumentului de măsură folosit în
experiment.
Variabilele (datele) cantitative sunt măsurabile (au o unitate de măsură) și, în general, pot fi analizate
folosind teste statistice parametrice. În funcție de scala lor de măsurare, acest tip de date se pot clasifica și ca
date de interval, respectiv date de raport.
Variabilele (respectiv datele) continue se subclasifică în:
a. de tip proporțional: datele măsurate au o valoare nulă (zero) bine definită, din punct de
vedere matematic și fizic, indiferent de unitatea de măsură folosită;
b. de tip interval: datele măsurate au o valoare nulă aleasă arbitrar, în funcție de unitatea de
măsură folosită.
De interes pentru cercetarea în domeniul medical și farmaceutic sunt și datele de supraviețuire,
acestea corespunzând duratei sau intervalului de timp parcurs între momentul includerii unui anume subiect
într-un studiu și producerea unui anumit rezultat, de obicei predefinit al studiului (ameliorare, vindecare,
complicație, metastază, deces etc.).

Populații și eșantioane
Prin noțiunea de populație se înțelege un set relativ mare de date, cu una sau mai multe caracteristici
bine definite. Teoretic, o populație poate fi și infinită.
Prin noțiunea de eșantion se înțelege un set relativ redus de date selectate dintr-o populație, deci
eșantionul reprezintă doar o parte a populației.
Prin noțiunea de individ (subiect) se înțelege o singură dată (valoare) din cadrul populației.
În experimente se urmărește analiza unui eșantion (sau a mai multora) în scopul extrapolării
observațiilor la întreaga populație din care provine. Se mai folosește noțiunea de eșantion semnificativ, cel
care ar trebui să conțină toate caracteristicile populației pe care o reprezintă și să cuprindă toate categoriile de
indivizi, în mod proporțional.
Caracterizarea populațiilor se face prin parametrii ei. O definiție a noțiunii de parametru al unei
populații ar fi: „orice caracteristică măsurabilă a unei populații”. Caracterizarea eșantioanelor se face prin
statistica lor, adică, similar, „orice caracteristică măsurabilă a unui eșantion”. Deosebirea între cele două
noțiuni constă în faptul că un parametru al unei populații are o valoare fixă, în timp ce statistica este variabilă
și depinde de eșantionul ales, precum și de variabilitatea condițiilor de măsurare.

2
Colectarea datelor
Această etapă reprezintă un proces de adunare (culegere) sistematică, completă și atentă a datelor care
prezintă relevanță pentru subiectul de cercetare abordat și care vor fi ulterior supuse unui proces atent de
analiză, în vederea interpretării pertinente a acestora.
Colectarea datelor de interes pentru o anumită tematică de cercetare se poate realiza în diverse moduri, cele
mai relevante pentru domeniul medical și farmaceutic fiind:
chestionarele, care pot fi completate fie de către un eșantion de subiecți, fie de către cercetători;
datele experimentale rezultate în urma investigațiilor de laborator, respectiv examene paraclinice;
datele din literatura de specialitate;
datele rezultate în urma examinării clinice;
datele existente în arhivele medicale scrise sau electronice.
În domeniul farmaceutic, una dintre sursele principale de furnizare a variabilelor utilizate ulterior în
studii statistice este constituită din experimente practice derulate în laborator, în care se realizează diverse
tipuri de măsurători. Noțiunea de măsurătoare (experimentele) se referă la acțiunea prin care se
determină o măsură, adică valoarea numerică (data, rezultatul, evenimentul, valoarea) a mărimii
considerate (variabila), determinată prin raportare la o unitate de referință dată, numită etalon.
Deoarece orice măsură a unei mărimi este un raport între mărimea măsurată şi unitatea etalon de referinţă,
rezultatul măsurătorii este un număr real.
Uneori, în cazul repetării unui experiment în condiții (teoretic) identice, se pot obține valori (date)
diferite ale variabilei, ceea ce semnifică faptul că experimentele nu sunt întotdeauna exact reproductibile.
Procesul de colectare a datelor necesare pentru o anumită temă de cercetare poate fi de tip exhaustiv
(atunci când acesta înglobează toate datele referitoare la subiecții populației țintă) sau se poate realiza prin
eșantionare (când se alege un anume grup din cadrul populației țintă).
De asemenea, luând în considerare modalitatea de stabilire a grupei sau grupurilor de subiecți studiați,
se disting următoarele tipuri de colectare a datelor:
eșantion reprezentativ, când grupa studiată este reprezentativă pentru populația țintă la care urmează
să fie extrapolate rezultatele obținute;
expus - neexpus, când se realizează o împărțire a subiecților care constituie tema studiului în două
grupe: cea a subiecților expuși la un anumit factor de interes pentru tematica de cercetare abordată,
respectiv cea a subiecților neexpuși;
caz-martor, care implică clasificarea în două categorii a subiecților luați în studiu: grupul caz (asupra
căruia se realizează studiul), respectiv grupul martor (care nu este supus niciunei acțiuni).
O altă clasificare a metodelor de colectare a datelor se realizează în funcție de timpul necesar derulării
procesului. Din acest punct de vedere, distingem:

3
procesele transversale, care presupun derularea unui studiu la un moment dat, pe un anumit grup de
subiecți;
procesele longitudinale, în decursul cărora adunarea datelor se desfășoară în mod repetat, pe o
anumită durată de timp (prestabilită).
De asemenea, colectarea datelor poate fi retrospectivă, respectiv prospectivă, această clasificare
fiind realizată în funcție de momentul în care se desfășoară procesul de adunare a datelor.

Moduri de prezentare a datelor


Modul de prezentare a datelor se realizează în funcție de tipul acestora, în general sub formă de tabele
sau grafice. Datele calitative nominale se prezintă în general sub formă de tabele, în timp ce datele calitative
ordinale pot fi prezentate atât sub formă tabelară, cât și grafică. Datele cantitative, sunt prezentate sub formă
de tabele și grafice bi- sau tridimensionale, de diferite tipuri. Pentru acestea se pot întâlni cazurile
reprezentărilor descriptive, respectiv ale celor care redau dependența dintre variabilele considerate.
1. Tabele
În funcție de scopul analizei şi a modului de prelucrare a datelor se disting mai multe tipuri de tabele:
simple, descriptive, care sunt elaborate pentru a prezenta date, respectiv o serie de indicatori statistici
aferenți unităților com¬ple-xe investigate; datele prezentate sub această formă sunt ordonate din
diverse puncte de vedere (cronologic, teritorial etc.);
destinate prelucrării datelor brute, care se constituie în instrumente intermediare de interes atunci
când este necesară parcurgerea unor anumiți algoritmi de calcul;
de prezentare a datelor finale, eventual grupate în diverse grupe sau categorii;
de contingență, care pot fi descrise drept tabele cu dublă intrare, de tip rxc, constituite dintr-un
număr de „r” grupe (linii), formate după o caracteristică factorială (x) şi „c” grupe (coloane), formate
după o caracteristică rezultativă – efect (y).

Tabelul 1. Exemplu de tabel simplu

x 1 2 3 4 5 6 7 8 9 10
y 5 2 3 2 7 8 10 20 2 1

Tabelul 2. Exemplu de tabel de contingență de tip rxc = 2x2

4
22 A Total
A1 A2
B B1 (A1B1) (A2B1) (A1B1)+ (A2B1)
B2 (A1B2) (A2B2) (A1B2)+ (A2B2)
(A1B1)+(A2B1)+ (A1B2)+
Total (A1B1)+ (A1B2) (A2B1)+ (A2B2)
(A2B2)

Considerând variabilele A și B, fiecare poate lua două valori (sau clase de valori): A 1 sau A2,
respectiv B1 sau B2. Tabelul reprezintă frecvența de apariție simultană a ambelor variante de valori pentru
cele două variabile, cu notațiile:
- (A1B1) reprezintă frecvența cazurilor în care apar simultan valorile A1 și B1,
- (A2B1) reprezintă frecvența cazurilor în care apar simultan valorile A2 și B1,
- (A1B2) reprezintă frecvența cazurilor în care apar simultan valorile A1 și B2,
- (A2B2) reprezintă frecvența cazurilor în care apar simultan valorile A2 și B2.
De asemenea, de obicei se reprezintă și totalul (suma) de valori pentru cele două variabile (pe linii, respectiv
pe coloane).
2. Reprezentări grafice
Reprezentările grafice sunt utilizate pentru a interpreta ușor, vizual, raportul de mărime dintre două
sau mai variabile (indicatori statistici), pentru a populariza o serie de date relevante, pentru a interpreta
diverse relații și forme a interdependențelor care se stabilesc între două sau mai multe variabile etc.
De cele mai multe ori, reprezentările grafice sunt de tip bidimensional (2D) și descriu relația dintre
variabile, una dintre acestea fiind cea de referință (reprezentată pe abscisă), cealaltă fiind determinată în
funcție de referință (reprezentată pe ordonată).
Din punct de vedere al reprezentării grafice a datelor experimentale, există două categorii importante:
graficele descriptive și cele care descriu relația dintre două variabile.
Graficele descriptive transmit informații referitoare la setul de date, cum ar fi de pildă distribuția de
frecvențe a acestuia. În acest caz se folosesc reprezentări de tip bară sau histograme (care semnifică ilustrarea
frecvenței unui anume rezultat în funcție de valoarea acestuia), respectiv graficele de tip „plăcintă”
(reprezentarea datelor fiind de obicei procentuală).

5
Figura 1. Exemplu de reprezentare grafică de tip bară.

Figura 2. Exemplu de reprezentare grafică de tip plăcintă.

Grafice care descriu relația dintre două variabile (sau mai multe), pe abscisă se reprezintă variabila la
care se face referința, iar pe ordonată se reprezintă variabila determinată de cea de referință.

Figura 3. Exemplu de reprezentare grafică pentru date discrete.

Figura 4. Exemplu de reprezentare grafică pentru date continue.

6
În cazul în care se studiază dependența dintre trei variabile (două care determină valorile unei a treia),
se pot realiza grafice tridimensionale (3D).

Figura 5. Exemplu de grafic tridimensional.

Erori
Noțiunea de eroare se referă în principal la diferența dintre valoarea care se obține ca urmare a
derulării experimentului și cea reală.
Un prim criteriu în clasificarea erorilor este reprezentat de procesul de colectare a datelor, care poate
fi o sursă de erori:
- erori de selecție a eșantionului,
- erori de informare despre eșantion,
- erori de confuzie (se referă la alți factori care pot influența experimentul și care nu sunt luați în
calcul).
Un criteriu intermediar (referitor la date numerice) este eroarea de măsurare: orice măsurare a unei
variabile este supusă erorilor de măsurare. Creșterea preciziei instrumentului de măsură măreşte precizia, dar
nu înlătură erorile de măsurare.
Erorile se pot cuantiza folosind parametrii: abatere, eroare absolută medie, eroare medie pătratică,
respectiv eroare medie pătratică normalizată.
Prin compararea valorii medii a erorilor cu valorile individuale se pot obţine informaţii asupra
corectitudinii procesului de măsurare, respectiv o clasificare a erorilor de măsurare:
erori grosolane: aceste erori sunt semnalate de existența în setul de date a unor valori numerice ce
diferă semnificativ de restul datelor; frecvenţa lor este de obicei relativ mică (dacă frecvenţa de
apariție este mare, ele pot influenţa esenţial estimarea reală a mărimii măsurate; dacă ea este relativ
mică, aceste date pot fi uşor eliminate atât prin observaţii, dar mai ales prin teste statistice);

7
erori sistematice: aceste erori sunt semnalate de distribuirea în set a unor valori care rămân aproape
constante în condiţii identice de efectuare a măsurătorilor, dar care diferă de valoarea reală; atunci
când aceasta din urmă nu este cunoscută, rezultatele pot fi considerate în mod eronat ca și corecte, de
aceea se impune verificarea sistemului de măsurare utilizând valori cunoscute ale rezultatului, şi
respectarea condițiilor de măsurare (incluzând și pregătirea observatorului);
erori accidentale (întâmplătoare): în condițiile în care sistemul de măsurare este corespunzător,
observatorul este pregătit corespunzător, condițiile de măsurare sunt îndeplinite, totuși pot apărea
erori inerente procesului de măsurare; dintre toate tipurile de erori, doar erorile întâmplătoare pot
constitui un set de variabile aleatoare care se pretează unei prelucrări statistice, adică se supun legilor
statisticii matematice.
Un alt criteriu de clasificare a erorilor este reprezentat de interpretarea datelor obținute (testarea unei
ipoteze științifice). Din acest punct de vedere distingem:
eroarea de tip I înseamnă respingerea unei date ca aparținând unei clase, deși ea se încadrează în
acea clasă și conduce la un rezultat „fals - pozitiv”;
eroarea de tip II înseamnă acceptarea unei date ca aparținând unei clase, deși ea nu se încadrează în
acea clasă și conduce la un rezultat „fals - negativ”.
Din acest punct de vedere se vorbește de asemenea de: „adevărat - pozitiv”, „adevărat - negativ”, valori
corecte.

Precizie și acuratețe
Aceste noțiuni caracterizează un sistem de măsurare, fiind în strânsă legătură cu erorile de măsurare
care apar. Noțiunea de precizie (sau reproductibilitate sau repetabilitate) a unui sistem de măsurare reprezintă
gradul în care diverse măsurători efectuate în aceleași condiții (asupra unor eșantioane) conduc la aceleași
rezultate. O măsură relativă a preciziei o constituie deviația standard (cu cât aceasta este mai mică, cu atât
precizia este mai mare).
Noțiunea de acuratețe a unui sistem de măsurare se referă la apropierea rezultatului măsurătorii de
valoarea reală a mărimii măsurate.
O ilustrare sugestivă (pentru o distribuție normală a eșantionului) este prezentată în figura 6.

8
Figura 6. Distribuția normală a unui eșantion de date.

Noțiunile de precizie și acuratețe nu sunt similare: un sistem de măsurare poate fi precis, dar nu exact
(dacă în experiment apare o eroare sistematică, prin creșterea dimensiunii eșantionului se crește precizia, dar
acuratețea rămâne aceeași), respectiv invers (eliminarea erorii sistematice crește acuratețea, dar nu modifică
precizia). Cazul optim este cel în care sistemul asigură și precizie, și acuratețe maxime. O exemplificare a
diferitelor situații este prezentată în figura 7.

Figura 7. Exemple de reprezentare a conceptelor de precizie și acuratețe.

Prin „•” s-a reprezentat valoarea reală, iar cu „steluțe”, cinci valori măsurate: (a) măsurătoare
imprecisă, fără acuratețe; (b) măsurătoare precisă, fără acuratețe; (c) măsurătoare imprecisă, cu acuratețe; (d)
măsurătoare precisă, cu acuratețe.
Din punct de vedere al interpretării datelor, considerând erorile de tip I și II, se poate obține o
cuantizare a parametrilor precizie și acuratețe (relaţiile 1 și 2):
N ade var at pozitiv
Pr ecizie 
N ade var at pozitiv  N fals pozitiv

(1)
N ade var at pozitiv  N ade var at negativ
Acuratete 
N ade var at pozitiv  N fals pozitiv  N ade var at neegativ  N fals negativ

(2)
unde: N reprezintă numărul de valori interpretate, indicele reprezintă variantele: adevărat sau fals.

S-ar putea să vă placă și