Documente Academic
Documente Profesional
Documente Cultură
1(25)/2003 59
Data Quality Assessment is the scientific and statistical evaluation of data to determine if
data obtain ed from environmental data operations are of the right type, quality, and quantity
to support their intended use. This guidance demonstrates how to use data quality assessment
in evaluating environmental data sets and illustrates how to apply some graphical and statis-
tical tools for performing this assessment. The guidance focuses primarily on using data qual-
ity assessment in environmental decision making.
Keywords: data, statistics, methods, techniques, entities.
vor asuma un risc de a lua o decizie eronata acceptabil pentru aceste erori relativ la impli-
în privinta elementului de interes. catiile rezultate (efecte, costuri);
Stabilirea obiectivelor analizei calitatii da- 6. Optimizarea structurii de analiza pentru
telor si structura datelor culese obtinerea datelor – selectarea planului de
Analiza calitatii datelor începe prin studierea analiza si a resurselor esantionului din care
iesirilor rezultate în urma fazelor din ciclul sunt culese datele, astfel încât per total pr o-
de viata a datelor: obiectivele calitatii datelor, iectul sa îndeplineasca criteriile de perfor-
asigurarea calitatii, planul proiectului si a al- manta.
tor documente asociate acestora. Obiectivele Transformarea obiectivelor în ipoteze pentru
calitatii datelor furnizeaza contextul pentru studiul statistic presupune utilizarea obiecti-
întelegerea scopului colectarii datelor si sta- velor utilizatorilor pentru a crea o structura a
bilirea criteriilor calitative si cantitative pen- ipotezelor primare ce vor testa mediul datelor
tru asigurarea calitatii setului de date stabil it intrate în studiu. Structura ipotezelor statisti-
în scopul utilizarii lui. Prin studierea metode- ce primare cuprinde o ipoteza de referinta,
lor prin care datele sunt colectate, masurate si care este o conditie de baza „0”, ce se presu-
raportate, analistul pregateste etapele preli- pune a fi adevarata în absenta unui element
minare ale întregului proces de analiza a cali- decisiv care sa dovedeasca contrariul si o
tatii datelor. ipoteza alternativa, care verifica toate celela l-
Aceasta prima etapa are ca scop stabilirea da- te variante. Cu alte cuvinte, ipoteza de refe-
telor rezultate în urma studiului, structura rinta se pastreaza numai daca ipoteza alterna-
esantionului de date studiate si a documenta- tiva nu este considerata adevarata, în urma
tiei pentru colectia de datelor supuse analizei. existentei unor dovezi covârsitoare.
Activitatile parcurse sunt: studierea obiecti- În general, aceste ipoteze au în componenta
velor studiului, transformarea obiectivelor în urmatoarele elemente:
ipoteze pentru studiul statistic , definirea limi- - o populatie de parametri de interes, care
telor de toleranta pentru erorile decizionale descriu proprietati ale mediului de date in-
si stabilirea structurii esantionului de date. vestigat;
Obiectivele vor fi studiate pentru a furniza - o valoare numerica cu care parametrul va
contextul procedurilor de analiza a datelor, fi comparat, cum ar fi valoarea medie, valo a-
obiectivele procesului calitatii datelor fiind rea de risc sau valoarea unui alt parametru
urmatoarele : din alta locatie sau din alt moment de timp
1. Definirea problemei, identificarea compo- (de obicei se compara cu o valoare a parame-
nentilor echipei de analisti, examinarea buge- trului dintr-un moment anterior);
tului necesar, planificarea operatiunilor in- - relatia (cum ar fi „este egal” sau „este mai
termediare; mare decât”) care specifica precis comparatia
2. Starea deciziei, identificarea cerintelor dintre parametru si valoarea numerica.
studiului si definirea alternativelor de actiu- Scopul activitatii de stabilire a limitelor pe n-
ne; tru erorile decizionale este acela de a preciza
3. Identificarea datelor de intrare necesare toleranta utilizatorului datelor la erorile dec i-
deciziei (sursele informatiilor, se pun bazele zionale de tip falsa respingere (tip I) sau fa l-
pentru nivelul de actiune urmator, se stabi- sa acceptare (tip II) ca rezultat al incertitudi-
lesc metodele de selectare a esantioanelor re- nii datelor. Eroarea de falsa respingere apare
prezentative); ori de câte ori ipoteza de referinta, numita si
4. Definirea unei reguli de decizie – prin ca- ipoteza nula, este respinsa când este adevara-
re se stabilesc parametrii statistici (media si ta. Eroarea de falsa acceptare apare când
mediana), specificarea nivelului decizional, ipoteza nula nu este respinsa când este falsa.
elaborarea schemei logice a actiunilor ce ur- Pasii care vor fi urmati în continuare (figura
meaza a fi efectuate; 1):
5. Specificarea limitelor de toleranta pentru - Specificarea „zonei cenusii” (grey region),
erorile decizionale – stabilirea intervalului în care aparitia unei erori decizionale de tip
Revista Informatica Economica, nr. 1(25)/2003 61
„falsa acceptare” este relativ minima. „Zona - Specificarea limitelor de toleranta pentru
cenusie” este delimitata de zona de valori a probabilitatea unei aparitii a erorilor de tip
parametrului pentru care riscul pentru apar i- falsa respingere si falsa acceptare, care re-
tia unei erori de tip falsa acceptare devine flecta de fapt limitele de toleranta pentru lua-
semnificativ. Latimea acestei zone este im- rea deciziilor incorecte de catre factorul deci-
portanta pentru cei care iau decizii deoarece zional uman.
reprezinta intervalul de restrictie.
1 1
0.9 Limita 0.9
maxima de
Probabilitatea de toleranta a deciziei 0.8 toleranta 0.8
0.7 0.7
0.6 0.6
0.5 0.5
Limita
0.4 minima de 0.4
toleranta
0.3 0.3
0.2 0.2
Zona cenusie
0.1 (Grey region) 0.1
0 0
0 .25 .50 .75 1.0 1.25 1.75 2.0
Figura11
Figura
Stabilirea structurii esantionului de date este (random), care permite determinarea de ele-
o etapa care furnizeaza baza analizei esa n- mente probabilistice valide legate de calitatea
tioanele de date supuse studiului. Aceasta estimarilor.
analiza difera din punct de vedere al tehnic i- Revizuirea datelor preliminare
lor de analiza si a procedurilor ce urmeaza a În aceasta faza a procesului de analiza a cali-
fi aplicate pentru diferite seturi de date supu- tatii datelor, analistul procedeaza la o evalua-
se evaluarii. re preliminara a setului de date prin efectua-
Exista doua tipuri de selectare a datelor: se- rea unor calcule statistice si examinarea date-
lectionare experta si selectionare probabilis- lor utilizând reprezentari grafice.
tica. Revizuirea preliminara a datelor studiate tre-
Selectionarea experta a datelor consta în asis- buie efectuata când datele sunt utilizate fara a
tarea de catre un expert, care cunoaste proc e- lua în considerare daca este utilizat sau nu un
sul din care provin datele si care coordoneaza suport de decizie si se realizeaza estimarea
culegerea datelor, precizând de unde si cum unor parametri ai populatiei de date. Prin re-
se realizeaza aceasta, precum si dimensiunea vizuirea atât a datelor de tip numeric sau prin
esantioanelor de date. reprezentarile grafice ale acestora, se va stu-
Acest tip de selectionare trebuie aleasa numai dia structura lor si totodata identificarea
când obiectivele investigarii nu au o natura abordarilo r si limitarilor datelor studiate.
statistica sau când studiul este concentrat Sunt doua elemente principale ale revizuirii
numai asupra locatiilor în sine ale esantio a- datelor preliminare: (1) marimi statistice de
nelor culese. În general, concluziile rezultate baza si (2) reprezentari grafice ale datelor.
din selectionarea experta se aplica doar unor Marimile statistice sunt functii ale datelor ca-
esantioane individuale si agregarea acestora re descriu numeric setul de date. Ele sunt uti-
poate duce la concluzii eronate. lizate pentru a furniza o imagine privind setul
Selectionarea probabilistica este caracterizata de date si sunt utile pentru realizarea de infe-
de faptul ca fiecare element al populatiei de rente privind populatia de date.
date de tip destinatie are o probabilitate cu- Reprezentarile grafice sunt utilizate în identi-
noscuta de a fi inclus în esantion. Aceasta se- ficarea modelelor privind datele si relatiile
lectionare poate fi de variate forme, dar toate dintre acestea, în confirmarea sau infirmarea
folosesc metoda factorului întâmplator
62 Revista Informatica Economica, nr. 1(25)/2003
raport presupunerile evidentiate în cadrul tes- nerile rezultate din testul statistic , determi-
tului ipotezei, cum ar fi distributia, dispersia narea corectiilor ce trebuie efectuate .
s.a. O alta caracteristica importanta a testelor În majoritatea cazurilor, presupunerile pri-
statistice este senzitivitatea (non-robustetea) vind forma distributiei datelor, independenta
la abaterile de la valorile rezultate în urma acest ora si dispersia, pot fi verificate formal
concluziilor. O procedura statistica este con- utilizând testele statistice descrise în sectiuni-
siderata robusta daca performanta ei nu este le de documentare tehnica sau, în unele ca-
afectata într-o masura considerabila de valo- zuri, informatii din faza de revizuire prelimi-
rile moderate ale deviatiilor (abater ilor) de la nara a datelor, care pot furniz a o evidenta su-
presupunerile rezultate. Analistul trebuie sa ficient de fundamentata pe ntru sustinerea
retina orice presupunere senzitiva relativa la presupunerilor. Ca parte a acestei activitati,
micile deviatii care ar putea afecta validitatea analistul trebuie sa identifice metodele ce ve-
rezultatelor testelor. rifica daca tipul si volumul de date necesar
Verificarea previziunilor din testul statis- pentru efectuarea testelor necesare sunt dis-
tic ponibile. Datele de iesire ale acestei activitati
În aceasta faza, analistul trebuie sa evalueze trebuie sa includa o lista a testelor specifice
validitatea testului statistic ales în faza ante- care vor fi utilizate pentru verificarea presu-
rioara, prin examinarea presupunerilor rezul- punerilor statistice. Pentru fiecare test statis-
tate în perspectiva noului mediu de date ge- tic este necesar ca pentru procedurile de in-
nerat. Punctul forte al acestei sectiuni este vestigare sa fie precizat nivelul de semnifica-
determinarea când datele sunt ver ificate de tie. Pentru ipoteza de referinta zero (ipoteza
presupunerile rezultate în urma testului statis- nula) pentru verificarea testului considerat,
tic sau daca sunt necesare modificari în ca- nivelul de semnificatie este probabilitatea ca
drul esantionului de date înaintea analizei aceasta ipoteza sa fie respinsa, sa fie nula.
statistice. Alegerea nivelului de semnificatie depinde
Aceasta determinare poate fi realizata canti- de experienta investigatorului. În cazul în ca-
tativ utilizând analiza statistica a datelor pe n- re sunt selectate mai multe teste statistice, es-
tru a admite sau respinge presupunerile ce te recomandat sa se aleaga o valoare numeri-
decurg din orice test statistic. Aproape întot- ca scazuta pentru nivelul de semnificatie,
deauna tehnicile cantitative trebuie sustinute pentru prevenirea acumularilor potentialelor
de criterii calitative bazate pe teorii stiintifi- erori. Nivelul de semnif icatie pentru un test
ce. Reprezentarile grafice ale datelor vor fur- statistic este prin definitie acelasi lucru cu
niza informatii calitative importante despre eroarea de falsa respingere.
presupunerile rezultate. Documentatia la Efectuarea testelor pentru presupunerile
acest pas este important, în special când ju- (previziunile) testului statistic este faza în ca-
decatile subiective joaca un rol important în re investigatorul va evalua cât de rezonabile
acceptarea rezultatelor analizei. Daca datele sunt aceste presupuneri în relatie cu structuri-
suporta toate criteriile testului statistic, atunci le componentelor, facând în acest sens o ra-
analiza calitatii datelor poate continua cu pa- portare.
sul urmator si anume faza de determinare a Presupunerile sau previziunile ce trebuie in-
concluziilor pentru datele studiate. De câte vestigate includ urmatoarele:
ori una sau mai multe presupuneri ridica în- 1. Se poate asuma ipoteza ca erorile (devia-
trebari, acest lucru determina o reevaluare a tiile fata de model) sunt normal distribuite?
unuia din pasii anteriori. 2. Se poate verifica daca erorile sunt necore-
Acest tip de iteratie în analiza calitatii datelor late?
este o verificare importanta pentru validitatea 3. Se poate presupune ca rezonabila ideea
si aplicabilitatea practica a rezultatelor. ca erorile sunt în regim aditional si au o va-
Ca actiuni ale acestei faze se disting determ i- riabilitate constanta?
narea abordarii pentru verificarea presupu- Câteodata, presupunerile rezultate în urma
nerilor, efectuarea testelor pentru presupu- testului primar statistic pot sa nu satisfaca ce-
64 Revista Informatica Economica, nr. 1(25)/2003
rintele si câteva tipuri de corectii sunt necesa- 1. respingerea ipotezei nule – caz în care
re înainte de a lansa procedurile de evaluare analistul este preocupat de o posibila eroare
calitativa. În anumite cazuri, o conversie a decizionala de tip falsa respingere;
datelor va corecta problema presupunerilor 2. esuarea în respingerea ipotezei nule – ana-
distribuite. În alte cazuri datele utilizate pen- listul îsi concentreaza atentia asupra unei po-
tru verificarea unor presupuneri (previziuni) sibilitati de aparitie a erorii de falsa accepta-
cheie este posibil sa nu fie disponibile, iar in- re.
formatiile existente sa nu suporte o justificare În primul caz, datele furnizeaza necesitatea
teoretica a validitatii acestor previziuni. În de respingere a ipotezei nule, astfel decizia
aceasta situatie, este necesara colectarea adi- poate fi luata în siguranta si fara proceduri de
tionala pentru verificarea presupunerilor re- analiza suplimentara. Acest lucru se datorea-
zultate în urma testului statistic. Daca aceste za faptului ca testul statistic controleaza rata
presupuneri rezultate din testarea ipotezei nu erorii de falsa respingere în limite tolerabile,
sunt satisfacute si conversiile de date sau alte furnizând ideea ca presupunerile testului au
modificari nu se dovedesc fezabile, atunci es- fost verificate corect.
te necesar sa se ia în consideratie un alt test În cel de-al doilea caz, datele nu furnizeaza
statistic. suficiente dovezi pentru respingerea ipotezei
Determinarea concluziilor nule, iar datele trebuie analizate prin prisma
În finalizarea procesului de ana liza a calitatii criteriului de a situa limitele de toleranta pe n-
datelor, analistul va efectua testul ip otezei tru eroarea de falsa acceptare în valori acce p-
statistice si determinarea concluziilor care vi- tabile.
zeaza obiectivele utilizatorilor datelor supuse Pentru evaluarea performantelor studiului
studiului. Acest pas reprezinta punctul cul- efectuat, analistul va efectua o analiza statis-
minant al fazelor de planificare, implementa- tica pentru estimarea capacitatii testului sta-
re si evaluare a esantionului de date. tistic de a efectua operatii cu valori situate
Procedurile acestei faze sunt efectuarea tes- dincolo de limitele parametrilor standard.
tului pentru ipoteza statistica , trasarea con- Performanta testului statistic este data de
cluziilor studiului si evaluarea performante- probabilitatea de respingere a ipotezei nule
lor studiului efectuat. când aceasta este falsa. Prin aceste operati-
Scopul fazei de efectuare a testului pentru uni, analistul va determina buna functionare a
ipoteza statistica este coordonarea acestuia. testului statistic si va compara performantele
Calculele ce se efectueaza trebuie documen- acestuia cu ale altor tipuri de teste.
tate foarte clar si usor verificabile. Documen-
tatia rezultatelor testului trebuie sa fie usor de Bibliografie
înteles astfel încât rezultatele sa poata fie Ø Guidance for Data Quality Assessment,
comunicate ef icient celor care o utilizeaza în Practical Methods for Data Analysis, Quality
procesul de luare a deciziilor. În cazul în care Staff Office of Environmental Information,
calculele sunt efectuate prin intermediul unui U.S. Environmental Protection Agency,
software dedicat, se asigura ca procedurile 2000, NewYork- Berthouex,
sunt documentate adecvat si algoritmii util i- Ø P.M., and L.C. Brown, 1994. Statistics for
zati au codul pr oiectat si dezvoltat specific Environmental Engineers. Lewis, Boca
pentru proiectul în care sunt utilizate. Raton, FL.
Pasul urmator consta în translatarea rezultate- Ø U.S. Environmental Protection Agency,
lor testului statistic, astfel încât utilizatorul 1994a. Guidance for the Data Quality Objec-
datelor obtinute poate sa deduca o concluzie tives Process. EPA/600/R -96/055. Office of
din aceste date. Research and Develo pment.
Rezultatele testului statistic pot fi unul din Ø Cleveland, W.S., 1993. Visualizing Data.
urmatoarele: Hobart Press, Summit, NJ.