Sunteți pe pagina 1din 6

CAPITOLUL 2.

SUBSISTEMUL DE BAZE DE DATE

2.2 Asigurarea calității datelor

Spunem că datele sunt de calitate dacă răspund la așteptările utilizatorului de date (decidentul).
Prin așteptări se înțelege un set de prezumții asupra utilității datelor. Așteptările pot fi realiste, dacă se cunoaște
bine contextul și structura datelor sau pot fi bazate pe foarte puține cunoștințe asupra fenomenului, caz în care
vorbim mai degrabă de speranțe privind utilitatea datelor. Așteptările se pot confunda cu solicitări (aspecte
necesare în îndeplinirea scopului) sau cu standarde (măsuri cantitative sau calitative de comparație privind
informațiile despre cum ar trebui să fie datele).
Prin asigurarea calității datelor se înțelege, așadar, ansamblul de proceduri sistematice și planificate care
au loc înainte, în timpul și după colectarea de date, cu scopul obținerii unei baze de date de calitate.
În acest context, standardele de calitate reprezintă condiții așteptate privind completitudinea, validitatea,
integritatea și consistența datelor. Standardele generale pentru date vizează o abordare comună a problemei (spre
exemplu: completarea cu NULL ca default a câmpurilor, criterii de decizie a tipului de date, modalitatea de
memorare a datelor etc.).
Obiectivele calității datelor furnizează contextul pentru înțelegerea scopului colectării datelor și stabilirea
criteriilor calitative și cantitative pentru asigurarea calității setului de date stabilit în scopul utilizării lui.
Prin studierea metodelor prin care datele sunt colectate, măsurate și raportate, analistul pregătește etapele
preliminare ale întregului proces de analiză a calității datelor. Această etapă are ca scop stabilirea datelor
rezultate în urma studiului, structura eșantionului de date studiate și a documentației pentru colecția datelor
supuse analizei.
Activitățile parcurse sunt: studierea obiectivelor studiului, transformarea obiectivelor în ipoteze pentru studiul
statistic, definirea limitelor de toleranță pentru erorile decizionale și stabilirea structurii eșantionului de date.
Obiectivele vor fi studiate pentru a furniza contextul procedurilor de analiză a datelor, obiectivele procesului
calității datelor fiind următoarele:
 Definirea problemei, identificarea componenților echipei de analiști, examinarea bugetului necesar,
planificarea operațiunilor intermediare;
 Starea deciziei, identificarea cerințelor studiului și definirea alternativelor de acțiune;
 Identificarea datelor de intrare necesare deciziei (sursele informațiilor, se pun bazele pentru nivelul de
acțiune următor, se stabilesc metodele de selectare a eșantioanelor reprezentative);
 Definirea unei reguli de decizie – prin care se stabilesc parametrii statistici (media și mediana), specificarea
nivelului decizional, elaborarea schemei logice a acțiunilor ce urmează a fi efectuate;
 Specificarea limitelor de toleranță pentru erorile decizionale – stabilirea intervalului acceptabil pentru aceste
erori relativ la implicațiile rezultate (efecte, costuri);
 Optimizarea structurii de analiză pentru obținerea datelor – selectarea planului de analiză și a resurselor
eșantionului din care sunt culese datele, astfel încât per total proiectul să îndeplinească criteriile de
performanță.

Aspectele legate de calitatea datelor joacă un rol extrem de important în cadrul unei organizații, întrucât stau la
baza actului decizional, iar eventualele erori în date, precum și neconcordanțe între date și standardul de calitate
dorit pot avea repercusiuni grave în procesul decizional. Există numeroase situații în mediul de afaceri în care
calitatea datelor este extrem de importantă, precum: riscul de creditare, plăți frauduloase (pe bază de date
incorecte), sub-facturarea unor servicii (exemplu: firmele de cablu și decodoarele), riscul de fraudă, credit
conversion factor (CCF), Lost Given Default etc.
Cele șase dimensiuni ale calității datelor care trebuie respectate sunt următoarele:
 Acuratețe: măsura în care datele sunt corecte, iar realitatea a fost corect reprezentată. Nu se poate măsura
corect, deoarece presupune compararea cu valorile reale ale realității studiate. Spre exemplu, dacă într-o BD
există două persoane cu același CNP este clar că datele sunt invalide, dar nu se știe care dată nu corespunde
realității.
 Validitate: gradul în care datele corespund unor reguli economice sau unor standarde.
 Completitudine: dispunerea de toate elementele necesare. Prima condiție este să existe datele, întrucât
adesea se fac prezumții asupra unor date de care nu dispunem, iar mai apoi să poată fi măsurabile. Un set de
date este complet dacă:
1. are atributele dorite;
2. conține un număr suficient de mare de observații;
3. atributele sunt populate cu datele așteptate.
 Consistență: presupune absența variațiilor comparativ cu o regulă sau un standard. În acest caz trebuie
urmărite:
1. consistența în sintaxă (să respecte formatul, tipul și dimensiunea corespunzătoare unor categorii de date);
2. conformitatea datelor cu documentația (meta-datele);
3. consistența semantică.
 Integritate: să fie indivizibile sau unificate. Această dimensiune a calității datelor arată gradul în care
datele respectă regulile de dependență necesare pentru a asigura completitudinea, consistența și validitatea
datelor ce reprezintă același concept.
 Disponibile la timp: să existe date cât mai aproape de momentul când au avut loc evenimentele. Contează
gradul în care se pot obține datele necesare la momentul potrivit.

Spre exemplu, dacă se consideră cazul zilei de naștere a angajaților, respectarea celor șase dimensiuni ale
calității datelor ar presupune următoarele:
Acuratețe: Datele sunt reale
Completitudine: Orice persoană are o dată de naștere
Disponibile la timp: Informația trebuie dată la un anumit moment de timp
(spre exemplu la momentul angajării)
Validitate: Exemplu: nu există 30 februarie
Consistență: Fiecare persoană are o singură dată de naștere
Integritate: Pentru aceeași persoană, toate înregistrările în BD trebuie să aibă aceeași
dată de naștere

Este important să putem măsura datele, deoarece deținerea acestora poate reduce incertitudinea.
Principalele caracteristici ce trebuie urmărite sunt următoarele:

1. profilul datelor: tipul și formatul datelor, distribuțiile de probabilitate;


2. valori cu frecvență mare de apariție (dacă urmează un tipar așteptat, pot indica funcționarea corespunzătoare
a procesului; dacă nu, pot semnala probleme în colectarea datelor);
3. valori cu frecvență redusă de apariție (pot sugera posibile erori în date sau prezența unor outlier ce trebuie
investigați);
4. date calendaristice (spre exemplu, data externalizării trebuie să fie ulterioară zilei de internare, în timp ce
data livrării trebuie să depășească data efectuării comenzii);
5. valorile ce populează o coloană – de verificat să corespundă meta-datelor;
6. valori invalide / eronate: Valorile unei variabile sunt valide atunci când exprimă ceea ce ne așteptăm să
exprime (codificarea corectă a răspunsurilor: 1= DA; 0= NU; 1 = dezacord total; 2 = dezacord parțial; 3 =
nici acord / nici dezacord; 4 = acord parțial; 5= acord total);
 Erori umane în colectarea și introducerea datelor (de exemplu: „422” în loc de „42”);
 Valori raportate intenționat greșit (atitudinea subiecților);
 Valori care exprimă altă realitate (timpi mari de reacție, datorită unor factori distractori);
 Erori de eșantionare (Subiecți care fac parte din altă populație).
7. Valori lipsă;
8. Coloane cu cardinalitate 1 (toate iau aceeași valoare, gen NULL indică, de regulă, o importare a datelor
realizată eronat).

O organizație care nu-și cunoaște propriile date își asumă riscul neutilizării lor corespunzătoare, prin pierderea
oportunităților de a-și valorifica datele. Metadatele nu rezolvă problema, dacă nu sunt consultate corespunzător.
Trebuie să existe oameni informați în organizație, precum și o evaluare periodică a calității datelor. De cele mai
multe ori datele de care avem nevoie rezultă din sisteme tehnice complexe și sunt greu de înțeles. Atunci când
considerăm că nu dispunem de cunoștințe tehnice avansate tendința este să le atribuim acest neajuns, dar greșim!

Pentru aceasta este necesară documentarea, chiar dacă nu presupune să ne specializăm într-un domeniu, ne sunt
necesare cunoștințele generale. În acest sens, datele trebuie privite ca RESURSE, doar că spre deosebire de bani,
timp și echipamente, ele își păstrează valoarea.

Exemplificarea lucrului cu mediul Access

Pentru exemplificarea lucrului cu baze de date se prezintă, în continuare, modalităţi practice pentru crearea,
actualizarea şi exploatarea bazelor de date utilizând Microsoft Access. Se pornește de la următorul exemplu:
Patronul unui magazin vinde produse de îmbrăcăminte şi încălţăminte. Pentru o mai bună gestionare a afacerii
sale, el doreşte crearea unei baze de date care să cuprindă toate informaţiile legate de vânzarea produselor
sale.
Pentru crearea unei baze de date în Access, se urmează secvenţa de comenzi:
CreateTable Design
Se completează câmpurile Field Name şi Data Type:

Tabelul se va completa cu produsele de vânzare:

Pe măsură ce tabelul se populează cu date de ordinul miilor, este imposibil să selectăm date necesare pentru o
anumită problemă. În acest scop se vor folosi interogările pentru a filtra datele dorite din tabel. Pentru a crea o
interogare (query), se urmează secvenţa de comenzi:
Create  Query Design

Angajatul doreşte să creeze o interogare care să afişeze numai lista de produse vândute şi preţul.
Se închide interogarea creată, se salvează sub denumirea de Query1. Dacă se deschide interogarea, se obţine
tabelul:

Un formular (form) în Microsoft Access este un obiect prin intermediul căruia utilizatorul poate adăuga, edita
sau afişa datele. Pentru a crea un formular, se urmează secvenţa de comenzi:
Create  Form Wizard

Se selectează, de exemplu, tipul de formular „Columnar”:


Formularul se finalizează apăsând tasta Finish. Se salvează cu denumirea Form2. Un formular arată astfel:

În josul ferestrei apar săgeţi care permit navigarea prin înregistrări. Pentru a ajunge la sfârşitul înregistrărilor
existente şi a începe să introducem noi date, se apasă pe săgeata cu *:

Presupunem că patronul magazinului doreşte să creeze un raport care să îi arate vânzările pentru fiecare produs,
precum şi totalul vânzărilor. Prin raport înțelegem un obiect care permite vizualizarea, arhivarea şi furnizarea
detaliilor din înregistrările individuale. Pentru a crea un raport în Microsoft Access, se urmează secvenţa de
comenzi:
Create  Report
Exemplu de identificare a datelor necesare evaluării serviciilor
medicale într-un spital

La nivel de pacient trebuie colectate date reprezentând caracteristici ale pacienților (date demografice,
date de admitere și de descărcare de gestiune și toate variabilele necesare pentru a calcula severitatea bolii și
scorul riscului de deces), bunuri atribuite pacienților (pat, masă, medicamente) și rezultatele de tratament
(efectele tratamentului: ameliorarea / stagnarea / agravarea bolii; reacții adverse; simptome noi).
Tipul datelor:
- variabile categoriale (spre exemplu, prezența insuficienței renale cronice, grupa sanguină);
- variabile numerice (cea mai mare tensiune arterială și stolică în primele 24 ore de la internare);
- variabile de timp (data internării, data nașterii);
- variabile de tip string (numele pacientului).

La nivel de personal al spitalului: trebuie colectate date privind caracteristicile medicilor (date
personale, nivel educație, domenii de specialitate etc.), pacienții și operațiile alocate, precum și programul
de lucru.
Sistemul de data quality trebuie să permită culegerea și accesul rapid la date, să aibă proceduri de
verificare / validare a datelor (fără caractere speciale; a claselor de cuvinte pentru verificarea celor mai
frecvente nume și posibilitatea de atenționare dacă e greșit numele sau dacă vârsta pacientului este foarte
înaintată.
Adesea clientul (spitalul) nu are o imagine clară asupra ceea ce dorește de la un SSD, așa încât analistul
trebuie să identifice setul de parametrii necesari.

S-ar putea să vă placă și

  • Seminar 6
    Seminar 6
    Document54 pagini
    Seminar 6
    Diana Alina A
    Încă nu există evaluări
  • Componentele Seriilor de Timp
    Componentele Seriilor de Timp
    Document10 pagini
    Componentele Seriilor de Timp
    Diana Alina A
    Încă nu există evaluări
  • S 03
    S 03
    Document8 pagini
    S 03
    Diana Alina A
    Încă nu există evaluări
  • Matrice in Graf Inf
    Matrice in Graf Inf
    Document5 pagini
    Matrice in Graf Inf
    Diana Alina A
    Încă nu există evaluări
  • SAS Enterprise Guide 2
    SAS Enterprise Guide 2
    Document8 pagini
    SAS Enterprise Guide 2
    Diana Alina A
    Încă nu există evaluări
  • Curs 11
    Curs 11
    Document12 pagini
    Curs 11
    Diana Alina A
    Încă nu există evaluări
  • Cursuri
    Cursuri
    Document189 pagini
    Cursuri
    Diana Alina A
    Încă nu există evaluări
  • Status Si Rol. Grupurile
    Status Si Rol. Grupurile
    Document19 pagini
    Status Si Rol. Grupurile
    Diana Alina A
    Încă nu există evaluări
  • Seminare
    Seminare
    Document67 pagini
    Seminare
    Diana Alina A
    Încă nu există evaluări
  • CURS Drept
    CURS Drept
    Document299 pagini
    CURS Drept
    Diana Alina A
    Încă nu există evaluări
  • Sem Python 1
    Sem Python 1
    Document20 pagini
    Sem Python 1
    Diana Alina A
    Încă nu există evaluări
  • Jsic 2
    Jsic 2
    Document8 pagini
    Jsic 2
    Diana Alina A
    Încă nu există evaluări
  • 3 - 5 Forte A Lui Porter
    3 - 5 Forte A Lui Porter
    Document19 pagini
    3 - 5 Forte A Lui Porter
    Diana Alina A
    Încă nu există evaluări
  • Curs 3 Programare SAS 2file
    Curs 3 Programare SAS 2file
    Document27 pagini
    Curs 3 Programare SAS 2file
    Diana Alina A
    Încă nu există evaluări
  • Sem 4 SAS
    Sem 4 SAS
    Document16 pagini
    Sem 4 SAS
    Andrei Tranca
    Încă nu există evaluări
  • Slide Curs 5 Programare SAS 4
    Slide Curs 5 Programare SAS 4
    Document30 pagini
    Slide Curs 5 Programare SAS 4
    Diana Alina A
    Încă nu există evaluări