Sunteți pe pagina 1din 21

Structuri de date

Structuri de date pentru hărți tematice

Toate datele geografice pot fi reduse la trei concepte topologice de bază -- punctul, linia și zona.
O inscriptie sau o denumire este de asemenea necesară pentru a identifica entitatea de pe hartă
sau din teren.

O hartă reprezintă o mulțime de puncte (obiecte punctuale), linii (obiecte liniare) și zone
(obiecte areale), care sunt definite prin poziție și prin atributele sau datele tematice.

Legenda hărții sau atlasul de semne convenționale și inscripții constituie cheia ce leagă atributele
nonspațiale de entitățile spațiale. Culorile, simbolurile și hașurile sunt folosite pentru a afișa
vizual informația nonspațială.

Datele hărții sunt memorate în calculator în formă de fișiere, care, la solicitarea unor date din
acestea, datele trebuie sa fie regăsite și furnizate rapid. Pentru aceasta, organizarea elementelor
de date din fișiere este foarte importantă. Sunt folosite sisteme de gestiune a bazelor de date
(SGBD) pentru a controla introducerea, actualizarea, ieșirea, memorarea și regăsirea datelor.

Structuri ale fișierelor

Există trei tipuri de fișiere : fișiere listă simplă, de tip secvențial și de tip indexat. O listă simplă
este nestructurată și pot fi adăugate noi înreSIGtrări, prin plasarea lor la sfârșitul listei. Timpul de
căutare a unei înreSIGtrări este mare. Este citită fiecare înreSIGtrare până se ajunge la cea
căutată. Fișierele secvențiale sunt structurate ca un dicționar sau o carte de telefon. Noile
înreSIGtrări sau articole sunt adăugate prin inserare la locul potrivit din listă. Sunt folosite
tehnici de căutare binară (jocul de găsire a unui număr prin înjumătățirea intervalului - "divide et
impera"). Atributul cheie în acest sistem este șirul de caractere. Fișierele indexate constau din
liste cu acces direct, liste circulare, liste circulare indexate, liste inverse etc.

Structuri ale fișierelor bazei de date (grafice sau atribute)

O BD constă din mai multe liste de date. Pentru a putea accesa ușor datele din unul sau mai
multe liste, este necesar să existe un anumit tip de structură. Există trei tipuri de structuri:
ierarhică, rețea și relațională.

Sistemele ierarhice au o relatie părinte/fiu, sunt ușor de înțeles, actualizat și mărit sau expandat.
Acestea lucrează bine dacă structura tuturor interogărilor posibile este cunoscută dinainte, de
exemplu bibliografia. Dezavantajele includ nevoia de fișiere de index mari, cu anumite valori de
atribute repetate de mai multe ori, ducând la redundanța datelor și spațiu de memorare mare,
respectiv costuri mari de acces.

Sistemele de tip rețea permit legarea într-o BD a tuturor punctelor, liniilor și poligoanelor.
Deplasarea înainte sau înapoi nu este restricționată pe diferite circuite și redundanța datelor este
păstrată minimă. Structurile inelare cu pointeri sunt folosite pentru a naviga în jurul entităților
topologice complexe. Acești pointeri pot mări substanțial o bază de date și ei necesită
actualizarea și întreținerea de fiecare dată când e făcută o modificare în BD.

Sistemele relaționale nu folosesc pointeri sau ierarhii. Datele sunt memorate sau stocate în
tupluri, care conțin o mulțime ordonată de valori de atribute, care sunt grupate împreună în
tabele bidimensionale, cunoscute ca relații. Fiecărei relații îi corespunde un fișier separat și sunt
folosite coduri de identificare drept chei unice pentru a identifica înreSIGtrările din fiecare fișier.
Utilizatorul definește relația care constituie o interogare sau după care se face o căutare. Pentru a
construi noi tabele este folosită algebra relațională. Orice nouă relație necesită un nou fișier listă.

Pentru ilustrare, mai jos este prezentată o harta simplă M, cu două poligoane etichetate I și II.
Imediat după hartă sunt date trei structuri de date .

Harta simplă M cu două poligoane I si II

Structura ierarhică de date


Structura de date rețea

Structura relațională de date

Reprezentatarea datelor grafice (spațiale) în calculator

Un calculator trebuie să fie "instruit" precis cum ar trebui să fie gestionate și afișate eșantioanele
spațiale. Există doar două tipuri de formate de bază - vectorial și cu celule ale rețelei sau raster.
Formatul de tip grilă nu este analizat aici. Cu formatul vectorial, un set de linii, definite prin
punctele de start și de sfârșit, ca și alte puncte intermediare sau vârfuri ale liniei poligonale ce
reprezintă implicit un obiect. Cu formatul raster, un set de puncte pe o grilă reprezintă explicit un
obiect si calculatorul asignează sau atribuie un cod comun (simbol sau culoare, dar de fapt o
valoare) fiecărei celule.
Trebuie observat că nu există o legătură unică între structurile vector si raster ale BD geografice.
Cele mai multe sisteme CAD/CAM lucrează cu BD structurate ca vectori, dar folosesc ecrane
grafice cu afisări raster si plotere vectoriale.

Structuri de date raster

Asemenea structuri constau dintr-o matrice de celule ale unei grile sau pixeli, referite pozitional
de un număr de rând si un numâr de coloană si tematic de un număr care reprezintă tipul sau
valoarea atributului care face obiectul cartografierii. Suprafața bidimensională prin care datele
geografice sunt legate nu este continuă si aceasta poate avea un efect important asupra
estimărilor lungimilor si ariilor când dimensiunile celulei grilei sunt mari fată de detaliile ce sunt
reprezentate.

Straturile hărții

Deoarece fiecare celulă a unui tablou bidimensional poate păstra doar un număr, atributele
geografice diferite trebuie sa fie reprezentate de tablouri separate noi, cunoscute ca straturi de
acoperire sau "overlays". Acest fapt duce la o structură 3-D sau tridimensională.

Metode de stocare a datelor raster

Cum pot fi organizate cel mai bine datele memorate în straturi într-un calculator astfel incât
accesul să fie optim, iar cerintele de memorare si procesare să fie minimale? Există trei metode
de organizare a datelor:

- fiecare celulă este referită direct (GRID, LUNR, MAGI);


- fiecare strat este referit direct (IMGRID);
- fiecare unitate (regiune) de cartografiere este referită direct (MAP).

METODE DE STOCARE BIDIMENSIONALE :

Există patru metode în care poate fi obtinută o memorare compactă:

- coduri ciclice (chain codes);


- coduri run-length ("lungime-traseu" -ş în traducere liberă);
- coduri bloc;
- tetraarbori sau arbori cuadrici (quadtrees).

Coduri ciclice: Dată fiind o hartă rasterizată, frontiera unei regiuni poate fi cod(ific)ată în
termenii unei origini definite de utilizator (un număr dat de rând si un număr de coloană) si un sir
de vectori unitate în directiile punctelor cardinale (est=0, nord=1, vest=2, sud=3), în sens invers
celui orar. Vectorii unitate sunt laturile pixelilor ce reprezintă frontiera regiunii hărții. Un
exemplu ar putea fi: 0, 1, 0^2, 3, 0^2, 1, 0, 3, 0, 1, 0^3, 3^2, 2, 3^3 etc., incepând de la pixelul
din rândul 9/coloana 1. Observatie: simbolul ^ urmat de un număr arată că lungimea vectorului
este de mai multi pixeli.
Coduri run-length: Exemplul de mai jos arată o hartă ipotetică vectorială a solurilor (vezi
figura), cu cinci poligoane cărora le-au fost asignate unul din cele trei tipuri posibile de soluri
(culoarea). O grilă 16 X 16, având celule care sunt 20 X 20 unităti de hartă, a fost suprapusă
pentru a reprezenta frontierele poligoanelor si zonele pe care acestea le includ (delimitează)
formatul în raster (vezi figura). Aceste celule sunt referentiate prin numărul de rând si numărul
de coloană si o valoare Z. Pentru a condensa aceste date, rândurile de celule care au aceeasi
valoare tematică sunt scanate de la celula din stânga spre dreapta si memorate imediat ce sunt
rulate ("runs"). Un "run" (sir) este definit de o celulă de început si o celulă de sfârsit (nr. coloană)
si valoarea tematică comună. . Vedeti aceste "runs" date in a patra figură.

Exemplu de hartă vectorială a solurilor

Harta solurilor în format raster


Asignarea valorilor (tematice) Z

Harta solurilor codificată run-length

Observație: După cum se vede mai sus, dimensiunea celulei grilei sau pixelului afectează mult
volumul memoriei detaliului care este păstrat la conversia de la formatul vectorial la formatul
raster. Vor fi alterate si calculele ariei si perimetrului.

Coduri block: Ideea codurilor run-length este extinsă la două dimensiuni prin folosirea
blocurilor pătrate pentru a împărți regiunea de cartografiat. Structura de date constă din origine
(în centru sau in stânga jos) si lungimea laturii fiecărui pătrat. Această metodă este numită
transformarea axei medii - medial axis transformation (MAT).

Arbori cuadrici - quadtrees: Aici, un tablou 2-la-n X 2-la-n este împărtit succesiv in cadrane si
sunt notate cadranele continute in întregime în regiune . Cea mai mică limită a împărtirii este un
singur pixel. Aceasta duce la o structură arborescentă de gradul 4, deoarece fiecare nod are 4
ramificatii, denumite cadranele NV, NE, SV si SE (notate de fapt cu primele 4 cifre 0, 1, 2 si 3,
într-un sens sau în altul, direct sau invers acelor de ceas). Fiecare bloc de formă pătrată de pixeli
de aceeasi valoare va avea un singur cod de acces, derivat din împărtirea arborescentă cuadrică.

METODE DE STOCARE TRIDIMENSIONALE :

Modelele Digitale Altimetrice - Digital Elevation Models (MDA sau DEM) sunt folosite pentru
a reprezenta datele spațiale în trei dimensiuni. Există trei metode de interpolare ce pot fi
prezentate pentru început: a diferențelor finite, a sumei ponderate și a potrivirii suprafeței.
Prima din acestea este o procedură iterativă de netezire care nu alterează valorile datelor inițiale.
A doua metodă interpolează o valoare a unui pixel ca o medie ponderată a punctelor celor mai
apropiate de acel pixel. Ponderea este invers proportională cu o putere oarecare a distantei dintre
fiecare punct si punctul de interpolat. Ultima metodă deternină o suprafată polinomială ce trece
prin punctele cele mai apropiate de punctul de interpolat si prin acel punct. Ulterior este bine să
se studieze si alte metode de interpolare, de exemplu cele legate de variabilele regionalizate (de
exemplu "kriging".

Structuri de date vectoriale

Aici spatiul coordonatelor se presupune a fi continuu, fiind posibil să fie definite precis toate
pozitiile, lungimile si dimensiunile . Reprezentarea exactă a unei coordonate este limitată totusi
de dimensiunea unui cuvânt de memorie din calculator si de dimensiunea unui pas (increment) al
perifericului de reprezentare a datelor vectoriale (ploter).

METODE BIDIMENSIONALE :

Există două metode sau modele:

a) Spaghetti - memorează detaliile spațiale ca perechi de coordonate (puncte sau obiecte


punctuale) sau un sir de perechi de coordonate (linii sau obiecte liniare). Un poligon este un sir
de coordonatonate ale unui contur (al unui obiect areal). Frontiera comună la două poligoane este
memorata de două ori. Aceste multimi de siruri de coordonate sunt stocate fără orice structură
deosebită. Din acest motiv:

- relatiile spațiale NU există;


- este eficientă pentru reprezentare la ploter;
- este ineficientă pentru regăsire rapidă si analiză spațială.

b) Topologică (Arc-Nod din graf) - foloseste arce pentru a memora o serie de puncte (perechi de
coordonate) care încep din si se termina în noduri si pot cuprinde si vârfuri sau alte puncte
(puncte intermediare pemtru a păstra forma). Un nod este intersectia a trei sau mai multe arce.
Pentru a inreSIGtra topologia sunt folosite trei tabele de date, denumite POLIGON (lista arcelor
ce sunt cuprinse in fiecare poligon), NOD (defineste arcele care încep sau se termină în fiecare
nod) si ARC (defineste relatiile nodurilor si poligoanelor pentru fiecare arc).

Ca atare:
- sunt prezente relațiile spațiale (vezi figura);
- este eficientă pentru regăsire rapida și analize spațiale;
- este ineficientă pentru reprezentare la ploterul vectorial.

Modelul topologic al datelor

Codificarea topologiei datelor spațiale


POLIGON NOD ARC
Polig. Arce Nod -------- Arc Nod de Nod Pol. Pol.
Arce Start final Stg. Dr.
A a1, a5, a3 N1 a1, a3, a4 a1 N1 N2 E A
B a2, a5, 0, a6, 0, N2 a1, a2, a5 a2 N2 N3 E B
C a7 N3 a2, a3, a5 a3 N3 N1 E A
D a7 N4 a4 a4 N4 N1 A A
E a6 N5 a6 a5 N3 N2 A B
area outside N6 a7 a6 N5 N5 B B
map a7 N6 N6 B C
Coordonate ale punctelor arcelor
Arc X, Y Start X, Y Intermediare X, Y Finale
a1 40, 60 70, 60 70, 50
a2 70, 50 70, 10; 10, 10 10, 25
a3 10, 25 10, 60 40, 60
a4 40, 60 30, 50 30, 40
a5 10, 25 20, 27; 30, 30; 50, 32 70, 50
a6 30, 20 --- 30, 20
a7 55, 27 55, 15; 40, 15; 45, 27 55, 27

METODE TRIDIMENSIONALE :

Este folosită o retea de triunghiuri oarecare - triangular irregular network (RTO sau TIN) pentru
a reprezenta datele spațiale în trei dimensiuni. De regulă, pentru a defini o suprafată continuă
sunt determinate prin interpolare valorile tematice Z folosind valorile Z intr-un număr de puncte
cu coordonate X si Y dispuse regulat sau neregulat. Există multe căi de interpolare, folosind
functii liniare, polinomiale sau exponentiale etc. Coeficientii acestor functii sunt calculati pe
baza derivatelor de ordinele intâi si al doilea ale functiei Z în vârfurile triunghiului si în punctele
vecine (într-un domeniu circular dat prin rază). O metodă obisnuită de interpolare este
triangulatia Delaunay (vezi Nitu, C. et all, 2002). O triangulatie a unui set de puncte este
triangulatie Delaunay dacă si numai dacă cercul circumscris oricăruia din triunghiuri nu contine
orice alt punct în interiorul său. Triangulatia Delaunay este mărginită de o linie poligonală
convexă. Figura duală a acestei triangulatii este denumită diagrama Voronoi (sau poligoane
Thiessen). Nodurile unui poligon Voronoi coincid cu centrele cercurilor circumscrise
triunghiurilor Delaunay. Mediatoarele laturilor triunghiurilor Delaunay formează laturile
poligoanelor Voronoi. .
In acest mod, suprafața finală este dată de un set de triunghiuri oarecare. Orice produs derivat
dintr-o asemenea suprafată, ca de exemplu panta, aspectul etc., este total dependent de calitatea
acestei suprafete interpolate.

Modele de reprezentări ale reliefului

Mai sus sunt date câteva reprezentări prin umbre ale reliefului, pe care au fost suprapuse curbele
de nivel. A existat mai intâi un model TIN. Punctele modelului TIN au fost alese prin prelucrarea
datelor rezultate din digitizarea curbelor de nivel si a unor puncte caracteristice ale reliefului.

Reprezentarea în calculator a datelor atributelor (nonspațiale)

1. ÎnreSIGtrările conțin unul sau mai multe câmpuri.


2. Fiecare câmp este de un anumit tip, de exemplu numeric, caracter, alfanumeric, real,
real dublă precizie si o anumită lungime (în octeți).
3. Există două clase de câmpuri – de tip sistem și specificate de utilizator. Exemple de
câmpuri sistem în ArcSIG sunt TAG_ID, AREA, PERIMETER, ERRORTHEME,
LABEL_1. Acestea nu trebuie modificate de utilizator. Pe de altă parte, câmpurile
specificate de utilizator pot fi editate sau actualizate si pot avea nume puse de acesta.
Multe sisteme de programe permit "personalizarea", inclusiv prin adăugarea de noi
module de program.
4. Legătura între datele spațiale si cele nonspațiale este cuprinsă intr-un câmp, printr-un
identificator unic, de exemplu TAG-ID.
5. Baza de date nonspațiale este echivalenta cu tabelele de atribute.
6. Există un limbaj structurat de interogare (SQL), pentru a crea siruri de comenzi
complexe care permit sa fie regăsită o submultime de înreSIGtrări care să satisfacă una
sau mai multe conditii specificate de utilizator.
7. Există posibilitatea plasării într-un raport a inreSIGtrărilor găsite, sub o formă proiectată
dinainte, chiar sub formă tabelară, cu cap de tabel cu denumiri si aspect prestabilite.

Elementele hărții

Detaliile de pe o hartă pot fi reprezentate prin trei elemente de bază, denumite obiecte punctuale
sau simplu puncte, obiecte liniare (linii din vectori) și obiecte areale (poligoane). Toate aceste
elemente au unele caracteristici comune care sunt date mai jos. Amintim că liniile si poligoanele
constau din mai multe puncte si că aceste puncte au o ordine implicită sau explicită. Topologia
poate exista sau nu.

Datele care definesc un obiect punctual

Un segment liniar poate fi reprezentat de un punct initial si un punct final, plus un câmp cu
identificatorul obiectului (detaliului). Un "arc" este o multime de n perechi de coordonate XY ce
descriu o curbă continuă complexă. Numărul n trebuie să fie mai mare sau egal cu 2. Cu cât sunt
mai scurte segmentele liniare si cu cât este mai mare numărul de perechi de coordonate XY, cu
atât mai mult arcul va aproxima o curbă complexă. Spatiul de memorare a datelor poate fi
economisit (micsorat) în schimbul timpului mai mare de procesare, prin memorarea unui număr
ce indică faptul că trebuie folosită o functie matematică de interpolare a coordonatelor (de
exemplu B-spline), când datele sunt trimise unui periferic de afisare .
REȚELE: liniile simple nu au informație spațială. Pentru a fi posibilă trasarea cu calculatorul a
unei rețele de obiecte liniare, de exemplu drumuri sau râuri, în structura de date trebuie construiți
"pointeri". Sunt folosite adesea noduri care posedă înreSIGtrări ce indică unghiul sub care fiecare
linie intră în nod.

Structuri poligonale de date

Scopul unor asemenea structuri este de a descrie caracteristicile topologice ale zonelor (forme,
vecini si ierarhie) într-un asemenea mod, încât aceste caracteristici pot fi afisate si manipulate ca
date tematice cartografice . Datele geografice impun ca fiecare poligon dintr-o retea să aibă o
formă, un perimetru si arie unice. Analizele geografice necesită informatii despre vecinii fiecărui
poligon. Un poligon simplu este o extensie a unei retele liniare. Asemenea structuri memorează
de două ori arcele dintre poligoanele adiacente, ceea ce poate duce la "poligoane așchie" sau
benzi înguste. Nu există o metodă usoară pentru a verifica erorile de topologie in frontiera unui
poligon simplu. Trebuie inlăturate depăsirile de arce si golurile dintre poligoane.

Poligoane cu dicționare de puncte: Toate perechile de coordonate sunt numerotate secvential si


referentiate printr-un dictionar care inreSIGtrează ce puncte sunt asociate cu fiecare poligon.
Dictionarul permite să fie identificate în mod unic frontierele dintre poligoanele adiacente, dar
mai există totusi probleme cu funcțiile de vecinătate. Mai sunt prezente și probleme ca cea a
poligoanelor insule (în sens topologic) și a poligoanelor "ciudate". Pentru a defini un poligon
poate fi folosit și un dicționar al segmentelor (de) arce.

Sisteme de poligoane cu structuri topologice explicite: Insulele și vecinii pot fi mânuite numai
prin încorporarea în structura de date a relațiilor topologice explicite, prin software sau pe cale
manuală, în timpul introducerii datelor.

O structură topologică poligonală completă a unei rețele poate fi construită dintr-o multime de
arce de frontieră care au fost digitizate în orice ordine și în orice directie. Insulele și lacurile pot
fi create la orice nivel și regiunea este verificată automat pentru neînchideri și poligoane
incorecte. Atributele nonspațiale sunt legate semiautomat de poligoane. Căutarile vecinătăților
sunt asigurate complet.
Pași în crearea unei baze de date vectoriale topologice corecte de poligoane

Pasii creării BD vectoriale de poligoane

Analiza figurii arată cazurile concrete de la datele teren și până la determinarea legăturilor între
datele spațiale și cele tematice sau nonspațiale.

Pașii de creare a unei structuri poligonale a rețelei


1) Legarea arcelor într-o rețea de frontiere
Arcele sunt sortate după extinderile lor (coordonatele minime și maxime X si Y), și cum
arcele se închid topologic unul cu altul sunt de asemenea închise în fișierul de date. Sunt
reținute intersecțiile cu alte arce, sunt create puncte de joncțiune și înreSIGtrările de date
sunt expandate pentru a cuprinde pointerii și unghiurile pentru arce. În rutina de căutare a
intersecției este construită o fereastră de toleranță.
2) Verificarea închiderii poligoanelor
Rețeaua rezultată poate fi verificată dacă se închide prin baleierea (explorarea)
înreSIGtrărilor modificate ale arcelor, pentru a vedea dacă toate au pointeri (adrese) spre
și de la cel puțin un alt arc. Arcele ce cad la test sunt marcate.
3) Legarea arcelor în poligoane
Mai întâi este creat un nou poligon invizibil "acoperitor" din frontierele exterioare ale
poligoanelor hărții, mergând in directia acelor de ceas în jurul frontierei exterioare si
alegând arcul cel mai din stânga la fiecare jonctiune. Această entitate acoperitoare constă
din înreSIGtrările ce contin:

1. un identificator unic;
2. un pointer de inel sau circuit (relatia "cap la cap");
3. un cod de identificare a acoperirii;
4. aria lor;
5. o listă a pointerilor la arcele frontieră;
6. extinderea lor (coordonatele X, Y minime si maxime ale dreptunghiului limita).

Acum sunt construite poligoanele individuale interioare printr-o căutare în sensul acelor
de ceas si alegerea arcului cel mai din stânga la fiecare jonctiune. Intr-o variabilă se
contorizeza de câte ori este traversat un arc. O dată ce arcul a fost traversat de două ori, el
este exclus de la căutările ulterioare . Este facută si o verificare asupra unghiului de
întoarcere cumulat, deoarece dacă el nu este egal cu 360 de grade există o eroare de
digitizare. Fiecare entitate poligon constă din înreSIGtrări ce contin:

1. un identificator unic;
2. un cod de poligon;
3. un pointer circular (ring pointer) de la poligonul acoperitor;
4. un pointer circular (ring pointer) la poligonul adiacent din retea;
5. o lista a tuturor arcelor frontierei poligonului;
6. coordonatele minime si maxime ale dreptunghiului limită.

Căutarea se face la poligonul urmator în aceeasi retea, la acelasi nivel în ierarhie si tot
astfel până ce au fost construite toate poligoanele. Trebuie construite si insulele, într-o
ierarhie topologică validă. Poligonul în care este insula trebuie localizat de o rutină de
testare "punct-în-poligon".

4) Calculul ariilor poligoanelor


Ariile poligoanelor individuale sunt calculate după regula trapezoidală. Dacă este
necesar, ariile insulelor incluse sunt scăzute din ariile poligoanelor. Aria este memorată
ca un atribut asociat .
5) Legătura atributelor nongrafice la poligoane
Legătura poate fi facută prin digitizarea unei entitati text
unic în fiecare suprafată a poligonului si cerând calculatorului să tipărească
identificatorul unic în centrul fiecărui poligon.
Compararea structurilor de date raster si vectoriale

Sunt folosite ambele tipuri de structuri în reprezentarea datelor spațiale. Poate fi facută usor
conversia din vector in raster, care este realizată automat de către microprocesoarele interne din
perifericele de afisare. Este posibilă conversia raster-în-vector, dar aceasta este o operatie mult
mai complexă, deoarece benzi de pixeli sunt schimbate in arce si numărul de coordonate este
redus printr-un proces de "plivire" sau eliminare a unor puncte interemediare (generalizare a
formei).

METODE VECTORIALE

Avantaje:

1. Grafică precisă (pozitională) si calcule de precizie ale ariilor;


2. Aspect vizual estetic datorită păstrarii detaliilor elementelor;
3. Structura compactă a datelor duce la necesităti de volum mai redus de memorie.

Dezavantaje:

1. Structuri complexe de date;


2. Greu sau chiar imposibile de realizat analize spațiale foarte complexe;
3. Nu pot mânui date de teledetectie.

METODE RASTER

Avantaje:

1. Sunt realizate usor analizele spațiale (doar operatiuni logice cu straturi);


2. Structuri simple de date;
3. Pot importa, afisa si manipula date de teledetectie.

Dezavantaje:

1. Grafică si calcule de arii imprecise;


2. Aparitie în bloc cu pierdere de detalii o dată cu cresterea dimensiunii pixelului;
3. Cerinte de volume mari de memorie.
ERORI SI PRECIZIE ÎN SISTEMELE INFORMATICE GEOGRAFICE
Importanţa preciziei datelor şi produselor SIG

Până în ultimii trei ani s-a acordat o mai mică importantă preciziei datelor SIG. Se stie că datele
contin erori sistematice sau aleatoare, dar nu s-a accentuat asupra felului cum procedurile şi
solutiile SIG tin seama de aceste erori. O bună tratare a acestei probleme permite alegerea celor
mai bune surse de date, alegerea celor mai corecte metode de culegere a datelor şi alegerea celor
mai corecte proceduri de prelucrare si de realizare a produselor finale. Dacă nu se tine seama de
problemele de mai sus, multe proiecte SIG pot fi întrerupte. Se stie că în SIG sunt concatenate
multe date discrete, de diferite tipuri, cele mai importante fiind datele de pozitie, deoarece la ele
sunt referite toate celelalte tipuri de date.

Definiții de bază

Precizia se referă aici la gradul în care datele SIG iau valori acceptabile fată de valorile lor
adevărate şi caracterizează calitatea datelor, considerând valorile datelor ca având numai
valori aleatoare, dar controlabile. Nu este omisă nici abordarea corectării datelor de
eventualele erori sistematice. Având în vedere tipurile diverse de date şi de proceduri de
culegere, validare şi prelucrare, se poate arăta că:

(a) datele au măsuri şi metode diferite de apreciere a preciziei;

(b) nivelul necesar de precizie specific diferitelor tipuri de aplicaţii variază mult;

(c) precizia datelor este legată strict de metodele de culegere, de aparatura folosită, de sursele
de date, de procedurile de prelucrare etc.;

(d) ca urmare a celor de mai sus, precizia datelor depinde şi de costurile SIG şi invers.
Calitatea datelor, în care intră şi datele referitoare la precizie se arată în mod explicit şi în
documentaţia ce însoţeşte o bază de date SIG, respectiv prin metadate.

Tipuri de erori

Cu toate că datele de poziţie au cea mai mare importanţă în SIG, cele de mai jos se vor referi la
toate tipurile de date întâlnite într-un proiect SIG.

Precizia poziţională

Precizia poziţională este diferită pentru datele culese prin metode geodezice, fotogrammetrice,
topografice, cartografice etc. Dar în final, datele de poziţie reunite (concatenate) nu vor avea
precizia mai mare decât cea a datelor de cea mai slabă precizie. Sursa cea mai comună de date
pentru SIG este harta topografică. În instrucţiunile de realizare a hărţilor se fac referiri la precizia
poziţională a detaliilor reprezentate pe aceste hărţi. Astfel, pentru hărţile topografice la scările
1:10 000 - 1:1 000 000, precizia detaliilor este de 0,4 mm la scara hărţii, cu un nivel de încredere
a=0,05 (probabilitatea de 0,95). Se poate concluziona că precizia depinde de scară, valoarea de
mai sus reprezentând de exemplu 9 m în coordonate reale pentru scara 1:25 000. În S.U.A.,
standardele de precizie prevăd valorile de precizie a poziţiei orizontale la scara hărţii de 1/30
inch (respectiv 0,86 mm) pentru hărţile topografice la scara 1:20 000 şi mai mare, iar pentru
scările mai mici de 1:20 000 de 1/50 inch (respectiv 0,5 mm), pentru un nivel de încredere
a=0,10 (probabilitatea de 0,90) (vezi anexa F din Nitu, C., et all, 2002) ). Cele de mai sus trebuie
avute în vedere la toate tipurile de detalii - punctuale, liniare sau areale. Precizia de mai sus este
asigurată când la digitizare se folosesc originalele de editare pe film. Trebuie arătat aici că
operaţiunile de mărire sau micşorare pe ecran (efectul de lupă "zoom in" şi "zoom out") nu
modifică precizia datelor. Mărirea imaginii dă o impresie falsă a îmbunătăţirii preciziei datelor.

Precizia atributelor sau datelor tematice

Datele nespațiale referite la cele poziționale sunt caracterizate de indicatori de precizie care pot
varia în limite foarte largi, având în vedere eterogenitatea acestor date. Fenomenele sunt descrise
în detaliu de date cât mai precise. Preciziile datelor de mai sus pun probleme deosebite.

Precizia conceptuală

SIG depinde de abstractizarea si clasificarea fenomenelor lumii reale. Utilizatorii determină ce


volum de informatii este folosit si cum este clasificat în diferite categorii. Uneori se folosesc
categorii inadecvate sau informatii gresit clasificate. De exemplu, clasificând localitătile după
numărul persoanelor cu drept de vot nu se pot trage concluzii cu privire la natalitate si mortalitate
sau clasificând liniile electrice doar după voltaj se limitează eficienta SIG la managementul
infrastructurii utilitătilor electrice. Chiar dacă sunt folosite categorii corecte, acestea pot fi de
neutilizat pentru o anumită problemă.

Precizia logică

Precizia logică se referă la precizia datelor logice stocate în SIG. Datele stocate "logic" pot fi
folosite inadecvat. De exemplu, poate fi dată aprobarea de constructie a unui cvartal într-o
margine a unei localităti, fără a se analiza harta (planul) cu tipurile de sol sau cu deplasările
posibile ale scoartei terestre. Sistemele SIG nu decid în locul utilizatorului si nu-l ajută cu nimic
dacă analiza datelor este inadecvată sau dacă datele sunt imprecise sau incorecte. Câteva reguli
de folosire pot fi introduse în SIG, care este proiectat astfel ca un "sistem expert", dar realizatorii
SIG trebuie să se asigure că regulile folosite corespund SIG are nevoie de date de înaltă precizie.
Necesitătile de precizie variază radical în functie de tipul de date si de rezolutiile necesare ale
datelor pentru o anumită aplicatie. Precizia crescută excesiv nu numai că duce la mărirea
costurilor, dar poate da detalieri care nu sunt necesare.

Surse de erori

Doar putine surse de erori pot fi identificate chiar de procedurile SIG. Cade în sarcina
utilizatorului folosirea unor date neeronate. o atentie aparte trebuie acordată verificării preciziei
datelor, deoarece procedurile SIG îl pot conduce pe utilizator într-o directie falsă a aprecierii
preciziei. De exemplu, procedura de netezire a curbelor (smooth) duce la reprezentări elegante,
dar incorecte. De fapt, unele detalii reprezentate astfel sunt "vagi, graduale sau fuzzy" (Burrough,
1986). Si asa există un anumit grad de imprecizie în cartografie, începând cu relatiile matematice
si deformările diferitelor proiectii cartografice si continuând cu procesul de culegere si
reprezentare a datelor în SIG.
Sursele de erori pot fi împărtite în trei grupe: (a) surse obisnuite de erori; (b) erori rezultate din
variatii naturale sau din măsurătorile originale; (c) erori datorită prelucrării. De regulă, erorile
din primele două grupe sunt mai usor de detectat decât cele ce apar prin procesare, care pot fi
subtile si greu de identificat.

Surse obișnuite de erori

Vechimea datelor

Sursele de date, în afară de teren, pot avea un anumit grad de vechime, dată de modificările ce au
avut loc asupra lumii reale de la data creării acestor posibile surse. Unele sisteme chiar necesită
date cu diferite rezoluții temporale pentru studiul variației în timp a unor fenomene si pentru
eventuale prognoze. Pentru majoritatea sistemelor sunt necesare cele mai noi date, culese de pe
hărțile de ultimă editie si completate cu date obtinute pe cale aerofotogrammetrică sau cu
ajutorul satelitilor artificiali ai pământului (de teledetectie). Vechimea datelor de pe aceste ultime
înreSIGtrări este dată de data realizării imaginilor. Trebuie avut în vedere faptul că unele hărți
tematice s-au realizat după realizarea hărților topografice de o anumită ediție și gradul de
precizie a datelor tematice nu este arătat nicăieri, asa cum este arătat pentru hărțile topografice.

Acoperirea areală

Datele corespunzătoare unui domeniu areal pot lipsi complet sau sunt disponibile doar anumite
straturi de date. De exemplu, hărțile tematice pentru vegetatie si pentru soluri pot fi incomplete
în zonele de frontieră si pentru unele perioade de tranzitie si în momentul de fată nu mai
reprezintă fidel realitatea. O acoperire uniformă este imposibil de obtinut pentru toate tipurile de
date si utilizatorul trebuie să decidă ce nivel de generalizare este necesar sau dacă mai este
necesară culegerea folosind si alte surse de date.

Scara geoimaginii sursă

Geoimaginile au o anumită scară, de care depinde gradul de detaliere si precizia datelor. Scara
restrânge tipul, cantitatea si calitatea (aici intrând si precizia) datelor SIG (Nisu, C., Nitu,C.D.
1992a si 1992b). Trebuie alese geoimaginile sursă de scări care să asigure caracteristicile de
rezoluție și precizie corespunzătoare celor mai pretențioase aplicații ale SIG (cel mai fin detaliu).
Mărirea unei hărți la scară mică nu duce la îmbunătătirea indicatorilor de precizie sau la mărirea
gradului de detaliere, asa cum consideră unii utilizatori de formatie diferită de cea geodezică.

Densitatea observațiilor

Rezoluțiile specifice ale datelor și complexitatea detaliilor dintr-o anumită zonă geografică
determină numărul de observații pe unitatea de suprafață sau densitatea observațiilor. Aceasta
trebuie inclusă în metadate și trebuie cunoscută de către utilizator. Analiza geografică necesită
date de rezoluții specificate. De exemplu, realizarea hărților cu izolinii (izohipse, izobare,
izoterme, izocline etc.), cu o anumită echidistantă, necesită o anumită densitate a punctelor
dispuse neregulat cu valori z=f(x,y) cunoscute, o rezoluție spațială plană a punctelor cu valori z
dispuse într-o grilă regulată etc.

Relevanța datelor

Adesea nu se pot obține anumite date asupra unei zone și în locul acestora se utilizează date
obținute indirect, respectiv date de înlocuire. Între datele de înlocuire și fenomenul ce trebuie
analizat trebuie să existe o anumită relație. În statistică sunt multe exemple de determinare
indirectă a unor mărimi necunoscând prea multe date, ci doar unele eșantioane dintr-o populație,
concluziile extrapolându-se la întreaga populație.
De asemenea, alt exemplu este cel de urmărire a stadiilor succesive ale culturilor, care se poate
face prin urmărire directă la teren sau prin date de teledetectie. Tot prin teledetectie se pot
analiza pentru o zonă tipurile de soluri, probabilitatea de eroziune etc.
Relevanta datelor este acea caracteristică ce exprimă că o multime de date corespunde cu un
anumit nivel de încredere (de regulă cuprins între 0,05 si 0,10) scopului în care sunt utilizate. Si
această valoare trebuie specificată în metadate.

Formatul

Metodele de formatare a informației digitale pentru transmitere, memorare și procesare pot


introduce erori în date. Transformările scării, proiecției, din formatul raster în vector și marimea
rezoluției pixelilor sunt exemple de cauze posibile ale erorilor datorită formatului. Conversiile
multiple dintr-un format în altul pot crea o cumulare a erorilor. De aici rezultă necesitatea
standardelor de formate.

Accesibilitatea

Accesibilitatea la date nu este aceeasi pentru toate organizatiile si toate tipurile de date. Accesul
la unele date poate fi restrictionat, aceste date având niveluri diferite de clasificare. Restricții
există pentru unele date folosite de militari, pentru date folosite de unele firme de stat sau
particulare etc. Pot fi restricționate doar datele de o anumită precizie și densitate.

Costul

Culegerea datelor costa circa 75 - 80 % din costul intregului sistem. Uneori e mai bine sa
cumperi date, decat sa digitizezi sau sa faci determinari fotogrammetrice si geodezice. Exista o
legatura directa intre precizie si cost.

Erori rezultate din variația naturală sau din măsurătorile originale


Sursele acestor erori pot fi cele obisnuite, cunoscute din literatura de specialitate, sau unele ce
urmează a se determina. Nu vor fi descrise decât acele tipuri pentru care au fost identificate
procedurile de culegere si validare a datelor tratate în prezenta lucrare.

Precizia pozițională

Precizia pozitională este măsura variantei pozitiei detaliilor fată de pozitia lor reală. Aceasta
depinde de tipul datelor folosite sau măsurate. Precizia caracterizează punctele rezultate din
discretizarea detaliilor punctuale , liniare si areale (erori de digitizare a harții). Indicatorii de
precizie sunt prevăzuți în metadate și sunt stabiliți pe baza metodelor statistice pentru un nivel de
încredere dat (de regulă a=0,05), pentru metoda cea mai imprecisă de determinare a poziției.
Unele detalii, în special cele reprezentate pe hărțile topografice au un nivel mai mare de precizie.
Unele detalii tematice, precum zonele climatice, zonele corespunzătoare tipurilor de sol etc. sunt
cu frontiere interpretabile (imagini generalizate) .

Precizia conținutului

Precizia conținutului se referă la atribuirea corectă a codurilor de identificare în urma aplicării


unei clasificări la conversia datelor în formă numerică (la digitizarea vectorială a hărților, la
interpretarea asistată de calculator a imaginilor etc.). Anumite detalii pot fi de asemenea omise la
această conversie. Alte erori privind precizia cantitativă pot fi prezente datorită necalibrării
instrumentelor de măsurare pentru mărimi precum altitudinea de zbor, pH-ul solului sau
atmosferei, continutului în gaze a atmosferei etc. Unele erori sau greseli de acest tip rezultate în
laboratore sau în teren sunt nedetectabile.
O măsură a preciziei de identificare este coeficientul Kappa (K) al lui Cohen. Pentru o zonă dată,
se construieste o matrice de nX.n elemente, n fiind numărul de tipuri de detalii ale SIG. Pe
coloane se reprezintă tipurile de detalii ale clasificării reale, iar pe linii tipurile de detalii din baza
de date. Dacă cele două tipuri de clasificări coincid, matricea va avea termeni diferiti de 0 numai
pe diagonala principală, o valoare fiind egală cu numărul de aparitii ale elementului cu un cod
dat. În afara diagonalei principale, un termen ri,j al matricei R arată de câte ori a fost interpretat
eronat detaliul i ca un detaliu j. Coeficientul K se determină cu formula

K=(d-q)/(N-q)

unde d este suma elementelor de pe diagonala principală sau numărul de clasificări corecte.

d=Serii, i=1,n

N este suma tuturor elementelor matricei sau numărul total de clasificări, iar q este determinat cu
relația

q=(Suma(i)ri,j+1.ri+1,j)/N, i=1,n, j=i

unde ri,j+1 este suma elementelor liniei i, iar ri+1,j este suma elemenzelor de pe coloana j. Când
există numai clasificări corecte valoarea coeficientului este egală cu 1. În anexa F(e) este arătat
un exemplu de clasificare incorectă a unor detalii si este calculat coeficientul K. În cazul dat
valoarea obtinută este K=0,66. Cu cât K este mai apropiat de 1, cu atât clasificarea este mai
precisă.

Surse ale variației datelor

Variațiile datelor apar datorită erorilor de măsurare ale metodei, celor specifice operatorului și
datorită necalibrării sau calibrării inadecvate a instrumentelor de măsură. De exemplu un scaner
fotogrammetric are o rezoluție radiometrică mai mare decât un scaner cartografic și ca atare și o
precizie mai mare. Precizia fiecărui scaner poate fi degradată după o perioadă mare de utilizare și
posibil datorită necalibrării corecte.

Erori ce apar prin procesare

Erorile datorate procesării sunt cele mai greu de detectat de utilizatorii SIG, trebuie căutate cu
metode specifice si necesită cunostinte suplimentare. Sunt erori subtile care apar în moduri
diferite si pot apare în structuri multiple de date gestionate în SIG.

Erori numerice

Diferitele modele și configurații de calculatoare pot să nu aibe aceeași capabilitate de realizare a


operațiunilor matematice complexe și se pot obține diferențe semnificative ale rezultatelor
aceluiasi algoritm. Testarea se poate face în mod simplu prin ridicări succesive la pătrat, apoi
prin extragerea succesivă a rădăcini pătrate, când ar trebui să se ajungă la numărul de la care s-a
plecat. Altă sursă de erori poate fi chiar defectiunile calculatorului, respectiv ale cipului de bază
al acestuia. Un asemenea caz a apărut la o serie de calculatoare Pentium (tm) ale firmei Intel. O
altă sursă de erori este cea legată de conversia analog-digital (A-D), Deoarece calculatoarele
trebuie să manipuleze datele în format digital, erorile numerice în procesare pot conduce la
rezultate imprecise. În orice caz, erorile numerice de procesare se detectează greu si presupun o
anumită sofisticare care nu e prezentă la utilizatorii SIG de formatie negeodezică.

Erori în analiza topologică

Erorile logice pot duce la manipulări incorecte ale datelor și la analize topologice incorecte. Este
recunoscut faptul că datele sunt eterogene și sunt susceptibile de variații. Suprapunerea
straturilor poate duce la probleme precum poligoane asșhie (pană), neracordări , goluri (depășiri)
etc. Variația preciziei diferitelor straturilor poate fi ascunsă pe timpul prelucrării, ducând la
crearea de "date virtuale care pot fi greu de detectat din datele reale".

Problemele clasificării și generalizării

În cazul gândirii umane, pentru a înțelege un volum mare de date, acestea trebuie clasificate și în
unele cazuri generalizate. Chiar clasificarea este o etapă a generalizării. Cazul ideal presupune
sapte subclase ale unei clase, pentru a fi memorate de om pe termen scurt. Datele sunt
manipulate si afisate mai usor în mici grupe de date. Clasificarea si generalizarea atributelor sau
datelor tematice ale SIG duc la erori de interpolare si pot introduce neregularităti în date care pot
fi detectate greu. O măsură a corectitudinii clasificării este calculul coeficientului Kappa.
Aprecierea generalizării poate fi făcută, asa cum s-a arătat, cu metode ale analizei
informationale.

Erori de digitizare și geocodare

Erorile de prelucrare, erorile surselor și ale metodelor de culegere apar în procesul de culegere și
validare a datelor, respectiv digitizare cartografică, exploatare fotogrammetrică la aparatele
clasice, analitice si digitale, la geocodare etc., la suprapunerea straturilor la intersectările
obiectelor liniare, la intersectările contururilor obiectelor areale, vectorizarea datelor raster,
rasterizarea datelor vectoriale etc. Erorile datorate operatorului pot duce la aparitia unor scurburi
suplimentare, întoarceri, noduri poligonale, bucle etc. Erorile surselor (geoimaginilor) sunt
tratate pe larg în disciplinele de specialitate. Un caz aparte este problema georeferențierii,
întâlnită la aducerea coordonatelor geoimaginilor în sistemul de coordonate al proiecției
cartografice, respectiv în coordonatele bazei de date a SIG. Pentru transformare se pot folosi
diferite functii de aproximare, printre care cele ale rototranslatiei, transformărilor afină si
proiectivă etc.

Probleme ale propagării și cumulării erorilor

Datele provin din multe surse și suferă mai multe conversii sau transformări. Există mai multe
straturi, care trebuie combinate între ele. O eroare a unei date se propagă la alte date care sunt
funcție de acea dată.

Propagarea

Propagarea apare atunci când o eroare a unei date duce la eronarea altei date. De exemplu, dacă
un punct al harții care servește pentru înreSIGtrare a fost digitizat eronat într-un strat și este
folosit apoi pentru orientarea pe un alt strat, eroarea se va propaga în produsul final. În acest
mod, o singură eroare poate duce la altele.

Cumularea

Cumularea apare de la mai multe date eronate și de la mai multe transformări și combinări.
Efectele cumulării pot fi foarte greu de prezis și de detectat. Cumularea poate fi aditivă sau
multiplicativă și poate varia în funcție de modul de combinare a datelor. Datele inițiale trebuie
testate și validate.

Falsa precizie

Nu trebuie să se pună baza pe date gratuite sau cele cu prețuri modice, pentru că este foarte
posibil ca acestea să fie eronate. Trebuie întotdeauna găsite metode de trestare și validare. Datele
trebuie comparate cu cele din alte surse, mai precise. Piața datelor geografice este diversificată.

Pericolele datelor nedocumentate

Datele trebuie documentate prin metadate și prin certificate de calitate.

S-ar putea să vă placă și