Documente Academic
Documente Profesional
Documente Cultură
CAPITOLUL I
INTRODUCERE ÎN MANAGEMENTUL CONŢINUTULUI
În secolul XX, cel mai mare eveniment tehnologic şi social în acelaşi timp a fost
apariţia Internetului. Web-ul a devenit un mediu de publicare a informaţiei. Site-urile
web sunt folosite pentru a promova companiile şi produsele sale, pentru a presta
servicii şi informaţii, pentru a facilita comunicarea. Pentru site-uri medii şi mari, se
pune problema managementului conţinutului lor. De aceea, s-au implementat sisteme
de management al conţinutului.
Publicarea electronică a accelerat exponenţial crearea conţinutului. Astfel, la
sfârşitul anilor ’80 apăruse fenomenul de “supraîncărcare informaţională”, situaţie
agravată de apariţia calculatoarelor personale, care nu permiteau un control
centralizat.
La începutul anilor ’90, calculatoarele personale au început să fie unite în reţea,
lucru care a favorizat apariţia aplicaţiilor centralizate construite în baza principiilor
client-server. Aceasta a dat posibilitatea restabilirii controlului asupra conţinutului
electronic, dînd naştere epocii managementului documentelor.
Situaţia a început să se schimbe pe la mijlocul anilor ’90 odată cu creşterea
popularităţii Internetului. Către anul ’89, Internetul conţinea deja milioane de pagini
web, şi a devenit o afacere serioasă. Managementul documentelor a ieşit din modă,
oferind locul managementului de conţinut web (web content).
Dar euforia din domeniul Tehnologiei Informaţiei (TI) a trecut odată cu
prăbuşirea NASDAQ şi dot.com-urilor în 2000. S-a revenit la soluţii mixte ce conţineau
documente obişnuite (pe hârtie) şi electronice (conţinut web), cu accent pe dispozitive
fără fir (wireless), fluxuri audio/video (streaming) şi alte forme de conţinut electronic.
Ritmul implementării de soluţii de comerţ electronic B2C (afacere către consumator)
(B2C – business to customer) a scăzut, în schimb a crescut interesul faţă de
comunicarea automatizată a conţinutului electronic în afaceri prin intermediul
reţelelor comerciale XML B2B (XML - eXtensible Markup Language, B2B -Business to
Business).
La început, sistemele de management al conţinutului (CMS) erau baze de date
gigantice care puteau căuta rapid şi puteau salva fişiere bazate pe text. FileNet şi
Documentum, o parte a RCM Corp, au fost primele care au realizat un sistem de
căutare şi scanare text şi de documente microfilm.
Odată cu apariţia web-ului, realizatorii acestor sisteme au decis să realizeze şi
produse care puteau să arhiveze şi să caute şi alte feluri de fişiere, în special coduri
executabile şi grafice. Pe această piaţă au intrat, însă, şi Vignette şi Interwoven.
Evenimentele care au marcat dezvoltarea CMS sunt următoarele:
1970 – CM pe mainframe-uri: publicare electronică
1977 – apariţia calculatoarelor personale şi a interfeţelor text
1982 – apariţia interfeţelor grafice
1984 – CM pe calculatoare personale: publicare desktop
1985 – FileNet introduce Visual Workflo
1986 – Quark Xpress
1990 – utilizarea tehnologiei Client-Server
1992 – Lotus Nutes
1993 – Mosaic Graphical Browser
1995 – Vermeer Technulogies Front Page
1995 – Apache Web Server
1995 – CM pe web : publicare web
1995 – CNET PRISM (un sistem de management al conţinutului autorizat
şi sistem de generare a paginii)
1996 - Iulie – Vignette dobândeşte CNET PRISM
1996 - Septembrie – Soft Quad anunţă apariţia Intranetului Hot Meta
L(IBM RS/6000)
1996 - Octombrie – Documentum anunţă apariţia Right Site – Web
Content Management
1996 - Noiembrie – Texture Web Publishing System (necesită utilizarea
unui browser compatibil cu Java)
1996 - Decembrie – Apariţia sistemului de publicare electronică Inso
(dobândirea de Dyna Base, Dyna Text, DynaWeb)
1997 – Apare Macromedia Dreamweaver, Adobe Go Live
1998 – Future Tense Content Server
1998 – Apare TYPO3, un CMS open – source
2000 – Microsoft şi IBM introduc UDDI.
2001 - Decembrie - Documentum achiziţionează Bulldog (DAM)
2001 – Broadvision cumpără Interleaf Bladerunner
2001 – Open Market cumpără Future Tense Content Server
2002 – Documentum achiziţionează Boxcar (syndication)
2002 - Aprilie – File Net achiziţionează sistemul eGrail WCM
2002 – Stellent achiziţionează Ancept (DAM) şi Kinecta (syndication)
2002 - Octombrie – Apare Tiki Wiki - un CMS open source
2002 - Octombrie – Documentum achiziţionează eRoom (colaborare)
2002 - Decembrie – Vignette achiziţionează Epicentric (portal)
2002 – Divine achiziţionează Open Market şi Content Server.
2003 – Red Hat achiziţionează Ars Digita ACS
2003 - Iunie – Interwoven achiziţionează Media Bin(RM)
2003 - August – Open Text achiziţionează Gauss (WCM)
2003 - August – Interwoven achiziţionează iManage (DM)
2003 - Septembrie – Vignette achizi Intraspect (colaborare, KM)
2003 – Fat Wire achiziţionează Content Server cel mai căutat
2004 - Februarie – Vignette achiziţionează Tower (DM)
2004 - August – Interwoven achiziţionează Software Intelligence (RM)
2004 - August – Open Text achiziţionează Artesia (DAM)
2005 – Hummingbird achiziţionează Red Dot (WCM)
Sisteme informatice pentru managementul conţinutului 3
Cei mai mulţi experţi cad de acord asupra noţiunii de conţinut: conţinutul este
reprezentat de „obiecte” din site-urile Web, care pot fi clasificate în două categorii:
Informaţii – text şi imagini care se pot vedea pe un site web în momentul
vizitării acestuia;
Aplicaţiile şi software-ul care rulează pe serverele site-ului Web şi afişează
informaţia către vizitatori.
Unii experţi în domeniu cred că domeniul unui CMS constă doar din informaţiile
gestionate şi utilizate, în timp ce alţi experţi menţionează că acesta constă atât din
informaţii, cât şi în aplicaţii. La prima vedere, definiţia atotcuprinzătoare pare să fie cea
corectă, dar se pune întrebarea: este necesară gestiunea aplicaţiilor în acelaşi fel ca şi a
conţinutului? Cei mai mulţi oameni ar răspunde negativ, invocând faptul că
producătorii de software ar trebui să dezvolte două sisteme diferite – unul care să
gestioneze informaţiile (adică sistemul de gestiune a conţinutului – CMS), iar altul care
să gestioneze aplicaţiile (informaţiile sunt cele afişate în timp ce aplicaţiile determină
modalitatea de afişare a acestora).
Cea mai mare diferenţă între cele două abordări pare să fie faptul că fluxul de
lucru al informaţiei şi al aplicaţiilor variază în mod considerabil şi sunt diferite.
Diferitele abordări, scopuri, utilizatori şi fluxuri de lucru presupun deci, construirea a
două sisteme diferite. Forţarea existenţei informaţiilor şi a aplicaţiilor în acelaşi model
vor cauza complexităţi care nu sunt de dorit nici pentru programatori, nici pentru
utilizatorii sistemului.
Dezvoltarea unui CMS care va funcţiona indiferent de tipul de conţinut
(informaţie afişată sau gestiune de aplicaţii) necesită capacitatea de a menţine şi de a
urmări două fluxuri de lucru în acelaşi timp. Este adevărat că fluxurile de informaţii şi
ale dezvoltării de aplicaţii sunt similare până la un punct: ambele creează, modifică,
aprobă, testează şi lansează conţinut. Totuşi, sunt necesare expertize diferite în
crearea informaţiei în comparaţie cu crearea aplicaţiilor, iar aceste diferenţe se măresc
pe măsură ce se continuă stagiul către lansarea conţinutului.
De asemenea, fluxurile de lucru ale informaţiei şi aplicaţiilor nu sunt la fel. De
exemplu, pentru fluxul de lucru al unei aplicaţii sunt necesari paşi şi instrumente
diferite: analiza şi design-ul sunt mult mai detaliate, existând şi compilarea, testarea de
sistem şi de produs final.
Aplicaţiile sunt mult mai complex imbricate cu site-urile Web ca întreg decât
este informaţia cu site-urile. Pentru multe sisteme CM, legătura dintre aplicaţii şi un
site Web este atât de strânsă încât este necesară închiderea unui site Web înaintea
instalării, lansării sau actualizării aplicaţiei. În schimb, informaţia presupune entităţi
distincte. Este posibil să se adauge, actualizeze sau să se şteargă informaţia dintr-un
site web fără a ne face griji cu privire la închiderea site-ului pentru acest lucru.
Sisteme informatice pentru managementul conţinutului 5
După cum se poate observa pe Web, orice site este alcătuit din mai multe tipuri
diferite de conţinut: text, imagini, obiecte audio, obiecte video etc., abordarea
separată a acestora fiind mult mai uşoară. Motivul principal este acela că se permite
specializarea instrumentelor (utilizarea unui instrument specializat pentru fiecare tip
de conţinut) şi a muncii (un expert în desen nu trebuie să se preocupe, de exemplu, de
scrierea unui articol). Sistemele de gestiune a conţinutului se bazează în întregime pe
conceptul de „bucăţi de conţinut”, termenul utilizat fiind de componente de conţinut.
Granularitatea unei componente de conţinut este determinată de sistemul CM
utilizat. Componentele de conţinut sunt stocate, de obicei, în depozite care utilizează
acelaşi format. De exemplu, imaginile ar putea fi stocate sub formă de fişier formatat
GIF cu înălţimea şi lăţimea predeterminate. De asemenea, componentele de conţinut
ar trebui să aibă înţeles de sine-stătător. Un exemplu de componente de conţinut
poate fi observat în figura următoare.
Într-un CMS, în mod ideal, conţinutul şi livrarea acestuia ar trebui separate complet, de
aici apărînd separarea părţii administrative a CMS în aplicaţia de gestiunea a
conţinutului şi în aplicaţia de gestiune a metaconţinului; fiecare este specializată în
lucruri diferite: conţinut şi livrarea conţinutului.
Motivul principal pentru această separare este faptul că CMA şi MMA au
workflow-uri şi grupuri de utilizatori diferite. Astfel, aplicaţia de gestiune a
metaconţinutului este utilizată de personalul creativ sau de design al site-ului şi
conţine un ciclu de viaţă specific creării interfeţei grafice a site-ului.
Între tipurile de metaconţinut gestionate de aplicaţie putem găsi:
Şabloane
Script-uri client şi server
Aplicaţii compilate server-side
sistem iar utilizatorii pot căuta informaţii în baza de date folosind cuvintele cheie.
CMS-ul ar trebui să permită chiar unui utilizator fără experienţă IT să creeze, să
editeze, să administreze, să publice orice tip de conţinut respectând anumite reguli
care să asigure o afişare corectă a informaţiei dorite. Este uşor de instalat de către
oricine, chiar şi de cei care nu au prea mare experienţă. Cu ajutorul lui se poate crea
un site în câteva minute, după care urmează modelarea după preferinţele şi
necesităţile fiecăruia.
Sistemele de management al conţinutului sunt folosite adesea pentru stocarea,
controlarea documentelor cum ar fi articole, manuale de operare, manuale tehnice,
ghiduri de vânzări şi broşuri de marketing. Astfel, informaţiile prezentate de aceste
sisteme sunt actualizate permanent, iar căutarea unor date mai vechi se realizează
relativ uşor.
1
Real World ASP.NET: Building a Content Management System, Apress, 2002
2
EMC, http://www.emc.com/
Sisteme informatice pentru managementul conţinutului 11
Tipuri de CMS
Dacă orice informaţie care este stocată digital fără nici un fel de organizare
poate fi descrisă ca şi conţinut, atunci un software care se ocupă de gestiunea acestor
informaţii poate fi numit sistem de management al conţinutului. La fel, un sistem de
management al documentelor este cel care se ocupă cu gestionarea documentelor sau
un sistem de management al conţinutului web este cel care se ocupă cu gestionarea
paginilor web. Astfel, putem spune că orice vânzător vede sistemul de management al
conţinutului din perspectiva propriului produs şi ne putem da seama că nu există doar
o formă a sistemelor de management al conţinutului, ci mai multe.
În funcţie de sursa de documentare, există mai multe clasificări ale tipurilor de
sisteme de management al conţinutului. Astfel, conform Wikipedia, avem următoarele
forme:
Un sistem de management al conţinutului web este un software pentru
managementul site-urilor web;
Un sistem de gestionare a muncii pentru publicarea unui articol;
Un sistem de management al documentelor;
Un sistem de management al conţinutului dintr-o singură sursă – unde
conţinutul este stocat într-o bază de date relaţională.
1
Oleg Bularca, Sistem de management al conţinutului pentru Web, Teza de Doctorat, Chişinău, 2006
Sisteme informatice pentru managementul conţinutului 15
După ce au fost stabilite aceste hotărâri, se pot încerca mai multe sisteme de
CM pentru a vedea care se apropie mai mult de dorinţele utilizatorului. Singurul site
care te lasă să te joci cu mai multe CMS-uri open source cu privilegii de administrator
înainte de a-l instala pe site-ul tău este www.opensourceCMS.com. Aici pot fi găsite
mai multe categorii de CMS din care să alegi : Portaluri, Bloguri, e-Commerce,
Groupware, Forumuri, e-Learning, Galerii cu imagini, Wiki, Lite şi Miscellaneous.
Singura problemă este că permite doar aplicaţii bazate pe PHP.
După ce sunt încercate mai multe CMS-uri, se observă că fiecare CMS are
propriile puncte tari şi puncte slabe. Cel mai important este să alegi un CMS care să se
potrivească cu felul în care vrei tu să-ţi organizezi conţinutul. S-ar putea să îţi ia ceva
timp şi efort să înveţi singur cum funcţionează un CMS.
Apoi ar trebui verificată popularitatea CMS-ului. Trebuie făcută o listă cu
popularitatea CMS-urilor, pornind de la numărul celor care vizitează sau votează
aplicaţia. Ar putea fi întocmită o listă bazată pe categorii şi voturi în ordine
descrescătoare. O listă de popularitate care este sortată după categorii şi după cel mai
mare succes. Popularitatea este calculată după următoarea metodă: media aritmetică
a punctajelor tuturor voturilor. Numărătoarea este numărul total de voturi. Hit-ul
indică de câte ori a fost vizitată pagina.
Oferă CMS-ul ales de tine siguranţă, sau nu? Este una din întrebările care ar
trebui puse, deoarece nimeni nu doreşte să aleagă un CMS care să nu ofere siguranţă.
De asemenea, ar trebui hotărîte caracteristicile şi funcţiile dorit în site-ul final.
Următoarele întrebări ar trebui să ajute la fundamentarea deciziei:
introducerea un calendar pentru a ţine evidenţa evenimentelor;
nevoia de un spaţiu pentru upload sau download;
introducerea o galerie de imagini;
posibilitatea ca pe acel site să se şi voteze;
suport pentru mai multe limbi sau suport pentru traducere;
importanţa securităţii şi a permisiilor intrărilor.
1.2. METADATE
Setul de nume şi relaţii din sistemul metatorial conţine baza conţinutului. Fără
baza fundamentală, conţinutul ar fi fără formă şi “slăbit” din toate punctele de vedere.
Metadata reprezintă părţi mici de informaţii sau date ataşate la conţinut şi care permit
facilitarea unor operaţii cum ar fi stocare, catalogare şi repararea (unor erori) ale
conţinutului. Un sistem metadata corect deţine diverse clase de conţinut într-o schemă
bine pusă la punct şi în care componentele conţinutului sunt legate între ele, la fel ca şi
colecţiile, managementul şi publicarea sistemelor testate.
Cuvântul meta poate fi familiar din limbajul HTML unde există acele <meta>
tag-uri. Acest tag era folosit pentru a specifica informaţii despre un fişier HTML. După
părerea unor experţi, cuvântul “meta” s-ar putea traduce cu succes prin “despre”.
Prin urmare, metadata ar însemna o dată despre mai multe date. Termenul
reprezintă un domeniu mult mai vast, așa cum se poate vedea şi pe pagina principală
de web Metadata Coalition1. Aici, înţelesul cuvântului are mai multe caracteristici.
Astfel, metadata:
oferă posibilitatea de a partaja date între aplicaţii. În contextul content
managementului, metadatele permit existenţa de publicaţii care au nevoie
de diferite forme ale aceleiaşi date pe care să le extragă dintr-un depozit
comun;
1
http://www.omg.org/
Sisteme informatice pentru managementul conţinutului 17
1
William R. Durrell, Data Administration: A Practical Guide to Data Administration, McGraw-Hill,
1985
Stocarea
Metadatele pot fi stocate intern, în acelaşi fişier cu datele brute sau extern,
într-un fişier separat. Ambele modalităţi au avantaje şi dezavantaje:
stocarea internă permite transferarea metadatelor împreună cu datele
pe care le descriu, metadatele fiind astfel manipulate cu uşurinţă şi
întotdeauna disponibile. Această metodă creează mari redundanţe şi nu
permite păstrarea împreună a mai multor metadate;
stocarea externă permite introducerea medatelor într-o bază de date,
de exemplu, pentru o căutare mai eficientă. Nu există redundanţă iar
metadatelor pot fi transferate simultan prin utilizarea streaming-ului. Cu
toate acestea cele mai multe formate utilizează URI-uri pentru
specificarea modalităţii în care metadatele sunt legate de datele brute.
Tipuri de metadata
Metadatele de structură
1
http://en.wikipedia.org/wiki/Metadata, preluat 26 ianuarie 2008
Sisteme informatice pentru managementul conţinutului 21
Chiar un exemplu simplu ca cel de mai sus este sugestiv privind metadatele de
structură. In primul rând se observa că nu apare nici o dată, ci doar metadate.
Descrierea este făcută, dar se lasă în afară lucrul care o descrie (pentru simplitate).
In al doilea rând, se observă imbricarea colecţie. Fiecare colecţie de metadata
conţine metadatele din cadrul ei. Interpretarea fiecărei componente se adâncește pe
măsura apropierii de nod, de secţiune, de publicaţie şi chiar de nivelul colecţiei. Astfel,
toate nivele superioare sunt metadate ale componentei (ori meta-metadate, meta-
meta-metadate s.a.m.d).
In final, se observă stratificarea dintre componente, elemente şi paragrafe. In
acest exemplu, un element conţine un paragraf care la rândul lui are altă componentă.
A se urmări acest exemplu mult mai realist:
<ELEMENT>
<PARA>
Acesta este corpul de text şi in el inserez o imagine.
<MEDIA ID="m1" URL="img.jpg">
<SIZE>100,200</Size>
<CAPTION>Aceasta e o componenta separata.</CAPTION>
</MEDIA>
</PARA>
Lucrurile normale par ciudate atunci cand cu adevarat te gandesti
la ele!
</ELEMENT>
Acestea se pot interpreta astfel: ”Iată cum afişez obiectele pe care le înconjor”.
Metadatele de format se pot aplica la orice nivel de structură din sistem. In multe
Sisteme informatice pentru managementul conţinutului 23
cazuri, tagurile structurale sunt cele interpretate şi devin metadate de formă specifice
platformei, după cum se poate observa în acest exemplu,in XML:
<COLLECTION>
<PUB DISPLAY="child">
<SECTION>
<NODE>
<HEADER>...</HEADER>
<COMPONENTS LAYOUT="table">
<COMPONENT>
<ELEMENT TYPEFACE="Arial">
<PARA STYLE="body">
Un <FORMATTAG>text</FORMATTAG>
<COMPONENT>...</COMPONENT>
<PARA>
</ELEMENT>
</COMPONENT>
</COMPONENTS>
<FOOTER>...</FOOTER>
</NODE>
</SECTION>
</PUB>
</COLLECTION>
Mai jos se găsesc câteva dintre conceptele de format prezente în exemplul anterior:
tagul <PUB> are ca atribut <DISPLAY> ca un lucru adiţional la el. Acest
atribut controlează afişarea publicaţiei din cadrul colecţiei. Aceasta are rolul
următor: ”Afişarea publicaţiei într-un cadru copil al colecţiei”. Valoarea
metadatei de afişare controlează, deci, afişarea/formatarea publicaţiei.
Această metadată de obicei se află într-un şablon, nu într-o structură de
conţinut.
tagul <COMPONENT> are ca atribut STYLE. Dacă se afişează paragraful,
formatarea asociată stilului corpului (body) înconjoară conţinuturile
elementului PARA. Pentru fiecare tip de publicaţie care va fi realizată, se pot
asocia diferite coduri de formatare cu acelaşi nume de stil.
tagul <PARA> are ca atribut STYLE. Dacă se afişează paragraful, forma
asociată stilului corpului (body) înconjoară conţinuturile elementului PARA.
Pentru fiecare tip de publicaţie care va fi produsă, se pot asocia diferite
coduri de formatare cu acelaşi nume de stil.
textul text - are ca metadată <FORMATTAG> care îl înconjoară. Daca se
afişează cuvântul, elementele de formatare asociate tagului înconjoară
cuvântul. Pentru fiecare tip de publicaţie care va fi realizată, se pot asocia
diferite coduri de formatare cu acelaşi tag.
orice tag poate avea o formatare asociată chiar dacă nu e special făcut
pentru a fi o metadată de formă. Se poate decide, spre exemplu, ca titlurile
de pe web să fie de mărime 12 şi îngroşate. Pentru a face acest lucru,
trebuie tratat tagul <HEADER> la fel ca şi tagul <FORMATTAG>. În cazul
transmiterii header-ului, trebuie asigurat că aplicaţia din jurul lui are
mărimea 10 ingroşat.
Metadata de acces
<COLLECTION>
<PUB>
<SECTION>
<NODE KEYWORDS="rollup">
<HEADER>...</HEADER>
<COMPONENTS>
<COMPONENT INDEX="term1,term2,term3">
<ELEMENT>
<PARA>
<COMPONENT>...</COMPONENT>
<LINK TARGET="C123"> Pentru mai
multe informatii
</LINK>
Sisteme informatice pentru managementul conţinutului 25
</PARA>
</ELEMENT>
</COMPONENT>
</COMPONENTS>
<FOOTER>...</FOOTER>
</NODE>
</SECTION>
</PUB>
</COLLECTION>
Ierarhia sau secvenţa sunt prezente în acest exemplu. Prin natura sa, limbajul
XML oferă o ierarhie şi o secvenţă predefinită. Pentru a specifica modalitatea de
indexare, se adaugă aceste două atribute:
elementul <COMPONENT> are un atribut de index unde înşiruie
termenii de index pentru componentă.
elementul <NODE> are atribute ale cuvintelor cheie(<KEYWORDS>) care
specifică modul în care nodul tratează termenii de index. In acest caz,
atributul “spune”: ”Înșiruie toţi termenii de index de la toate
componentele ce aparțin nodului”. Intr-o pagina HTML, această
comandă poate rezulta din crearea unui tag <META> la începutul
fişierului HTML care listează toţi termenii de index necesari motoarelor
de căutare.
<INDEX>
<TERM>
<NAME>NOAA</NAME>
<COMPONENTS>C123,C456,C789</COMPONENTS>
</TERM>
</INDEX>
Această abordare este o metodă mai bună de a controla un index mare. In sens
mai realistic, ea plasează metadatele indexului în afara structurii conţinutului dar in
schimb face referire la structură.
Metadatele de management
<COLLECTION>
<PUB ID="p1">
<SECTION ID="s1">
<NODE ID="n1">
<HEADER>...</HEADER>
<COMPONENTS>
<COMPONENT ID="C123">
<TITLE></TITLE>
<ADMIN>
<OWNER>O234</OWNER>
<CREATE>9/23/01</CREATE>
<MODIFY>9/30/01</MODIFY>
<STATUS>Status1</STATUS>
</ADMIN>
<ELEMENT NAME="intro">
<PARA ID="p1">...</PARA>
</ELEMENT>
</COMPONENT>
</COMPONENTS>
<FOOTER...</FOOTER>
</NODE>
</SECTION>
</PUB>
</COLLECTION>
Sisteme informatice pentru managementul conţinutului 27
Metadatele de includere
<ELEMENT>
<PARA>
Acesta este corpul de text şi in el inserez o imagine.
<MEDIA ID="m1" URL="dabw.jpg">
<SIZE>100,300</SIZE>
<CAPTION>Aceasta este o componenta separata. </CAPTION>
</MEDIA>
</PARA>
Lucrurile normale par ciudate atunci cand cu adevarat te gandesti
la ele!
</ELEMENT>
<ELEMENT>
<PARA>
Acesta este corpul de text şi in el inserez o imagine.
<INCLUDE REFID="m1">
</PARA>
Lucrurile normale par ciudate atunci cand cu adevarat te
gandesti la ele!
</ELEMENT>
<ELEMENT>
<PARA>
Acesta este corpul de text şi in el inserez o imagine.
<IMG SRC="dabw.jpg" WIDTH="100" HEIGHT="300">
<H6>Aceasta este o componentă separată<H6>
</PARA>
Lucrurile normale par ciudate atunci cand cu adevarat te gandesti
la ele!
</ELEMENT>
Apar şi aici unele probleme: imaginea şi descrierea acestei sunt blocate în acest
loc. dacă imaginea trebuie reutilizată, trebuie recopiate tag-urile de includere a
imaginii şi a descrierii acesteia. Prin utilizarea unei referinţe, de exemplu, se evită
recopierea în mai multe locuri şi, în plus, se pot schimba toate instanţele unei
componente prin schimbarea într-un singur loc.
Tagurile <INCLUDE> din aplicaţiile web dinamice sunt esenţiale, permiţînd
scrierea o singură dată a unei componente şi „includerea” ei în mai multe pagini. În
aplicaţiile de gestiune a conţinutului acest proces de scriere o singură dată şi de
reutilizare înlocuiesc procesul de includere din aplicaţiile web dinamice.
Pana acum s-a vorbit despre limbajul XML. In XML, toate metadatele se reduc
la elemente şi atribute. O abordare mai generală ar fi să se clasifice metadatele nu
după înţelesul lor, ci prin valorile pe care le pot lua. Trebuie menţionat modul în care
structura unei baze de date relaţionale reprezintă metadatele. Se considera următorul
tabel al unei baze de date:
Figura 1.4. Liniile sunt limitele componentei iar coloanele sunt limitele elementului.
Conţinutul este în micile căsuţe ale reţelei. Restul reprezintă metadata, aşa cum
descrie lista de mai jos:
Numele coloanelor reprezintă metadata de structură şi delimitează
limitele elementului;
Liniile sunt metadata de structură care delimitează limitele
componentei;
Metadatele de tip management sunt prezente în ID, Nume, Tip, Autor şi
coloanele tipului angajatului;
Metadatele de includere sunt în coloana ImagePath.
Sisteme informatice pentru managementul conţinutului 29
Câmpurile metadata care pot fi găsite într-un sistem CMS pot fi clasificate în
următoarele categorii:
Text liber - unde valoarea câmpului poate fi numai un text string. Titlurile,
spre exemplu, sunt de atâtea feluri fiindcă fiecare titlu e diferit;
Textul constrâns - unde valoarea câmpului este text, dar textul trebuie să
respecte nişte reguli. Un câmp metadata “Body Text”, poate, de exemplu,
permite orice caracter ASCII împreună cu codurile HTML pentru bold, italic
şi underline. Sau se pot impune câmpului reguli privind limite de lungime,
limite la numărul de caractere care se pot pune în acel câmp;
Şablon de text - unde fiecare valoare a câmpului trebuie să urmeze nişte
reguli particulare de formatare. Datele şi timpul se încadrează în această
categorie pentru că se pot forma numai într-un număr limitat de moduri;
BLOB (Binary Large Objects) - unde valoarea câmpului este orice dată
binară care poate fi interpretată de unele aplicaţii. Imaginile şi alte câmpuri
media sunt exemple de câmpuri BLOB;
Boolean - unde valoarea câmpului poate fi “adevărat” sau “fals”. E posibilă,
de exemplu, crearea unui câmp numit “Public”. Dacă această valoare e
adevărată utilizatorii pot vedea componentele într-un web site public.
Liste închise - unde utilizatorii pot alege valoarea dintr-un set predefinit de
valori. Se poate crea, de exemplu, un câmp “Stare revizuire”, unde acesta
este una dintre 10 posibile valori.
Liste deschise - unde utilizatorul poate alege valoarea dintr-o listă sau
poate adăuga noi intrări la lista, pentru ca apoi să le aleagă. Se poate crea,
de asemenea, un câmp “Cuvinte cheie”, unde utilizatorul poate ori selecta
una dintre cuvintele cheie din lista existentă sau poate adăuga alta nouă.
Dacă se utilizează liste deschise, trebuie asigurat faptul că ceilalţi utilizatori
adaugă obiecte noi într-o manieră controlată şi responsabilă;
Identificator unic - unde valoarea trebuie să difere de valorile celorlalte
câmpuri. Toate componentele ar trebui sa aibă un câmp ID care să poată fi
localizat uşor în orice bază de date;
Liste ierarhice - unde utilizatorii pot alege valori dintr-o listă ierarhică. Se
poate crea, de exemplu, un câmp numit “Produs” de unde utilizatorul poate
selecta un produs dintr-o listă schiţată de categorii de produse şi produse;
Câmpuri combinate - care sunt alcătuite din una sau mai multe dintre
tipurile precedente. Se poate, de exemplu, să se creeze un câmp “Legătură”
care să fie o combinaţie dintre o listă rezumat şi un câmp referinţă. Pentru a
completa în câmp, utilizatorul alege dintr-o listă rezumat toate
componentele disponibile. Ce ea ce este stocat în acel câmp reprezintă o
referinţă la o componentă.
Se observă că aceste categorii se întind de-a lungul a două domenii: cum se
completează informaţia în acel câmp şi ce rămâne stocat în câmp. Câmpurile
combinate ilustrează conceptul foarte bine: un tip de câmp specifică interfaţa
utilizatorului (rezumat, spre exemplu), şi unul e responsabil cu stocarea. In acest sens,
este “foarte CMS” - vedere centrala a tipurilor câmpurilor care se axează pe ceea ce
este mai important la sistemul managerial şi utilizatorii lui. O abordare mai generală (şi
mai puţin utilă) este o vedere centrală a datelor şi axarea pe tipul datei din câmp (este
text, întreg, număr real, BLOB etc.)
1
http://en.wikipedia.org/wiki/Carolus_Linnaeus, http://www.ucmp.berkeley.edu/history/linnaeus.html
Sisteme informatice pentru managementul conţinutului 31
într-o carte sau pe vizitatorii unui site web să găsească informaţii într-un jurnal
electronic. Taxonomiile sunt utilizate de cumpărători pentru a localiza produse şi
servicii, de manageri să găsească sursele de expertiză şi să construiască comunităţi de
practică ce includ experţi care lucrează în probleme de cercetare înrudite.
Structurile de taxonomii pot eficientiza procesele automatizate. De exemplu,
termenii taxonomici pot fi utilizaţi într-o interogare a unui motor de căutare pentru a
ajuta utilizatorii să găsească informaţiile mai uşor sau pot fi utilizaţi într-un program de
filtrare pentru a personaliza alertele de email sau site-urile web. Aplicaţiile
taxonomiilor au trei elemente cheie: oamenii, sarcinile şi sursele (conţinutului).
Trebuie să notăm că aceiaşi structură taxonomică poate servi în mai multe aplicaţii şi
poate fi aplicată diferitelor tipuri de conţinut (articole, cărţi, video, vorbire etc).
Un număr de companii, printre care Inxight Software, Mohomine şi Metacode
susţin că pot interpreta contextual semantic al oricărui document text şi să clasifice în
mod automat textul, din zbor. Acestea utilizează:
Liste de termeni standard („maritim” în loc de „ocean”);
Relaţii ierarhice („transport” este un termen subordonat „industrie”);
Referinţe încrucişate (transportul pe barcă poate fi interpretat ca
„transport pe mare” sau „transport maritim”).
În ciuda acestor instrumente automatizate, cei mai mulţi analişti dezvoltă
taxonomii pa baza inteligenţei lor.
Într-o organizaţie o parte particulare de informaţie poate avea un număr diferit
de utilizări iar diferiţi angajaţi pot avea perspective diferite asupra părţii respective de
informaţie. De exemplu, presupunem încheierea unui contract cu un client. Unde ar
trebui să rezide această informaţie în taxonomia organizaţiei? Răspunsul depinde de
cine caută informaţia respectivă. Departamentul juridic va spune ca acel contract ar
trebui să rezide în categoria contracte ale acelui client. Din cauză ca acel contract
reprezintă şi un activ contabil, departamentul de contabilitate ar sugera înregistrarea
în categoria active. În cele din urmă, departamentul de vânzări ar vedea documentul
înregistrat ca parte a relaţiei cu clientul.
Mai mult, multe portaluri din ziua de astăzi suportă facilitatea de a crea
taxonomii personalizate pentru un utilizator. Ne reamintim faptul că, deşi pot exista
vederi diferite asupra aceluiaşi document, numai un document fizic poate exista. În
general, portalul stochează numai documente care stochează metadate în
infrastructura organizaţiei, fiind astfel stocată locaţia fizică a documentului astfel încât
portalul să poată obţine documentul în momentul în care este cerut de utilizator.
Documentul real poate să rezide oriunde în infrastructura organizaţiei (server de
fişiere, bază de date, site-ul web al companiei sau într-o bază de date Lotus Notes, de
exemplu). Atât timp cât taxonomia urmăreşte documentul virtual într-un depozit de
documente, utilizatorii nu trebuie să aibă probleme în găsirea acelui document.
Documentele sunt partiţionate în grupări logice care sunt uşor de navigat.
Acestea permit utilizatorilor să găsească informaţia chiar dacă încep căutarea cu un
singur cuvânt. Categoriile dintr-o taxonomie se mută de la general către specific,
facilitând căutările iterative şi de adâncime prin care atât utilizatorii începători cât şi
cei avansaţi pot naviga rapid.
O categorie dintr-o taxonomie poate fi utilizată pentru a limita scopul căutării,
reducând astfel numărul de documente irelevante returnate. De asemenea, categoria
facilitează navigarea în conţinut, permițând utilizatorilor să traverseze un număr mare
de documente înrudite.
Informaţia este filtrată pe baza atributelor din fiecare categorie. Taxonomia
dintr-un portal este creată pentru a prinde toată informaţia din acel porta şi de a o
plasa în locurile potrivite în taxonomia organizaţiei.
Taxonomiile oferă flexibilitate în regăsirea conţinutului. Una din problemele
centrale legate de găsirea informaţiei este faptul că un cuvânt poate avea mai multe
înţelesuri. Ambiguitatea unei limbi face căutarea mai dificilă deoarece sunt omise
obiecte care sunt marcate cu cuvinte diferite dar înrudite, sau sunt aduse pe ecranul
utilizatorului rezultate eronate un cuvânt cu sens prea larg a fost asignat unor obiecte.
În cazul unui proiect două sau chiar toate trei modalităţile de abordare pot
aduce beneficii. Trebuie ţinut cont de faptul că, taxonomia nu este completă atît timp
cît se adaugă conţinut nou, acestea evoluând în timp ca răspuns la cererile de
schimbare venite din partea utilizatorilor.
1
Taxonomy and Content Classification: Market Milestone Report," April 11, 2002
Sisteme informatice pentru managementul conţinutului 33
Imaginea de mai sus arată plasarea „topic map” într-o structură taxonomică
ipotetică. După cum se poate observa, structura poate ajuta pe cineva care caută
informaţii despre „topic map” sau clasificarea documentelor legate de „topic map” să
utilizeze termenii potriviţi.
Observăm faptul că taxonomia ajută utilizatorii să descrie subiectele; din
punctul de vedere metadatelor nu există diferenţă între un vocabular simplu şi
controlat şi o taxonomie. Metadatele leagă obiectele de subiecte în timp ce aici
subiectele au fost aranjate într-o ierarhie. Deci, o taxonomie descrie subiectele
utilizate pentru clasificare dar nu însăşi metadatele; totuşi, poate fi utilizată în
metadate. Acest lucru este ilustrat în figura următoare:
1
http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html
Sisteme informatice pentru managementul conţinutului 35
1.4. ŞABLOANE
1
http://en.wikipedia.org/wiki/Web_template_system, preluat 26 ianuarie 2008
Sisteme informatice pentru managementul conţinutului 37
De obicei, un motor şablon face parte dintr-un sistem şablon de web sau un
cadru de lucru şi poate fi utilizat ca şi un pre-processor, filtru sau procesor de şabloane.
In mod curent, software-ul de procesare a şabloanelor este în mod frecvent utilizat în
contextul dezvoltării web-ului.
XSTL este un model de procesare a şabloanelor realizat de către W3C 1, fiind
realizat în primul rând pentru transformările din datele XML în documente web sau
alte output-uri.
Limbajele de programare ca PERL, RUBY, C şi JAVA susţin procesarea
şabloanelor fie nativ, fie prin bibliotecile add-on şi diverse module. JavaServer Pages
(JSP), PHP şi Active Server Pages (ASP cu VBScript, Jscript sau alte limbaje) sunt
considerate motoare de şabloane web.
Caracteristici
<html>
<h1>Hello {$X}</h1>
</html>
1
http://www.w3.org/TR/xslt, XSL Transformation
$data[01]='Mother'; $data[02]='World';
templateAssign('X', $data[$i]);
Procesorul şablon
Elementele sistemului
Modelul de date
Şablonul sursă
Motorul şablon
Documente Rezultate pot fi sub forma unui document întreg sau a unui fragment de
document.
Utilizare
Funcţionalitatea aplicaţiei
Comparaţie
Documentele generate
Instrumente pentru generarea codului sursă suportă generări de cod sursă (ca
şi documente rezultate) de la modele abstracte de date (ex: UML, date relaţionale,
stocări de date specifice unui domeniu dintr-o organizaţie) pentru domenii de aplicații
particulare, organizaţii particulare, sau in simplificarea procesului de producere pentru
programatori.
1.5. PUBLICAŢII
Dacă s-ar putea extinde aceste definiţii, s-ar putea spune că publicare poate
însemna şi audienţă. Dar, în mod cert, anumite publicaţii nu sunt publice. Multe din
publicaţiile din cadrul unei afaceri se restricţionează la un anumit grup de oameni (de
obicei la personal, parteneri sau cei care plătesc).
„A publica” înseamnă a lansa informații. Pe baza definiţiei de mai sus, orice
conţinut disponibil unor persoane reprezintă o publicaţie. Definiţia se poate închide
sau restrînge prin specificarea faptului că o publicaţie reprezintă informaţia făcută
disponibilă, care este unificată şi care are următoarele caracteristici:
Are un scop: în plus faţă de scopul pentru care se creează fiecare publicaţie,
trebuie determinat modul în care fiecare scop al publicaţiei se leagă de
obiectivele întregului sistem şi de a celorlalte publicaţii produse de sistem;
Editorii: trebuie creată o echipă responsabilă cu continuarea compoziţiei,
testarea şi lansarea publicaţiilor şi să se decidă cum să interacţioneze cu echipa
sistemului CMS;
O audientă: în plus faţă de decizia cu privire la persoanele pe care le deserveşte
fiecare publicaţie,trebuie relaţionată audienţa acesteia cu alte entităţi din CMS;
Un set de mesaje: pentru asigurarea ca fiecare publicaţie a atins precis
audienţa dedicată ei, trebuiesc definite modurile prin care publicaţia este
transmisă, cu o bună înfățișare şi cu mesaj convingător;
Calitatea de autor: pentru fiecare publicaţie (presupunând că are mai mulţi
autori, ca în cazul sistemului CMS), trebuie decis care dintre aceştia să fie citat
ca autor al întregii publicaţii şi care au atribuţii în cadrul publicaţiei;
Conţinut: trebuie să se decidă care clase de componente să fie incluse în
publicaţie. Dacă nu se intenţionează publicarea fiecărei instanţe a unei clase,
atunci trebuie găsită metadata care separă instanţele, pentru a separa
instanţele care să se includă de cele care să nu fie;
Structură: în plus faţă de deciderea principiilor generale, indexul, încrucişarea
de referinţe şi structura de navigare a publicaţiei, trebuie decis modul în care
fiecare dintre aceste structuri sunt relaţionate cu structurile CMS de acelaşi tip.
Se pot obţine principiile generale ale publicaţiei din schiţa conţinutului care
deţine toate componentele, de exemplu, sau trebuie găsită o altă modalitate
de a genera cuprinsul publicaţiei?
Cicluri: Ca şi intrare a modulului de workflow, trebuie stabilit cât de des trebuie
publicaţia să fie reîmprospătată, marcată ca o nouă versiune şi revăzută ca
proiect de bază şi de construcţie.
Aceste calităţi care sunt date informaţiilor lansate, se unesc şi ajung într-o
comunicare inteligibilă care are greutate şi autoritate. Deşi aceste calităţi sunt
importante, utilizatorii de obicei le neglijează (le cunosc dar le uită).
Scopul publicaţiei
Fiecare autor ştie care este scopul publicaţiei lui – de exemplu pentru scriitori
(editori) este acela de a obţine profit de pe urma vânzării cărţilor. Pentru reviste, este
acela să obţină profit din promovarea conţinutului către un grup de oameni ţintă.
Indiferent de obiectivele lor, editorii clasici ştiu să adune, să controleze şi să publice
conţinutul pentru a-şi atinge scopurile.
Scopul adevărat se poate comunica în câteva fraze. Dacă cineva le aude,
persoana respectivă poate să-şi imagineze imediat ce face part din conţinut şi ce nu,
sau dacă conţinutul este interesant sau nu pentru el precum şi ce întrebări şi interese
va satisface.
Editorii
Editorii sunt oamenii din spatele publicaţiilor care depun timp şi efort pentru a
asigura lansarea publicaţiilor. Grupul de publicare poate sau poate să nu includă autorii
conţinutului. Intr-o lume a sistemelor de informaţionale ale corporaţiilor, autorii sunt
rareori cei care le publică. Cei care le publică de obicei sunt un grup mic de experţi
tehnici şi de editare care preiau ce au creat autorii şi transformă acest conţinut într-un
site web sau alte tipuri de publicaţii.
Înainte ca sistemul să fie lansat, cei care publică reprezintă echipa care se
ocupă cu proiectul CMS. După ce sistemul este terminat şi rulează, echipa care se
ocupă cu proiectul trebuie să se transforme într-o echipă de publicare care asigură
faptul că fiecare publicaţie continuă să funcţioneze şi să fie disponibilă audienţei sale.
Cei care publică se asigură că publicaţiile îşi îndeplinesc scopul şi, în lumea electronică,
se asigură că publicaţia “merge” (nu clachează sau „se strică”). O singură publicaţie
poate avea are următorul “personal”:
Într-un CMS aceste resurse se vor partaja între publicaţii, creând eficienţă de-a
lungul acestora dar şi poate însemna faptul că oamenii pot să-şi piardă concentrarea
asupra publicaţiilor deoarece grija principală este sistemul. Acest ultim lucru se poate
evita prin crearea unei imagini asupra sistemului specificându-i doar rolul de obiect de
bază în crearea publicaţiilor interesante.
Audienţa
Dacă o publicaţie este o conversaţie, atunci se pot lua aceste mesaje date de
publicaţii. Se consideră următoarea conversaţie ipotetica între Laura şi o serie de site-
uri pe care acesta le vizitează:
Site 2: Bine aţi venit în Lumea Imprimantelor. Cunoaştem totul despre imprimante şi
dorim să vă împărtăşim şi vouă aceste informaţii. Experţii noştri caută informaţii
despre imprimante pe glob şi o prezintă aici. Click aici pentru mai multe...
Laura: Acest lucru înseamnă că vindeţi cartuşe de imprimantă? (Click pe link-ul
prezentat de site.)
Sisteme informatice pentru managementul conţinutului 47
Site 2: Cu mai multe de 200 de experţi contributori, noi ştim despre ce vorbim. Ce
doriţi? Intrebări frecvente despre imprimante? Specificaţii de imprimante? Părţi din
imprimante?
Laura: Poate e pe unde în Părţi din imprimante? Las-o baltă! Următorul site. (Click la
site-ul 3.)
Laura încearcă să aibă o conversaţie cu fiecare site vizitat. Site-ul nr. 1 o ignoră
complet, aşa că trece peste el. Site-ul nr. 2 răspunde la întrebarea ei, dar nu într-un
mod care poate fi înţeles. Totuşi, are un răspuns, deci ea continuă conversaţia. Ea face
click şi se pune întrebarea iar. La acest site, Laura este dezamăgită pentru că nu i se
răspunde în conformitate cu problemele ei şi trece la următorul. Site-ul nr. 3 răspunde
la prima întrebare destul de bine ca să o facă pe aceasta să-şi mărească interesul şi să
continue conversaţia. Acest site o ajută să-şi dea seama ce fel de imprimantă are şi
astfel să facă rost de cele 2 cartuşuri, şi să plece satisfăcută.
Primele doua site-uri sunt rele? Pentru Laura au fost. Site-urile nu au putut
răspunde la întrebările Laurei, şi atunci aceasta a încetat conversaţia. Pentru cineva
care vroia să câștige o vacanţă, primul site avea dialogul cel mai bine pregătit. Pentru
cineva care avea probleme la imprimante site-ul 2 era cel mai potrivit. Pentru persoane
care caută cartuşe, site-ul 3 era cel mai potrivit.
Un site sau alte publicaţii oferă mesaje indiferent dacă se doreşte acest lucru
sau nu. Aici se găsesc câteva întrebări pe care audienţa le poate pune publicaţiei
respective:
Calitatea de autor
Fiecare lucrare publicată provine de undeva. Niciodată nu se vor citi, privi sau
asculta fără a avea consideraţie faţă de cel care a creat-o. Ce se întâmplă dacă o
publicaţie nu e “semnată” de nici o persoană? Atunci se va găsi calitatea de autor la
motorul de căutare al site-ului Google? La prima privire, răspunsul este “nu”. Google
nu creează conţinutul, ci doar îl expune. Google reprezintă un punct de agregare unde
toată lumea îşi expune publicaţia. Google este autorul site-ului lui. Dacă nu se găseşte
ce se caută, se pune vina pe cineva? Google, de exemplu este un nume răspândit.
Calitatea de autor este o parte flexibilă a contextului la care oamenii pun în jurul lui
orice conţinut pentru a-i determina credibilitatea şi înţelesul.
Putem considera următoarele propoziţii:
Lumea este plată. - Joe Nimeni (un tip de care te loveşti pe stradă)
Lumea este plată. - Alan Greenspan (Preşedintele U.S. Federal Reserve)
Forma publicaţiei
Forma publicaţiei poate avea doua înţelesuri: modul în care este codată
informaţia şi codurile care sunt folosite în vizualizarea informaţiei transmise. O
publicaţie are nevoie de ambele forme.
In general, un site web foloseşte un sistem de tip ASCII pentru a stoca limbajul
HTML. Aproape fiecare procesor de cuvinte sau instrumente de aşezare în pagină
poate decodifica şi manipula ASCII. Codurile de formatare pe care HTML le utilizează
prin folosirea codului ASCII se codifică, dar trebuie să aibă loc şi un proces prin care să
se facă vizualizarea/transformarea acestora în informaţii. Browsere-le web şi variantele
recente de procesoare de cuvinte pot decodifica şi manipula codul HTML de formatare.
Sisteme informatice pentru managementul conţinutului 49
Structura publicaţiei
Până şi cea mai mică publicaţie are o structură. Chiar şi fluturaşii care anunţă
ceva anume au un scop şi o structură bine definită. Se pot vedea şi anumite detalii care
apar subordonate titlului şi care au o anumită mărime şi poziție. In final, se pot observa
şi indicaţii ale unui autor sau ofertantul flyer-lui. Totuși, daca ne referim la publicaţii,
cu cât sunt mai complexe, cu atât au o structura mai avansată.
Publicaţiile pot avea toate structurile de acces: ierarhii, indecşi, referinţe
încrucişate şi secvenţe. De asemenea, pot deţine şi toate metadatele de structură de la
caractere la grupuri de publicare. Intr-o perspectivă CMS, poate cea mai importantă
structură este “nodul”. Deşi structura cheie a unui sistem CMS este “componenta”,
cheia unitate a publicaţiei este “nodul”. Nodul este mărimea unităţii de bază a unei
publicaţii. In cadrul publicaţiilor web, această unitate este reprezentată de o pagină.
Deci, o publicaţie web este formată din mai multe pagini.
În majoritatea publicaţiilor electronice (aplicaţii CD-ROM, sisteme de asistenţă),
nodul reprezintă tot un fel de pagină. Este conţinutul care apare pe ecran ca o unitate.
îl poţi stoca într-un fişier sau bază de date, dar întotdeauna apare în faţa cititorului
publicaţiei ca o unitate.
In publicaţiile printate, nodul nu este uşor de identificat. De obicei, publicaţiile
printate depăşesc limitele dintre unităţi în favoarea abordării narative continue. Totuşi,
şi cele mai complexe romane au capitole. Fiecare pagină albă este un nod al paginii
albe în general. Cărţile mai bine structurate au conţinutul pe nivele variate de titluri,
care reprezintă o unitate mai mică a întregului conţinut. Revistele folosesc articolele ca
unitate de bază. Fiecare articol este un întreg mai mic al publicaţiei mari. Singurul
cuvânt care se aplică la publicaţiile imprimate în acelaşi mod în care cuvântul pagină se
aplică la publicaţiile electronice, este secţiunea.
Cel mai important la un sistem CMS este faptul că nodul este unitatea
publicaţiei pe care şablonul publicaţiei o creează. Dacă se rulează un şablon, rezultă un
nod al publicaţiei. Acest lucru se observă cel mai clar pe web, unde un şablon aproape
întotdeauna produce o pagină HTML. Este mult mai greu de observat la cele printate,
unde un şablon poate produce o bucată mare din publicaţie cu mai multe secţiuni.
Totuşi, în publicaţiile printate create de un sistem CMS, se observă nişte noduri
dimensionate produse de un singur şablon.
Dacă există mai mult de o publicaţie, trebuie avute în vedere trei structuri: câte
una pentru fiecare publicaţie şi încă una pentru conţinut, atunci când acesta nu se află
în nici o publicaţie. Ca să se producă mai mult de o publicaţie cu acelaşi conţinut bazat
pe un sistem CMS, conţinutul de bază trebuie să fie bine structurat, pentru a putea
deriva structura din publicaţia mai mică de la structura conţinutului de bază. Sau,
trebuie stocate structurile publicaţiei undeva în afara publicaţiei propriu-zise, unde
personalul sistemului CMS le poate actualiza şi edita.
Publicaţiile bune sau mai puţin
Primele două probleme privesc scopul şi audienţa. Dacă o publicaţie este utilă,
utilizatorul poate spune imediat dacă aceasta conţine arii de interes pentru el, iar dacă
face parte din audienţă, conţinutul poate fi înţelese de utilizator. Totuşi, pe web poate
apărea problema legăturilor între site-uri, care pot conduce utilizatorul direct în
mijlocul unei lucrări, ceea ce nu poate informa utilizatorul despre scopul şi audienţa
acesteia.
Cea de-a treia problemă este legată de navigarea către o publicaţie, care poate
apărea în cuprinsul site-ului dar nu există link-uri către publicaţia efectivă.
Publicaţiile şi şabloanele
<FIND type="PressRelease">
<WHERE>
Author=Jon Doe
</WHERE>
</FIND>
Sisteme care folosesc aceasta abordare pot cere pe drept ca sistemul lor de
şabloane să folosească standarde open ale XML-ului. Ele folosesc aceste standarde
pentru a crea un limbaj de programare al lor, care oricum trebuie învăţat. Se poate să
nu fie posibilă integrarea instrumentelor XML, DOM, XSLT în acest tip de sistem.
In final, unele produse CMS folosesc standarde de şabloane XML, XSLT. Pentru
că XSLT are XML ca un loc de plecare, sistemele care utilizează XSLT trebuie să stocheze
conţinutul doar în XML. In plus faţă de folosirea limbajului XML pentru a crea şabloane,
sistemul poate să nu fie capabil să publice limbajul XML transformat. Orice sistem CMS
care permite stocarea XML poate avea ca ieşire tot XML. Unele sisteme CMS de
publicare şi sindicalizare pot transforma codul XML care îl stochează (sub un DTD în
XML) sub un DTD diferit pentru sindicalizare sau publicare, la dispozitive care înțeleg
un DTD particular (unele pentru telefoane care au protocoale pentru aplicaţii wireless
sau e-books, de exemplu).
Indecşii
Pentru mulți experţi, cuvântul “index” şi tema care rulează între cuvinte cheie şi
tezaure este “harta”. Un index oferă o harta între cuvintele şi conceptele celui care
caută şi cele din sistem. Indexul de cuvinte cheie, de exemplu, este o harta între
cuvântul căutat in lista de căutare şi pagina web corespunzătoare. Tezaurul este o
harta între cuvântul ales şi toate celelalte cuvinte care ar fi putut fi alese daca s-ar
cunoaşte modul in care sistemul descrie conţinutul.
Scopul indexului este de a ghida utilizatorul de la cuvintele pe care le ştie către
cele pe care le caută.
Intr-un sistem CMS şi publicaţiile sale, indecşii au următoarele caracteristici:
prezintă tot vocabularul: orice cuvânt sau expresie importanta din sistem
sau din publicaţie ar trebui sa apăra intr-un asemenea index;
prezintă concepte: indecșii prezintă conceptele pe care sistemul sau
publicaţia le folosește. De exemplu, PLAN îşi poate indexa aparițiile de presă
sub termenul “programe de actiune împotriva sărăciei” chiar daca acea
expresie nu apare in aparitie;
includ sinonime. Un index bun include de asemenea, şi vocabularul şi
conceptele audientei respective. Conceptele de “a se vedea si..” (see also)
conduc utilizatorul poate nu la aceiaşi expresie ci la expresiile sinonime din
sistem.
ordonează vocabularul şi conceptele. Bineînțeles,cea mai populara ordine in
index este cea alfabetica. Dar sunt posibile şi multe altele. Indexări după
date, autor, locație, tipuri media, sau orice alta parte de metadata posibila
şi comuna.
Indexul de tipărire (așa cum apare in cele mai multe cărţi) este un dispozitiv de
indexare elegant şi folositor, pe care mulţi l-ar adopta, la fel ca pe un cuprins. O parte
din motivul pentru care nu este adoptat, este acela ca puţini pot scuti efortul extra
necesar pentru a pune laolaltă un index bun. Dar chiar şi acelea care includ o funcție
extinsa de cuvinte cheie in site-urile lor, de obicei omit câteva lucruri intr-un index de
tipărire:
Ierarhia. Un index de carte foloseşte doua nivele de expresii pentru a face
mai uşoară listarea termenilor şi subtermenilor;
Numărul paginii. Un index de carte listează numerele de pagini la care s-a
găsit termenul. Se poate ştii care este termenul important deaoarece acesta
este îngroşat sau cumva marcat altfel;
Capacitatea de a scana conţinutul. Se pot avea mai mult de 100 de termeni
pe o pagina a unui index. Se pot scana porţiuni mari din index foarte repede
şi eficient pentru căutarea cuvântului respectiv;
Asocieri. Liniile “vedeti si..” dintr-un index permit găsirea unei referinţe
apropiate a termenului sau mişcarea in index.
Acest lucru este ignorat din cauza ignorantei, a costului,a rezoluţiei ecranului şi
„tirania” interfeţei standard cu utilizatorul. Nu toţi designerii de web știu cum
funcționează indexurile tiparite. Trăsăturile extinse ale unui index sunt costisitoare
pentru crearea în web iar monitorul nu oferă aceiaşi densitate de informaţie ca şi o
pagina imprimată.
La încheierea discuţiei despre indecşi, trebuie să arătăm ca aceştia sunt un caz
special de ierarhie. Un exemplu de ierarhie pe două nivele poate fi observată în
exemplul următor:
Content Management
Vezi si „Digital Asset Management”
Enterprise Content Management
Lista de Sisteme de Gestiune a Continutului
Portal
Portaluri Organizaţionale
Portaluri web
Portaluri in jocuri video
Portaluri in Fictiune
Tipul indexului din ierarhie nu poate substitui cuprinsul (deşi se poate încerca şi
acest lucru) ci constituie totuşi, o ierarhie.
Sisteme informatice pentru managementul conţinutului 55
Prima coloana listează termenii din index, în timp ce a doua coloana listează ID-
urile componentelor la care indecşii se aplică. In aplicaţii reale se pot face modificări la
acest format simplu pentru a-i îmbunătăţii calitatea. In primul rînd, se pot dori două
nivele de indecşi. Pentru a realiza acest lucru,trebuie sa se prezinte cumva un rezumat
in tabel: un set de cîmpuri sau se poate face ceva mai simplu dat fiind ca sunt doar
două nivele şi că sunt in ordine alfabetică. Toţi programatorii ar prefera sa nu listeze
toate ID-urile componentelor intr-o coloană. Mai bine ele se pun într-o tabelă separata
sub forma de tabel care are doar un ID pe coloana. Partea dificilă a indecşilor nu este
partea de creare a tabelelor bazei de date, ci efortul depus in indexarea conţinutului.
Daca sistemul este creat pentru a produce pagini web, mulţi ar fi tentaţi sa asocieze
cuvintele cheie din indecşi cu paginile web. Cei mai multi indecsi din paginile web
actuale folosesc tag-uri <META> pentru a crea cuvinte cheie pe care site-ul lor le poate
utiliza, la fel ca şi orice motor de căutare web, după cum urmează:
Aceasta este o abordare destul de realista in cele mai multe cazuri si singura in
cazul indexării paginilor web. Nu este nevoie de crearea unui index in sistemul CMS
care refera componentele (si nu paginile). In timpul creării unei pagini este destul de
uşor să se introducă valori în tag-ul <META> din termenii de index ale fiecărei
componente din pagină. In acest mod, pe măsură ce componentele sunt adăugate sau
şterse din pagina ,cuvintele lor cheie vor avea grija de ele însele.
Indecşi in XML
Indecşii din XML urmăresc acelaşi tip de logica, ca şi in cazul bazelor de date
relaţionale. În exemplul următor in XML se poate observa acest lucru:
<INDEX>
<TERM Name="Beneficii" ID="I1">
<COMPONENTID>RU3</COMPONENTID>
<COMPONENTID>RU5</COMPONENTID>
<COMPONENTID>RU99</COMPONENTID>
<COMPONENTID>RU1001</COMPONENTID>
</TERM>
<TERM Name="Pensie" ID="I2">
<COMPONENTID>RU1</COMPONENTID>
<COMPONENTID>RU2</COMPONENTID>
<COMPONENTID>RU6</COMPONENTID>
<COMPONENTID>RU84</COMPONENTID>
</Term>
</Index>
Explicaţii:
Referinţe încrucişate
indiferent de locul în care se găseşte în site. Referinţa încrucişată este mai descriptivă
şi se poate aplica tuturor tipurilor de publicaţii.
Referinţele încrucişate s-au transformat, odată cu apariţia publicaţiilor
electronice, din informaţiile adiţionale din pagini în modalităţi centrale de a parcurge o
publicaţie electronică. De fapt, World Wide Web-ul a fost numit pe baza
interconexiunilor care sunt posibile prin utilizarea referinţelor încrucişate care pot
traversa nu numai două părţi de conţinut din acelaşi domeniu ci şi din orice spaţiu care
este accesibil într-un site Web.
Pe lângă faptul că o referinţă încrucişată poate conţine referinţe şi referenţi,
acestea formează căi printr-un domeniu de conţinut. O secvenţă este o cale liniară prin
care editorul consideră logice părţile/bucăţile anterioare şi următoare. Prin urmarea
referinţelor încrucişate, utilizatorii pot crea o cale alternativă, bazată pe următoarea
noţiune la care urmează să ajungă (sau să se uite).
Căutarea full-text
Sistemele de căutare sunt orientate în doua direcţii: spre conţinut şi spre cel
care caută. In general,acest lucru înseamnă ca un motor de căutare trebuie sa indexeze
conţinutul şi solicitările de procese. Pentru a îndeplini aceste funcţii, multe dintre
sistemele de căutare au patru componente majore interdependente, de complexităţi
variate:
Figura 1.15 - Un "Spider" obţine conţinutul unei pagini web şi creează o listă de
cuvinte cheie care permit utilizatorilor să găsească informaţiile pe care le doresc.
Un spider îşi începe căutarea prin web pornind de obicei de la o listă cu servere
intens utilizate şi cu pagini web foarte populare. Spider-ul va începe cu un site popular,
indexând cuvintele din pagini şi urmând toate legăturile găsite în site-ul respectiv,
ajungând în acest fel să traverseze şi să indexeze partea cea mai utilizată a web-ului.
Google.com a început ca un motor de căutare academic. În lucrarea care
descrie modalitatea de construire a acestuia, Sergey Brin şi Lawrence Page au
exemplificat cât de repede poate să lucreze un spider. Astfel, sistemul a fost construit
pentru a utiliza mai mulţi spider-i, trei de obicei, fiecare spider putând să ţină deschise
300 de conexiuni către pagini web la un moment dat. La cea mai ridicată performanţă,
folosind patru spider-i, sistemul putea căuta în peste 100 pagini pe secundă, generând
600 kilobytes de date în fiecare secundă.
Menţinerea unui sistem rapid însemna de asemenea construirea unui sistem
care să alimenteze spider-ii cu informaţii. Astfel, Google.com iniţial avea un server
dedicat pentru a oferi URL-uri spider-ilor. Google avea de asemenea şi propriul server
DNS, translatarea numelor în adrese fiind semnificativ mai rapidă, micşorând în acelaşi
timp şi întârzierile datorate reţelelor.
În momentul în care un spider Google vizita o pagină HTML, acesta ţinea cont
de două lucruri:
cuvintele găsite în pagină;
poziţia acestor cuvinte în pagină.
Cuvintele găsite în titlu, subtitlu, metatag-uri şi alte poziţii de importanţă
relativă erau notate cu o semnificaţie specială în timpul căutărilor iniţiate de utilizatori.
De asemenea, spider-ul a fost construit pentru a indexa toate cuvintele semnificative
din pagină, lăsând la o parte cuvintele de legătură.
Alţi spider-i folosesc alte procedee pentru indexare, permiţând, spre exemplu,
spider-ilor să opereze mai rapid sau să permită utilizatorilor să caute mai eficient sau
ambele. De exemplu, unii spider-i menţin o listă de cuvinte din titlu, subtitlu şi legături,
împreună cu cele mai utilizate 100 de cuvinte din pagină şi fiecare cuvânt din primele
20 de linii de text. Se pare că Lycos utilizează această modalitate de indexare a
conţinutului paginilor web.
Alte sisteme, precum AltaVista.com, merg în altă direcţie, indexând toate
cuvintele din pagină, inclusiv toate cuvintele de legătură sau „nesemnificative”.
Această împingere către completitudine are şi alte modalităţi de funcţionare, mai ales
prin utilizarea meta-tag-urilor.
Meta-tag-urile permit proprietarului unei pagini să specifice cuvintele cheie şi
conceptele sub care va fi indexată pagina respectivă. Acest lucru poate fi folositor în
cazul în care cuvintele din pagină pot avea două sau mai multe semnificaţii, meta-tag-
urile ghidând motorul de căutare în alegerea celei mai corecte semnificaţii pentru
cuvintele respective. Există de asemenea şi anumite pericole în utilizarea acestor tag-
uri, deoarece un proprietar neatent sau fără scrupule ar putea adăuga meta-tag-uri
care să se potrivească celor mai populare subiecte, fără ca acestea să aibă nimic cu
conţinutul în sine al paginii. Pentru o protecţie împotriva acestei practici, spider-ii
corelează de obicei conţinutul paginii cu meta-tag-urile, respingând tag-urile care nu se
potrivesc cu cuvintele din pagină.
Toate cele de mai sus presupun faptul că proprietarul paginii sau site-ului
doreşte ca pagina/site-ul să fie inclus în rezultatele activităţii motoarelor de căutare.
Sisteme informatice pentru managementul conţinutului 63
De multe ori proprietarii nu doresc includerea într-un motor de căutare major sau nu
doresc indexarea anumitor pagini dintr-un site. Pentru acest lucru a fost dezvoltat
protocolul de excludere al roboţilor (robot exclusion protocol). Acest protocol,
implementat în secţiunea de meta-tag-uri de la începutul unei pagini web, comunică
robotului de căutare să nu indexeze pagina şi/sau să nu urmărească nici unul din link-
urile din pagina respectivă.
După ce spider-ii au terminat sarcina de găsire a informaţiilor în paginile web
(trebuie să notăm faptul că această sarcină nu se termină niciodată - din cauza naturii
mereu schimbătoare a web-ului, spider-ii indexează pagini în permanenţă), motorul de
căutare trebuie să stocheze informaţiile adunate într-o modalitate utilizabilă. Există
astfel două componente care fac datele adunate accesibile utilizatorilor:
informaţia stocată cu datele;
metoda în care este indexată informaţia.
În cel mai simplu caz, un motor de căutare doar va stoca cuvintele şi URL-ul
unde au fost găsite. În realitate, acest lucru ar face dintr-un motor de căutare unul cu
utilizări limitate, deoarece nu ar exista nici o modalitate de a spune dacă acel cuvânt a
fost utilizat într-un context important sau unul trivial în pagina respectivă, nici dacă
acel cuvânt a fost utilizat o singură dată sau de mai multe ori, sau dacă pagina conţine
legături către alte pagini cu acel cuvânt. Cu alte cuvinte, nu ar fi nici o posibilitate de a
construi un clasament care ar încerca să prezinte cele mai utile pagini la începutul listei
de rezultate.
Pentru a crea şi afişa cele mai utile rezulte, cele mai multe motoare de căutare
stochează mult mai multe date decât cuvântul şi URL-ul în care a fost găsit. Un motor
ar putea stoca numărul de apariţii al cuvântului în pagină, putând de asemenea să
asigneze câte o „greutate” fiecărei intrări, cu valori mai mari ataşate cuvintelor care
apar către începutul documentului, în subtitluri, legături, meta-tag-uri sau titlul paginii.
Fiecare motor de căutare comercial are diferite formule sau modalităţi pentru
asignarea greutăţii pentru cuvintele din index. Acesta este unul din motivele pentru
care o căutare după acelaşi cuvânt în motoare de căutare diferite va produce liste de
rezultate diferite, cu paginile prezentate în ordini diferite, chiar dacă sunt indexate
aceleaşi pagini.
Fără a ţine cont de combinaţia precisă de informaţii adiţionale stocate de un
motor de căutare, datele vor fi stocate în mod codat, pentru a economisi spaţiul de
stocare. De exemplu, documentul original de prezentare al Google.com utiliza 2 bytes,
fiecare din 8 biţi, pentru a stoca informaţii referitoare la greutate: cuvântul era scris cu
litere mari, mărimea fontului, poziţia sau alte informaţii necesare clasificării. Fiecare
factor putea lua 2 sau 3 biţi în cei 2 bytes, având ca rezultat stocarea unui volum mare
de informaţii într-un spaţiu foarte compact.
După ce informaţia este compactată/codată, aceasta este gata de indexare. Un
index are un singur scop: permite găsirea foarte rapidă a informaţiei. Există mai multe
modalităţi de a construi un index, dar una din cele mai eficiente modalităţi este
utilizarea unui tabel hash (hash table). Prin hashing, se aplică o formulă matematică
pentru ataşarea unei valori numerice fiecărui cuvânt, formula fiind construită pentru a
distribui în mod egal intrările de-a lungul unui număr predeteminat de diviziuni.
Distribuţia numerică este diferită de distribuţia cuvintelor din alfabet, aceasta fiind
cheia eficienţei unui tabel hash.
În limba engleză, de exemplu, există unele litere cu care încep cele mai multe
cuvinte, în timp ce alte litere sunt la începutul a mai puţine cuvinte (comparaţi litera
„M” din dicţionar cu litera „X”). Această inegalitate înseamnă că găsirea unui cuvânt
care începe cu o literă mai „populară” ar putea lua mai mult timp decât găsirea unui
cuvânt care începe cu o literă mai puţin utilizată la începutul cuvintelor. Prin hashing se
elimină această diferenţă şi se reduce timpul mediu pentru a găsi o intrare. Tot prin
hashing se separă cuvintele de indecşii în sine. Tabela hash conţine numărul hash
împreună cu un pointer către datele efective, date care pot fi sortate în orice direcţie.
Combinaţia de indexare şi stocare eficientă face posibilă obţinerea rapidă a
rezultatelor, chiar dacă utilizatorul creează o interogare complexă.
Căutarea printr-un index presupune construirea unei interogări de către
utilizator şi transmiterea ei către motorul de căutare. Interogarea poate fi simplă,
alcătuită din minim un cuvânt sau mai complexă, necesitând operator booleeni, care
permit rafinarea şi extinderea căutării.
Operatorii booleeni cei mai des utilizaţi sunt următorii:
AND – toţi termenii separaţi prin „AND” trebuie să apară în pagină
sau în document. Unele motoare de căutare pot folosi „+” în loc de
„AND”;
OR – cel puţin unul din termenii separaţi prin „OR” trebuie să apară
în pagină sau document;
NOT – termenul sau termenii care urmează după „NOT” nu trebuie
să apară în document. Unele motoare de căutare pot folosi „-” în
locul cuvîntului „NOT”;
FOLLOWED BY – unul din termeni trebuie să fie urmat în mod direct
de către altul;
NEAR – unul din termeni trebuie să fie la o distanţă specificată în
cuvinte de celălalt termen;
Ghilimele – cuvintele dintre ghilimele sunt tratate sub formă de
frază, iar acea frază trebuie să fie găsită în interiorul documentului
sau paginii;
Căutările definite prin operatorii booleeni sunt căutări „literale”, în care
motorul caută cuvintele sau frazele exact cum sunt introduse. Acest lucru poate fi o
problemă în cazul cuvintelor cu mai multe înţelesuri. În cazul în care utilizatorul este
interesat doar în găsirea paginilor care conţin doar unul din sensuri, se pot astfel de
interogări, dar ar fi mai util ca motorul de căutare să realizeze acest lucru în mod
automat.
Astfel, una din ariile de cercetare în domeniul motoarelor de căutare este cel al
„căutării bazate pe concepte”. Unele din aceste cercetări presupun utilizarea analizei
statistice în pagini care conţin cuvintele sau frazele care sunt căutate, pentru a găsi alte
pagini în care utilizatorul ar putea fi interesat.
Alte domenii de cercetare privesc interogările bazate pe limbaj natural, putând
astfel fi introduse interogări la fel ca întrebările puse oamenilor, fără a mai fi nevoie de
operatori booleeni sau structuri de interogări complexe. Cel mai important motor de
căutare care foloseşte limbajul natural este AskJeeves.com, care parsează interogările
pentru a găsi cuvintele cheie, pe care le aplică mai apoi indexului de site-uri construit.
AskJeeves.com lucrează cel mai bine cu interogări simple, dar există o competiţie
deosebită în acest sens.
Sisteme informatice pentru managementul conţinutului 65
Undeva trebuie stocat numele aprobat, ceea ce necesită cursul şi date despre
curs, la fel ca şi o mulţime variată de date despre cursuri, departamente şi şcoli. Un
programator poate (şi deseori face) crea relaţii între tabelele bazelor de date pentru a
putea ţine evidenţa datelor.
Nu există o potrivire naturală între aceste date ierarhice şi rândurile şi
coloanele bazei de date; o modalitate mult mai potrivită pentru stocarea datelor
pentru acest obiect model poate fi ceva de genul exemplului următor:
<Facultate>
<APPROVER></APPROVE>
<DEPARTAMENT>
<Necesar></ Necesar>
<CURS>
<CURSDATA></CURSDATA>
</CURS>
</DEPARTAMENT>
</Facultate>
Cea mai simplă metodă de stocare a componentelor în XML este înăuntrul unui singur
element care poartă numele clasei conţinut:
<BENEFICII_R_U>
<ID>1</ID>
<NAME> Pensie </NAME>
<TYPE>Standard</TYPE>
<AUTHOR>Derek Andrews</AUTHOR>
<EMPLOYEETYPE>FT</EMPLOYEETYPE>
<IMAGEPATH>images/ru/zimbet.jpg</IMAGEPATH>
<TEXT>Planul nostru...</TEXT>
</BENEFICII_R_U>
S-a ales să se facă atribute ID, Type, Author şi EmployeeType pentru motive
particulare, bazate pe câmpurile elementelor în care se află, după cum urmează:
Elementul ID este un identificator unic. Este generat automat de către CMS
(şi posibil să nu fie văzut vreodată de către utilizator). Făcându-l atribut, se
poate specifica (într-un DTD sau schemă) că este un ID şi trebuie să fie unic
de-a lungul tuturor componentelor HRBenefit. O mică schimbare este
necesară pentru crearea atributului ID. In XML ID-urile trebuie sa înceapă cu
un caracter, aşadar se schimbă valoarea 1 în HR1.
Componenta elementelor Type şi EmployeeType sunt liste închise.
Utilizatorul alege o variantă dintr-un set obigatoriu. Făcându-le atribute, se
pot defini ca liste închise (intr-un DTD sau schemă) şi specificând alegerile
valabile. Din nefericire nu există o metodă uşoară echivalentă cu crearea
unei liste deschise într-o schemă XML.
Componenta element Author este mai complexă. Presupunând că sunt
componente Author şi în altă parte a sistemului care au numele autorului,
denumirea job-ului, adresa de e-mail, etc., în aceasta componenta, în loc să
dublăm informaţia care se află în componenta Author, e mult mai
inteligentă metoda de referire corectă la componenta autor. Cu alte
cuvinte, elementul componentă Author este o listă deschisă ale cărei valori
sunt o referinţă la alta componentă. Făcând-o atribut, se specifică faptul că
este referinţă (numita IDREF în limbajul DTD) şi impune ca întodeauna să
indice componenta existentă Author. Pentru că este un atribut IDREF, i-am
schimbat numele cu AuthorID şi i-am schimbat valoarea de la numele
autorului la componenta ID.
Pentru stocarea tuturor componenetelor HRBenefits, trebuie doar învelite intr-
un element superior:
<BENEFICII_R_U>
< BENEFICIU ID="HR1" Type="Standard" AuthorID="A21"
EmployeeType="FT">
<NAME>Pensie</NAME>
<IMAGEPATH>images/ru/zimbet.jpg</IMAGEPATH>
<TEXT>Our great Pensie plan...</TEXT>
</ BENEFICIU >
< BENEFICIU ID="HR2" Type="Standard" AuthorID="A43"
EmployeeType="FT">
<NAME>Medical</NAME>
<IMAGEPATH>images/hr/zimbet.jpg</IMAGEPATH>
<TEXT>Wait till you see the...</TEXT>
</ BENEFICIU >
< BENEFICIU ID="HR3" Type="Standard" AuthorID="A9"
EmployeeType="FT+">
<NAME>Stomatologic</NAME>
<IMAGEPATH>images/hr/ zimbet.jpg</IMAGEPATH>
<TEXT>We now do teeth!...</TEXT>
</ BENEFICIU >
</BENEFICII_R_U>
<TEXT>
<TITLE>We now do Teeth!</TITLE>
<PULLQUOTE>
<B>My gums and molars never felt so good.</B>
<IMAGE>laurasmile.jpg</IMAGE>
</PULLQUOTE>
<H1>
a paragraph of text here
<H2>a paragraph of text here</H2>
</H1>
<H1>a paragraph of text here</H1>
<CONCLUSION>
Put your mouth where our money is-<B>use the
plan!</B>
</CONCLUSION>
</TEXT>
Sisteme informatice pentru managementul conţinutului 69
Pentru a stoca aceasta structura într-un fişier XML sau o bază de date, cel mai
simplu se include în componentele mai mari XML. Nu este nevoie de nici o tehnică
specială de obţinere a structurii sau ridicare a unei părţi din ea. Elementele care sunt
incluse în tag-urile <TEXT> sunt la fel de accesibile utilizatorului depozitului în care sunt
stocate precum sunt şi oricare alte elemente ale componentelor. In plus, nu contează
dacă unele componente au multe diferenţe de structură în elementele <TEXT> şi altele
foarte puţine. Orice ar fi acolo este stocat şi accesibil la cel mai de jos tag <B>. Totuşi,
cea mai grea parte este de a ajunge la punctul în care trebuie doar copiat textul între
elementele <TEXT>.
In particular, trebuie urmatoarele:
Textul trebuie bine format în XML. Deşi nu este în totalitate adevărat (se
poate pune orice fel de text dacă este folosită o caracteristică a XML-ului
numită CDATA), este adevărată dacă se doreşte folosirea textului. Este
relativ mai uşor pentru aducerea textului în XML (spre exemplu din HTML)
sau chiar dificil (de exemplu dintr-un vechi procesor de cuvinte).
Textul trebuie să fie valabil XML. Deşi nu este în totalitate adevărat, este
destul de adevărat dacă se doreşte folosirea tuturor avantajelor pe care le
oferă regulile XML-ului care sunt listate într-un DTD sau într-o schemă.
Intr-o bază de date relaţională nu contează ce fel de text este în rânduri sau
coloane, principala problemă este de recunoaştere a structurii într-un text structurat.
In baza de date de obiecte şi fişiere XML, contează foarte mult ce fel de text este stocat
în fiecare element. Deşi bazele de date relaţionale au probleme cu textele structurate,
XML şi bazele de date au probleme cu textele care nu sunt structurate.
Majoritatea structurilor de acces sunt foarte uşor de reprezentat şi lucrat cu ele într-o
structura XML.
Ierarhii în XML
Beneficii RU
Pensie
Medical
Stomatologic
Evenimente
Eveniment 1
Eveniment 2
Eveniment 3
Site-uri utile
Site 1
Site 2
Site 3
Stiri
Industrie
Stire 1
Stire 2
Organizatie
Stire 1
Stire 2
Acest site este stocat intuitiv şi repede, la fel ca următorul set de elemente:
<OUTLINE>
<FOLDER Name="Beneficii RU">
<ITEM ID="RUPensie">
<ITEM ID="RUMedical">
<ITEM ID="RUStomatologic">
</FOLDER>
<FOLDER Name="Evenimente">
<ITEM ID="Eveniment1">
<ITEM ID="Eveniment2">
<ITEM ID="Eveniment3">
</FOLDER>
<FOLDER Name="Site-uri utile">
<ITEM ID="Site1">
<ITEM ID="Site2">
<ITEM ID="Site3">
</FOLDER>
<FOLDER Name="Stiri">
<FOLDER Name="Industrie">
<ITEM ID="IStire1">
<ITEM ID="IStire2">
</FOLDER>
<FOLDER Name="Organizatie">
<ITEM ID="OStire1">
<ITEM ID="OStire2">
</FOLDER>
</FOLDER>
</OUTLINE>
Indecşi in XML
<INDEX>
<TERM Name="Beneficii" ID="I1">
<COMPONENTID>RU3</COMPONENTID>
<COMPONENTID>RU5</COMPONENTID>
<COMPONENTID>RU99</COMPONENTID>
<COMPONENTID>RU1001</COMPONENTID>
</TERM>
<TERM Name="Pensie" ID="I2">
<COMPONENTID>RU1</COMPONENTID>
<COMPONENTID>RU2</COMPONENTID>
<COMPONENTID>RU6</COMPONENTID>
<COMPONENTID>RU84</COMPONENTID>
</TERM>
</INDEX>
Cea mai simplă formă de încrucişare prin referinţă arată în felul următor într-o
structură XML:
<LINK>
Pentru mai multe informaţii, accesati
<REFERENTID>HR3</REFERENTID>
</LINK>
După cum este cazul cu bazele de date relaţionale, cea mai mare parte a
modelului de conţinut se află în codul XML care stochează componentele. In general,
XML se comportă mai mult ca un model de bază de date relaţională abstractă, în care
numele şi valorile permise ale claselor de componente şi elementele sunt stocate într-
un loc, iar valorile sunt stocate într-o locaţie diferită.
In bazele de date relaţionale, programatorii au trebuit să inventeze o
modalitate de separare a structurilor componentelor de componente. In lumea XML-
ului, structura este întotdeauna separată de date. XML foloseşte DTD (“Document
Template Definition”) sau schema XML pentru definirea structurii după care se
ghidează data.
Aici se poate observa un segment de XML care a fost folosit şi pentru
evidenţierea componentei HR:
<BENEFICIU_R_U>
<ID>1</ID>
<NAME>Pensie</NAME>
<TYPE>Standard</TYPE>
<AUTHOR>Derek Andrews</AUTHOR>
<EMPLOYEETYPE>FT</Employeetype>
<IMAGEPATH>images/ru/zimbet.jpg</IMAGEPATH>
<TEXT>Planul nostru de Pensii...</TEXT>
</BENEFICIU_R_U>
Cu o singură excepţie, aceste două versiuni ale componentei HRBenefit sunt din
punct de vedere informaţional echivalente. In al doilea exemplu, în loc de tipărirea
numelui autorului, s-a folosit ID-ul autorului care indică structura unui autor ce se află
în altă parte. Cu toate că cele două versiuni pot fi informaţional echivalente, cea de a
doua este mult mai uşor de administrat. Făcând unele elemente atribute XML, se pot
folosi unele caracteristici ale unui XML DTD pentru a le controla. In exemplul următor
se poate observa un DTD care poate fi folosit pentru a specifica structura permisă a
unei componente HR:
Tipuri de canale
1
http://www.uportal.org
2
http://www.ja-sig.org/
3
http://uportal.org/who-prod.html
Sisteme informatice pentru managementul conţinutului 75
Canale proxy: sunt cele mai simple canale de implementat deoarece obţin
conţinut dintr-un site web pe care-l reproduce într-un portlet. Acestea sunt
cele mai uşor de implementat dar şi cel mai greu de controlat deoarece
portalul nu are control asupra aspectului portletului. Canalele de acest tip
cuprinde:
o Canale Inline Frame
o Canale WebProxy
Canale de date XML: aceste canale produc date în format XML pe care
portalul le va afişa ulterior în portleturi folosind XSLT. Utilizarea unui format
cunoscut în portal, de tipul RSS, de exemplu, presupune faptul că se vor
utilize tehnologiile de transformare implicite de tipul XSLT, fiind, totuşi,
uneori şi nevoie de personalizarea acestor şabloane. În cazul utilizării unui
format XML adaptat pentru nevoi personalizate, va fi necesară crearea de
noi transformări XSLT pentru afişare. Printre tipurile de canale de date
bazate pe XML enumerăm:
o Canalele RSS;
o Canalele ATOM;
o Canalele generice XML/XSLT.
Aceste canale sunt ideale pentru publicarea informaţiilor. RSS şi ATOM sunt
ideale pentru publicarea informaţiilor găsite în liste, sub forma de
evenimente, servicii, cursuri, anunţuri, în timp ce canalele XML/XSLT
generice pot fi utilizate pentru alte tipuri de informaţii structurate.
Canale interactive locale: reprezintă o aplicaţie creată să se execute într-un
portlet. Acestea pot fi locale (adică se execută pe acelaşi server ca şi
portalul) sau “la distanţă” (rulează pe alte servere). Canalele locale
presupun instalarea de cod pe serverul local, printre diferitele mecanisme
de scriere a acestor tipuri de canale putând găsi:
o uPortal Java Channel - specific acestui tip de portal;
o JSR 168/268 Java Channel – portlet generic, care, teoretic, poate fi
lansat şi executat în orice aplicaţie portal care suportă aceste
implemenare Java.
Canale interactive la distanţă: au avantajul că nu necesită instalarea de cod
pe serverul portal, printre diferitele mecanisme de scriere a acestor tipuri
de canale putând găsi:
o Canale XFORM1: necesită cunoştinţe de XFORM şi Web CGI;
o Canale WSRP2: necesită cunoştinţe de SOAP şi servicii web.
Acest canal este cel mai uşor de implementat, o pagină web externă fiind
afişată în propriul cadru HTML în interiorul portalului (folosind tag-ul HTML iframe).
Avantajul acestui tag este că un site extern poate fi uşor adăugat în portal fără nici o
modificare.
1
http://www.w3.org/MarkUp/Forms/
2
Web Services for Remote Portlets: http://www.oasis-
open.org/committees/tc_home.php?wg_abbrev=wsrp
Cu toate acestea, există şi dezavantaje. Astfel, portalul nu are control asupra
aspectului paginii web externe în momentul afişării acesteia, pagina respectivă părând
că nu este din locul respectiv (nu va respecta culorile alese de utilizatori, preferinţele
etc.). Cele mai multe pagini sunt create pentru a fi afişate pe întreg ecranul şi nu într-
un mic portlet din cadrul unei pagini, apărând astfel nevoia ca utilizatorul să utilizeze în
exces barele de navigare orizontală şi verticală. De asemenea, există browser-e care
nu suportă tag-ul iframe sau îl dezactivează ca măsură de securitate.
Canalul de tip WebProxy este o altă cale rapidă de a aduce conţinut în cadrul
portalului. În momentul în care este afişat un canal de acest tip, el va încerca să obţină
date dintr-un URL configurabil, să facă nişte transformări simple asupra conţinutului şi
apoi să-l afişeze în portal.
Printre problemele care pot apărea la utilizarea canalelor de tip Web Proxy
enumerăm:
Aspect: acest canal va fi afişat la fel ca pagina originală şi nu va fi
transformat să respecte aspectul portalului;
Transmiterea de date: aceste canale pot avea probleme legate de
transmiterea/POST-area de date înapoi către aplicaţia/pagina originală
din care s-a obţinut conţinutul, fiind necesare, uneori, modificări ale
codului sursă pentru a suporta acest canal;
Probleme JavaScript: pot apărea probleme de afişare şi logică client-side
în cazul în care pagina sursă originară a canalului foloseşte (în mod
excesiv) JavaScript.
Nu există suport pentru cadre (frame-uri).
RSS (Really Simple Syndication sau RDF Site Summary) reprezintă o listă XML de noi
obiecte, fiind o modalitate uşoară de publicare a ştirilor, evenimentelor sau a altor
obiecte bazate pe liste prin simpla publicare a informaţiilor sub forma unui document
XML.
RSS nu este dificil de creat, existând un număr de editoare care ajută utilizatorii.
Versiunile importante de RSS sunt:
RSS 0.9x: versiunea iniţială bazată pe XML şi părintele celor două facţiuni
divergente;
RSS 1.0: una din versiunile curente deviate din RSS 0.9; este bazat pe
tehnologii de tip Semantic Web precum RDF şi nu pe scheme XML. RSS 1.0
suportă module adiţionale pentru evenimente din calendar, cursuri,
anunţuri, stări ale serviciilor etc. Transformările XSLT trebuie modificate în
concordanţă cu modulele extensibile;
RSS 2.0: altă versiune “curentă”. Este derivat direct din RSS 0.9, dar este
bazat pe XML, fără supportul adiţional de module din RSS 1.0.
Sisteme informatice pentru managementul conţinutului 77
1. <?xml version="1.0"?>
2.
3. <rdf:RDF
4. xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
5. xmlns="http://purl.org/rss/1.0/">
6.
7. <channel rdf:about="http://myserver.ox.ac.uk/myfeed.rss">
8. <title>Stirile mele</title>
9. <link>http://portal.unitbv.ro</link>
10. <description>
11. Acesta este site-ul meu
12. </description>
13.
14. <image
rdf:resource="http://xml.com/universal/images/xml_tiny.gif" />
15.
16. <items>
17. <rdf:Seq>
18. <rdf:li resource="http://portal.unitbv.ro/anunt1.html"
/>
19. <rdf:li resource="http://portal.unitbv.ro/anunt2.html"
/>
20. </rdf:Seq>
21. </items>
22.
23. </channel>
24.
25. <item rdf:about="http://portal.unitbv.ro/anunt1.html">
26. <title>Interesting stuff</title>
27. <link>http://myserver.ox.ac.uk/myannouncement1.htmll</link>
28. <description>
29. O descriere a unui anunt interesant!
30. </description>
31. </item>
32.
33. <item
rdf:about="http://myserver.ox.ac.uk/myannouncement1.html">
34. <title>Alt anunt interesant </title>
35. <link> http://portal.unitbv.ro/anunt2.html</link>
36. <description>
37. O alta descriere a unui anunt interesant!
38. </description>
39. </item>
40. </rdf:RDF>
1
http://tools.ietf.org/html/rfc4287
2
http://tools.ietf.org/html/rfc5023
Un exemplu de ştiri ATOM:
<entry>
<title>Lansare Portal Universitar</title>
<link href="http://portal.unitbv.ro/2007/12/13/atom03"/>
<id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id>
<updated>2007-12-13T18:30:02Z</updated>
<summary>Text de sumar.</summary>
</entry>
</feed>
Canale XFORM
1
http://en.wikipedia.org/wiki/Xform
Sisteme informatice pentru managementul conţinutului 79
eServices
eCommerce
CAPITOLUL II
SOFTWARE DE COLABORARE ȘI DE MANAGEMENT AL
DOCUMENTELOR
1
http://searchdomino.techtarget.com/sDefinition/0,,sid4_gci212217,00.html
conferinţele video - PC-urile în reţea schimbă semnale audio şi video;
data conferencing - PC-urile în reţea partajează o tablă de date comună
(whiteboard) care poate fi modificată de fiecare utilizator;
application sharing - utilizatorii pot accesa un document sau o aplicaţie
partajată din computerele lor în mod simultan;
sisteme electronice de întâlniri (EMS – Electronic Meeting Systems)- un
sistem de conferinţă construit într-o camera; camera are un scop special şi
va conţine un videoproiector mare conectat cu numeroase PC-uri.
Implementarea
Unul dintre cele mai mari obstacole este dorinţa tipica a organizaţiei de a
standardiza cunoştinţele practicate precum şi acela de a implementa instrumente şi
procese care susţin scopul organizaţiei respective. O valoare mai mare şi o
implementare mai rapidă pot fi realizate prin evitarea zicalei “un software care se
potriveşte peste tot”. Îndemnând oamenii să adopte acelaşi rol activ (de exemplu
contribuţia produsă şi măsurată de numărul de încărcări/upload-uri) produce doar un
comportament condus de expresia “jocul există după regulile după care este jucat”.
Cultivarea practicii de colaborare în locul în care aceasta înfloreşte din propria voinţa
aduce cele mai rapide beneficii.
O altă interfaţă relevantă în context este interfaţa sistemului ERP, în care este
trimis un mesaj referitor la folosirea obiectelor de conţinut. In plus, sistemul necesită şi
o interfaţă pentru sistemul de livrare. In cazul livrării electronice, conţinutul necesar
este livrat prin reţele cu viteze foarte mari, sateliţi, etc. Aceasta este echivalent cu
schimbul de conţinut între două organizaţii, cum ar fi informaţii în fişiere formatate
standard şi un subset de metadate care ar trebui livrate codat în formatul specificat.
1
Captiva Software Corp, 1999
Este clar că soluțiile de scanare a documentelor oferă beneficii excelente
afacerii. Din păcate totuși, aceste soluții adesea au o funcționalitate limitată în ceea ce
priveşte volumul de captură; ele se concentrează pe managementul, stocarea și
livrarea documentelor din controlul lor, dar nu oferă cea mai bună configurație
scalabilă sau întreprinzătoare croită pentru nevoile unice ale unei companii. Acesta
este motivul pentru care captura documentelor a evoluat într-o afacere de sine
stătătoare.
Procesul de captură
Pregătirea documentelor
Captura imaginilor
Extragerea datelor
1
Census 2000 Testing, Experimentation and Evaluation Program, iulie 2003
Sisteme informatice pentru managementul conţinutului 93
1
A Code of Practice for Legal Admissibility and Evidential Weight of Information Stored Electronically,
2004
0,00002% din codurile de bare au fost greșite chiar în condiții ideale. Experiența
practică din Marea Britanie sugerează că OCR-urile brute și necorectate oferă
aproximativ 10-30% rebuturi în timp ce codurile de bare sunt citite corect, dat fiind
faptul că imaginea are o calitate suficient de bună.
Este important de notat diferența dintre greșelile de substituire și rebut. Rata
de rebut a unei erori este cea mai citată și reflectă numărul de caractere citite greșit
sau recunoscute de program ca citite greșit; o eroare de substituție este clasificată ca
citită greșit și interpretată incorect dar care nu este marcată corespunzător. Un
exemplu este ca programul ar trebui să citească un ”c” și îl recunoaște ca un ”e” iar
greșeala nu este identificată.
În plus este o diferență substanțială între rata de ratare dintre caractere și
câmpuri. Considerând un document care are 10 câmpuri fiecare cu câte 10 caractere și
motorul OCR susține că rata de a da greș este de 20% rezultă că fiecare caracter are o
șansă de 1 la 50 de a fi greșit și atunci potențialul de eroare a întregului câmp este de 1
din 5 adică 20% pentru exemplu următor.
Acest lucru este inacceptabil în multe medii, fiind necesare verificări adiționale,
referințe încrucişate sau validări externe. Zonele OCR sunt frecvent asociate cu diferite
câmpuri de index cu zone unice din document. Spre exemplu: dacă un număr de
referință este adesea tipărit în partea de sus stânga a unui document, este foarte
posibil să se configureze multe sisteme astfel ca regiunea să fie procesată în OCR și
datele rezultate să fie aplicate câmpului relevant. Este important ca fiecare document
să satisfacă niște criterii de bază pentru ca tehnica să funcționeze, și anume: toate
documentele trebuie să aibă datele în același loc și să folosească un font care poate fi
recunoscut, imaginea trebuie să nu conțină îndoituri sau greșeli de poziționare și, ideal,
fiecare item de date, ar trebui verificat cu un câmp secundar în baza unei reguli
definite. Este foarte posibil ca introducerea manuală, cu toate greutățile, ei să fie mai
justificată.
O extensie logică la zona bazată pe OCR este să se citească întreaga pagină,
proces utilizat în mod normal pentru PDF-uri și pentru sistemul de recuperare care
Sisteme informatice pentru managementul conţinutului 95
oferă o opțiune de căutare în tot textul. Poate fi mult mai productiv să cauți un singur
cuvânt sau o frază într-un raport mai larg decât să te bazezi doar pe titlu.
Formulare
1
Research in Optical Mark Recognition, aprilie 2004, US Census Bureau Acquisition Division
2
Recognition and keying methodologies technical white paper, 2002, Neurascript Ltd.
Tehnologia s-a dezvoltat semnificativ și multe aplicații execută recunoașterea unei
pagini prin mai multe mijloace.
Privire generală asupra paginii (ID dinamic). Tehnica implică de obicei construirea unei
histograme alb-negru a paginii și o compară cu o bibliotecă predefinită. Dacă întreaga
imagine nu corespunde, cele mai multe aplicații vor împărții pagina în cadrane și apoi
compară fiecare secțiune pentru o acuratețe mai bună. Deși abordarea este rapidă,
deoarece histogramele sunt fișiere foarte mici și ușor de creat, este posibil să se obțină
rezultate false, deci aplicațiile tind să ofere o formă de indicator de încredere. Paginile
care aflate sub un indicator prestabilit sunt trecute printr-un proces de identificare
secundar.
Potrivirea din context sau potrivirea cuvintelor cheie. O apropiere în forță care
transformă pagina în OCR și compară textul rezultat cu documentele master. Este
evident folosirea mai intensivă a procesorului dar succesul este ridicat. Este frecvent
singura cale de a diferenția paginile cu număr mare de similitudini. Din nou, aplicațiile
ar trebui să se utilizeze un indicator de încredere pentru a izola limita documentelor.
combinând cu un set de reguli care indică că atunci când cuvântul ”total” apare în text,
următorul set de numere ar trebui citit și stocat în câmpul de Total din baza de date,
de exemplu. Există un număr de variații pe baza acestei idei: în timp ce unele produse
vor folosi numai arborele de reguli, altele le vor mixa parțial cu identificarea dinamică
și vor crea o bibliotecă de pagini comune, pentru a face mai rapidă recunoașterea
formelor văzute frecvent de sistem.
Surse importate
Exportarea datelor
Siguranţă și scalabilitate
Auditul și raportarea
diverse stații de lucru, servere, unele pe hârtie, altele în diferite conturi de mail, în
filiale ale organizației etc.
Aceste sisteme gestionează întregul ciclu de viață al unui document, de la
crearea sa, multiplele sale versiuni realizate în manieră multi-user, stocarea tuturor
versiunilor precum şi realizarea şi stocarea fluxului acestui document în cadrul
organizației, repartizarea către utilizatori, birouri, filiale sau entităţi externe
organizației. Un modul important al unui astfel de sistem este modulul de registratură
electronică, modul prin care se realizează înregistrarea electronica pe registrele
organizației a tuturor documentelor în curs de intrare sau de ieșire, precum şi a
documentelor interne supuse regulamentului de înregistrare pe registre.
1
Piaţa de Document Management aşteaptă boom-ul, http://www.marketwatch.ro/articles.php?ai=1972
context, intervine problema rentabilizării rapide a investiției, un aspect delicat, greu de
realizat, indiferent de mărimea organizației.
Exista mai multe aspecte care impun utilizarea unui astfel de produs, însă cele
mai evidente ar fi:
evitarea sincopelor în transmiterea fizică a documentelor;
reutilizarea informațiilor existente;
adaptarea la cerințele tehnologice ale partenerilor;
promovarea unei imagini coerente şi consistente;
necesitatea încadrării în anumite standarde.
1
Document Management de la SOBIS Eficienta pentru success,
http://www.marketwatch.ro/mw/index.php?do=9&tl=0&ar=563&viz=true
2
SIVADOC – ordine în documente,
http://www.marketwatch.ro/mw/index.php?do=9&tl=0&ar=565&viz=true
Sisteme informatice pentru managementul conţinutului 105
Funcţionalităţi
1
Enterprise Content Management Association, http://www.aiim.org/
Document Management API-standard, recunoscut pentru partajarea fișierelor), LDAP
(protocol folosit în gestionarea identităţilor dintr-o companie, accesului la aplicațiile
corporatiste, securitate şi gestionarea informațiilor de tip organizațional; faţă de
bazele de date relaţionale, un director LDAP prezintă câteva caracteristici importante:
este mai „orientat-obiect”, poate reflecta ierarhii şi prezintă o optimizare pentru
citirea informațiilor stocate), WebDAV (Distributed Authoring and Versioning - permite
manipularea uşoară a documentelor şi scripturilor de pe un server Web şi are funcţii
adiţionale pentru a simplifica controlul versiunilor pentru mai mulţi autori) şi SOAP
(Simple Object Access Protocol - este un protocol de apel al unor funcții de pe alte
servere folosind XML pentru codificarea numelor de funcție apelate, parametri şi
returnarea rezultatelor), pentru a permite integrarea ulterioară cu alte aplicații;
capturarea de date este procesul prin care se obțin date electronice din
date existente în format fizic, prin scanarea documentelor, aplicarea de
metode automate sau semi-automate de extragere a datelor (OCR, ICR,
transformare de conţinut - procesul de a transforma în text editabil o parte
a unei imagini care conține un document scris de mana, indexare);
indexarea este operația prin care documentelor le sunt atribuite un set de
date de identificare unice. Indexarea este procesul prin care o componenta
software specializată (numita şi „motor de indexare”) procesează
conținutul, descompunând ”masa de text” în componentele sale
elementare, stocându-le în structuri de liste, alături de alte informații
conexe, cum ar fi locațiile lor relative (unele fata de altele), apartenenta la
document etc. Este o operațiune realizată pentru a simplifica operațiunea
de căutare şi vizualizare a datelor. De aceea, o importanta critica o are
crearea unei topologii de indecșii;
stocarea documentelor implică şi gestiunea lor şi a ciclului de viața al
acestora: cum sunt clasificate, unde sunt stocate, pentru cat timp, unde vor
fi mutate, dacă vor fi distruse (șterse) şi ce timp de viață au;
vizualizarea documentelor într-un context electronic poate fi o problema.
Vizualizarea unui singur document după un criteriu unic este o operație
simplă, dar devine complicată dacă utilizatorul căuta documente folosind
mai multe criterii, criterii de căutare parțiale, fraze care pot apărea în
context şi expresii booleene. Aceste operații se realizează folosind o
structura de indecșii implementată intern pe baza de date şi utilizează, de
asemenea, cât mai mult resursele de optimizare existente în sistemul de
gestiune al bazei de date;
securitatea este vitală în cele mai multe sisteme de document
management. Aceste sisteme corespund unor standarde înalte de
securitate, sunt integrabile cu soluții de semnătură digitală şi soluții de
criptare date. Unele sisteme au un modul de gestiune a drepturilor date
utilizatorilor, ce gestionează profile de utilizatori, roluri, drepturi de acces
pe categorii de documente, permisii individuale pentru orice nivel;
mediul de lucru colaborativ: implementarea facilitații de "check in/intrare” -
"check aut/ieşire" (luare document în editare) aseamănă DMS cu mediul de
lucru colaborativ. Astfel, un document luat în editare de un utilizator, va fi
disponibil spre citire pentru ceilalți utilizatori până când utilizatorul activ va
debloca documentul;
Sisteme informatice pentru managementul conţinutului 107
Avantaje
canalizarea firmei spre activitatea de baza, eliminându-se astfel timpii morți
din punct de vedere al productivității, regăsire, distribuție, accesare,
procesare a informațiilor;
crearea unui mediu standardizat pentru introducerea de conținut, ducând la
accelerarea proceselor interne în cadrul unei firme;
disponibilitatea informației atunci când este nevoie de ea;
eficienta mai mare în manipularea documentelor;
accesul la informație pe baza unor reguli stricte pentru oferirea unui grad
ridicat de securitate a informației;
reducerea spațiului necesar arhivarii, eliminând posibilitatea de pierdere a
informațiilor, reducând costurile de manipulare, a cheltuielilor
administrative – consumul hârtiei;
îmbunătăţirea controlului asupra activității desfășurate, pentru o
comunicare eficientă, reducerea timpilor de rezolvare a sarcinilor;
scurtarea proceselor de lucru cu documentele cu 50%;
reducerea consumului de hârtie, costurilor pentru copiatoare, fax, telefonie
şi posta cu minim 30% şi a timpului de distribuție cu minim 80%;
module interconectate central, ușor de administrat şi utilizat;
mod standardizat şi unitar de procesare a documentelor;
facilitarea implementării unui sistem de management al calităţii;
regăsirea promptă a informațiilor, răspunzând la întrebări de genul
“cine/ce/când/cui?”
constituirea arhivei electronice a instituției într-o maniera profesionistă,
conformă cu ultimele proceduri legislative;
posibilități de replicare - cu ajutorul acestor soluţii, datele şi informaţiile,
vor fi disponibile în acelaşi timp în două sau mai multe locaţii;
reducerea riscurilor - reglementările legale care guvernau odată
documentele fizice se aplică acum şi formatelor electronice. Dacă se
eşuează în menţinerea şi controlul înregistrărilor de orice tip sau nu pot fi
produse ca dovezi legale, atunci poziția organizației, din punct de vedere
legal poate fi afectată, fiind astfel pasibilă de penalităţi, pierderi financiare
şi publicitate negativă. O soluție de document management ajută şi la
prevenirea problemelor prin stocarea, controlul şi protejarea documentelor
business împotriva fraudelor. În plus, furnizează instrumente ce permit
stocarea formatelor de orice tip, incluzând aici fax-urile şi email-ul,
rezolvarea cazurilor legale fiind mult mai uşoară;
îmbunătăţirea politicilor privind manipularea datelor organizaţiei. Multe
organizații sunt guvernate de politici care specifică cât timp pot fi stocate
datele. O soluție de administrare a documentelor sau a înregistrărilor
optimizează procesele legate de stocare şi dispozițiile implicite. Astfel,
informațiile sunt păstrate cât trebuie, fiind uşor de eliminat atunci când
intră sub incidenta reglementarilor legale sau a politicilor interne.
Dezavantaje
Ușurința în utilizare;
Structura de directoare/fișiere în care sunt organizate documentele este
familiară oricărui utilizator;
Multiplele opțiuni de căutare duc la regăsirea imediată a informațiilor;
Generarea automata a documentelor va ușura semnificativ efortul de
editare, verificare pentru documentele standardizate;
Gestionarea centralizată a documentelor în formă criptată sporește gradul
de siguranță;
Gestionarea oricărui tip de document în format electronic;
Notificări: cerere pe flux, modificări în directoare de interes etc.
Instalare rapidă;
Tehnologii standard în industrie;
Securitate - acces la documente;
Securitate - acces la funcționalități – prin interfața de configurare;
Securitate - pachetele de informații din rețea sunt criptate dinamic;
Scalabilitate - fiind construita pe o arhitectura n-tier, aplicația permite
extinderea, fără efort, de la nivel de departament, la nivel de companie;
Deschiderea la solicitările de personalizare a aplicației;
Client auto-up date - administrarea aplicației client se face de la distanţă;
Aplicația este disponibilă şi prin intermediul unui browser internet;
Reducerea traficul intre locații - file servere distribuite;
Utilizare rațională a echipamentelor de stocare - prin gestionarea
centralizată a documentelor;
Avantaje calitative
Arhivarea electronică
Are mai multe scopuri, dar toate sunt legate de creşterea eficienţei în
manevrarea documentelor. Documentele originale sunt scanate, iar imaginea digitală
este stocată într-o bază de date. Acestei imagini i se asociază diferite câmpuri (de
exemplu: suma, data, număr, nume), după care poate fi localizată. În momentul în care
documentul a fost introdus în baza de date el poate fi detectat cu ajutorul unui
program care face asocierea între câmpurile indexate şi document.
Un prim argument în favoarea arhivării electronice este necesitatea regăsirii
rapide a documentelor. În cazul arhivelor clasice, regăsirea unor documente este un
mare consumator de timp. De foarte multe ori rapoartele pe baza cărora trebuie să se
ia o decizie sunt incomplete (din cauza imposibilităţii găsirii tuturor documentelor ce
concură la realizarea raportului în timp util), iar deciziile pot fi greşite, într-o măsură
mai mare sau mai mică. Şi asta dacă nu se pune problema unor sucursale. În acest caz,
lucrurile se complică şi mai mult: eforturile pentru a deplasa oameni în sucursale sau
pentru a trimite documentele fizice în sediul central atrag după sine costuri mari (şi
costurile cresc cu numărul sucursalelor şi cu gradul de împrăştiere geografică).
O altă problemă a arhivei fizice este spaţiul efectiv ocupat de aceasta. Pentru a
putea fi consultată (cel puţin proiectele care sunt în lucru) arhiva trebuie ţinută în
aceeaşi locaţie cu sediul care le utilizează. Aceasta atrage după sine costuri mari, mai
ales când birourile sunt în locaţii centrale, extrem de scumpe. Un alt factor ce nu
trebuie neglijat în privinţa arhivei fizice este degradarea rapidă a documentelor prin
manevrarea lor repetată. Dacă este vorba de documentaţie scrisă, formate mici A4
maxim A3, pe hârtie, lucrurile mai pot fi încă stăpânite.
Sisteme informatice pentru managementul conţinutului 111
Există şi riscul distrugerii arhivei fizice din cauze externe: incendii, cutremure,
inundaţii. Mai nou, documentele electronice pot fi admise ca probe în instanţă, dar
pentru aceasta ele trebuie să îndeplinească o serie de condiţii (în principal să respecte
condiţiile impuse de Legea 135 - Legea privind arhivarea documentelor în formă
electronică).
Odată trecută în formă electronică, arhiva poate fi exploatată utilizând un
program de managementul documentelor, program ce are ca scop accesul eficient la
documente, prin clasificarea şi indexarea acestora, scăpându-ne astfel de foarte multe
neajunsuri, dintre care gestionarea variantelor documentelor este doar un exemplu.
Arhiva în formă electronică se poate integra foarte bine în aplicaţiile ERP ale
companiei. Toţi aceşti factori presează asupra companiilor care doresc să-şi mărească
productivitatea şi să-şi transforme arhiva fizică în una electronică.
Cui îi este folositoare o astfel de acţiune de transformare a arhivei fizice în una
electronică? Practic, oricui care are de accesat un număr mare de documente (notarii,
de exemplu), care are nevoie să ia rapid decizii (managerii de companii), care are
nevoie de acces la acelaşi document din mai multe locaţii (companii cu multe
sucursale, sau cu birouri chiar în altă ţară, sau chiar companii unde acelaşi document ar
trebui multiplicat în zece sau cincisprezece exemplare pentru fiecare departament). Iar
dacă ne referim la formate mari (desene), spaţiul mare ocupat şi gradul mare de
degradare al originalelor (ca să nu mai vorbim de costurile cu multiplicarea) sunt
lucruri care vorbesc de la sine.
Pentru documentele ce apar ulterior creării arhivei electronice - contracte,
facturi, scrisori etc., introducerea lor în baza de date se poate face de către client, prin
resurse proprii sau, periodic, prin apelarea la aceleaşi servicii externe care au generat
şi arhiva iniţială. În final, o bună exploatare a arhivei electronice se face doar cu
ajutorul unui program de managementul documentelor. În caz contrar, consultarea
arhivei electronice poate să fie la fel de dificilă ca şi căutarea fizică a documentelor
necesare.
Accesul la documente prin intermediul portalurilor Web: Un portal Web este capabil
sa răspundă cerințelor de acces mobil la sursele informaționale. Disponibilitatea
soluției de management de documente prin intermediul Web-ului aduce o serie de
beneficii. Astfel, având în vedere că singura cerință pe parte de client este existenta
unui browser Web (aplicație prezentă pe orice calculator), nu va fi necesara instalarea
şi configurarea fiecărei stații care folosește respectiva aplicație. De asemenea,
sistemele informatice de acest tip vor putea fi utilizate fără probleme atât din rețeaua
intranet, cat şi din mediul Internet. Pentru disponibilitatea în cele doua medii nu sunt
necesare eforturi pentru adaptarea aplicațiilor. Utilizatorii pot distribui cu uşurinţă
informaţiile relevante către colaboratori, reducându-se şi mărimea mesajelor e-mail şi
a ataşamentelor prin transmiterea de link-uri.
Prin XML şi serviciile Web poate fi asigurat un nivel ridicat de interoperabilitate pentru
soluțiile de management de documente. Prin aceste tehnologii poate fi asigurată
integrarea aplicațiilor de management de documente în medii eterogene. Serviciile
Web sunt o modalitate standardizată de distribuire a aplicațiilor care folosește
Internetul şi tehnologii fundamentale ce stau la baza acestei rețele. De asemenea,
serviciile Web oferă posibilitatea de interconectare a unei palete vaste de aplicații
disponibile pe diferite platforme şi în diverse locații de pe glob.
1
http://www.cmswire.com/cms/products/
Enterprise CMS
Alfresco Enterprise (J2EE) IXOS (OpenText)
Day Software Microsoft SharePoint ECM
EMC/Documentum Mobius
Content Conductor Nuxeo EP
FileNet (IBM) OpenText
Hummingbird (OpenText) Optika (Stellent/Oracle)
Hyland OnBase Stellent/Oracle ECM
IBM Vignette ECM
Identitech VYRE - Unify
Interwoven ECM
Document Management
Ademero Microsoft SharePoint Server
Astroia Software Microsoft SharePoint Services
ColumbiaSoft Document Vasont
Locator Xerox DocuShare
Group Drive Xythos On Demand
1
en.wikipedia.org/wiki/Digital_asset_management
2
http://www.dpsmagazine.com/content/ContentCT.asp?P=244
Figura 2.14 - Diferenţe între Document Management şi Digital Asset Management
Utilizări şi procese
Metadate
Vocabular
Drepturi
si
Permisii
Multimi
Locatia
Obiectului
Bun digital
Legaturi
Setul de instrumente descris mai sus este construit pentru gestiunea diferitelor
tipuri de fişiere. În consecinţă, o altă modalitate de a face distincţia între DAM şi DM
este de a urmări tipurile de fişiere gestionate de cele două sisteme.
Hârtie; Imagini
Documente rezultate din instrumente precum Logo-uri
Word, Excel, PowerPoint etc.; Documente create de instrumente de tipul
PDF; QuarkXPres, Adobe InDesign, Illustrator etc.;
Rezultate sau stream-uri de imprimare din Audio
diverse sisteme (de exemplu COLD); Video
Documente scanate; Animaţii în Flash;
Documente şi fragmente XML; CAD
Alte tipuri de fişiere text, inclusiv HTML;’ Imagini 3-D;
Alte imagini şi fişiere multimedia, utilizate ca HTML;
fişiere binare generice. PowerPoint.
Unele sisteme DAM pot să gestioneze fişiere bazate pe text de tipul Word sau
PDF în timp ce unele sisteme DM sunt capabile să stocheze şi să gestioneze imagini sau
chiar filme scurte. Cu toate acestea, trebuie înţeles faptul că simpla stocare a acestor
fişiere în depozit nu este suficientă pentru acoperirea tuturor cazurilor de utilizare
pentru gestiunea bunurilor media.
Sisteme informatice pentru managementul conţinutului 123
Utilizări în organizaţii
1
http://www.digitalassetmanagement.com/benefits.php
Sisteme informatice pentru managementul conţinutului 125
Codul Fiscal şi normele de aplicare ale codului fiscal, precum şi Noul regim de
numerotare şi emitere a facturilor începând cu 1 ianuarie 2007 (conf. Ordinului 2226 –
2006) par a veni în sprijinul desprinderii facturii de suportul hârtie.
Astfel:
- Formularele de factură, chitanţă, avizul de însoţire a mărfii, nu mai au regim special
de numerotare şi tipărire
- Regimul intern de numerotare al facturii se face pe baza unei decizii interne a
administratorului societăţii. Seriile de numere se pot defini anual.
- Folosirea vechilor formulare cu regim special este posibilă cu condiţia menţionării lor
în decizia internă. Elementele componente obligatorii ale unei facturi sunt definite de
Art. 155 din Codul Fiscal. Astfel, nu mai sunt neapărat necesare conturile cu coduri
IBAN, dar şi trecerea unor date cum ar fi cele din Cartea de identitate a emiţătorului,
sau ştampilele şi semnătura furnizorului şi beneficiarului.
Figura 2.19 – Depozitul de înregistrări
În cazul achiziţiilor, sunt necesare din condiţiile de mai sus doar primele două.
1) Prelucrare tradiţională
2) Dematerializare simplă
3) Dematerializare cu indexare
4) Factura electronică – imagine semnată electronic
5) Factura electronică – document electronic structurat
Conţinutul web este conţinutul textual, vizual sau auricular care se găseşte ca
parte a experienţei utilizatorului pe site-urile web. Poate să includă printre altele: text,
sunet, imagini, video şi animaţii.
In timp ce Internetul a început cu proiectul de cercetare al guvernului Statelor
Unite în anii ‘50, web-ul, aşa cum este acum în zilele noastre, nu a apărut decât după
ce Tim Berners-Lee şi colegii lui de la Laboratoarele Europene (CERN) au propus
conceptul de a conecta documentele între ele prin hiperlegături. Dar acest lucru nu s-a
realizat decît atunci cînd Moisac, înaintaşul browser-elor de astăzi, a făcut ca Internetul
sa devină mult mai mult decât serviciul unui sistem de fişiere.
Folosirea textului cu legături (hypertextul), a hiperlegăturilor şi a paginilor
bazate pe partajarea de informaţii introduse de Moisac şi mai târziu de Netscape, a
contribuit la definirea conţinutului web şi la formarea site-urilor web. Astăzi există mai
multe categorii de site-uri web, clasificate în funcţie de conţinutul lor web.
Conceptul de Pagină
Deşi reţeaua Internet este principala resursă care se foloseşte pentru accesarea
online a unor locaţii specifice, sunt invocate diferite protocoale pentru accesarea
informaţiilor încapsulate. Când se accesează o adresă cum ar fi “http://
www.youtube.com” este de aşteptat să vedem un domeniu de pagini web, dar fiecare
pagină are instrumente încapsulate pentru a putea reda videoclipurile.
Scopul WCMS
1
Ethier, Kay, Scott Abel: Introduction to Structured Content Management with XML. CMS Watch
2
Woric Faithfull. Using XSLT to Make Websites. woric.net.
Sisteme informatice pentru managementul conţinutului 137
care sunt, în cele din urmă, responsabili pentru conţinut. Simplificat, un sistem de
management al conţinutului web:
Simplifică procesul de creare, publicare şi actualizare a conţinutului
site-urilor web ale unei organizaţii;
Permite atât persoanelor ne-tehnice, cît şi experţilor să participe;
Micşorează timpul şi costurile asociate cu întreţinerea conţinutului
web.
Facilităţile WCMS
1
Wikipedia, http://en.wikipedia.org/wiki/Web_content_management_system, 25 ianuarie 2008.
Sisteme informatice pentru managementul conţinutului 139
Aspect
grafic A
Conţinut B
Business C
Logic
Cele mai multe pachete WCMS oferă facilităţi canonice de ECM cu un scop
particular: transmiterea conţinutului către Web în concordanţă cu regulile de afaceri
ale organizaţiei. Produsele mai noi tind să scoată in evidenţă interfeţele bazate pe web
şi să nu mai utilizeze instrumentele proprietare, bazate pe clienţi special instalaţi pe
calculatoarele editorilor. Mai mult decât în alte segmente ECM, WCMS au mai multă
grijă de transmiterea conţinutului către utilizatorii finali. Pe lîngă funcţionalităţile ECM,
pachetele WCMS aduc funcţionalităţi speciale, incluzând:
Unelte de creare şi transformare a conţinutului: pentru a permite
utilizatorilor să introducă în sistem conţinut care nu a fost normalizat în
HTML sau XML;’
Gestiunea agregărilor şi componentelor: pentru a combina şi publica
bucăţi distincte de conţinut care ar putea proveni din surse variate;
Şabloane: pentru a asigura consistenţa şi afişarea predictibilă pentru
mediul web;
Căi de desfăşurare a conţinutului: pentru publicarea conţinutului în
platforme Internet standard (dezvoltarea, testare, producţie);
Asamblarea şi livrarea paginii: pentru producţia şi transmiterea de
conţinut dinamic către utilizatorii finali sau către consumatorii de
conţinut;
Personalizare: pentru transmiterea de conţinut personalizat către
consumatorii individuali;
Caching şi replicare: pentru asigurarea de performanţe înalte în medii
publice, caracterizate prin vârfuri de cereri;
Micro-aplicaţii: asigurarea interactivităţii de bază cu un site web;
Sindicalizare: pentru a adăuga valoare conţinutului prin distribuire
bazată pe web;
Formatare pentru dispozitive speciale: conţinutul poate lua diverse
formate, inclusiv conţinut care să fie afişat de către dispozitivele mobile;
Abordate şi din alte puncte de vedere, facilităţile esenţiale ale unui sistem de
WCM ar putea fi:
Flexibilitate: sistemul de gestiune a conţinutului web ar trebui să se
adapteze la site-ul web actual sau la noua arhitectură refăcută a
acestuia. Flexibilitatea în oferirea de unelte potrivite pentru
contributorii/autorii de conţinut pentru a-şi îndeplini sarcinile este de o
importanţă covârșitoare. În plus, flexibilitatea sistemului de gestiune a
conţinutului este importantă pentru a evita crearea de gâtuiri
suplimentare. În timp ce un sistem de WCM ar putea facilita
actualizările făcute astăzi, tipul şi dimensiunea actualizărilor s-ar putea
schimba pe viitor, iar dacă sistemul nu este flexibil, va apărea o gâtuire
suplimentară în actualizarea sistemului de management a conţinutului
web;
Scalabilitate: dacă sistemul este instalat pentru un singur departament
acum, iar pe viitor se prevede o instalare pentru întreaga organizaţie,
trebuie să ne asigurăm de faptul că sistemul va fi scalabil, astfel încât să
acopere nevoile instituţionale în creştere. Poate, mai important, trebuie
asigurat faptul că sistemul este scalabil astfel încât să acopere o
diversitate largă de tipuri de conţinut şi de autori, de la cei mai tehnici
până la cei care se simt confortabil doar utilizând un procesor de text. În
cele din urmă, sistemul trebuie să fie scalabil pentru a putea utiliza noi
tehnologii pe măsură ce acestea sunt adoptate pe web şi Internet.
Sisteme informatice pentru managementul conţinutului 141
Soluţiile WCMS au adoptat în ultima vreme şi alte facilităţi cheie din alte
segmente de tehnologie. De exemplu, producători de WCM au adoptat facilităţi de
DAM – Digital Asset Management pe măsură ce bunurile electronice grafice ale
clienţilor lor au devenit din ce în ce mai sofisticate.
În cele din urmă, conţinutul care va fi publicat pe Web are un anumit ciclu de
viaţă, iar înţelegerea acestuia reprezintă cheia spre construirea cererilor şi
tehnologiilor care se potrivesc cel mai bine cu necesităţile unei organizaţii.
Mai există un motiv cheie pentru a stabili planurile proiectului în avans: aceste
detalii influenţează ce fel de produs este obţinut. Produsele nu sunt nelimitate ca
flexibilitate şi fiecare produs are atuuri şi slăbiciuni. Acest lucru înseamnă că sunt
foarte eficiente în anumite cazuri şi complet nefolositoare în altele.
Principalul motiv pentru un proiect web nou este că site-ul iniţial este “stricat”.
Problemele tipice includ structura slabă a site-ului, design-ul şi conţinutul de date
învechit. Pentru acestea, organizațiile trebuie să ţină cont de procesul de design.
Acesta implică acţiuni cum ar fi sortarea şi testarea caracterului utilizatorului. In orice
regiune din lume sunt câteva firme care sunt specializate în acest tip de procese.
Acestea au o experienţă vastă în privinţa nevoilor utilizatorilor şi a procesului de
reproiectare, oferind încredere clienţilor că noul design este mai eficient şi nu doar
atractiv.
Dincolo de procesul de design centrat pe utilizator, trebuie avut în atenţie şi
designul la vedere. Acesta produce interfaţa finală a site-ului, incluzând grafică şi
culori; acest serviciu este furnizat de un alt specialist în interfeţe web, deseori de la o
firmă specializată.
Dar există şi firme care oferă un pachet întreg atât în privinţa uzabilităţii cât şi
al designului interfeţei. Când se caută un designer, organizaţiile trebuie să aibă în
vedere experienţa şi metodologia folosită de firmă. In timp ce agenţiile de design web
pot oferi un CMS, ele practic pot doar să furnizeze interfeţe grafice sau aspectul pentru
acel CMS. Acest lucru nu garantează faptul că tehnologia aleasă este cea optimă, chiar
dacă aptitudinile agenţiei de design sunt foarte bune.
Deşi la fel de important, designul ar trebui făcut înainte de alegerea unui CMS.
Toţi utilizatorii finali recunosc faptul că designul final este un criteriu important în
selectarea produsului CMS, iar facilităţile aplicaţiei pot fi ulterior evaluate în timp ce
vânzătorul face demonstraţie pentru abilitatea implementării designului dorit.
Documente structurate
Documentele structurate sunt un alt tip de media care sunt foarte relevante
într-un CMS. Dezvoltarea lor s-a produs din două părţi distincte, anume industria de
printare media şi cea a domeniilor Web. Ca urmare, inițiativele hypertext-ului şi
hypermedia au contribuit la dezvoltarea limbajelor şi standardelor pentru
documentele structurate.
In contrast cu documentele obişnuite în format RTF, MS Word sau PDF,
documentele structurate sunt caracterizate de folosirea limbajului de marcare “mark-
up” şi link-urilor către alte documente externe şi informaţii. Pentru CMS, acestea
reprezintă provocări importante.
Standardele importante considerate în acest sens sunt SGML, HTML si XML.
SGML
Cum World Wide Web a devenit tot mai popular, a apărut o cerere tot mai
mare pentru administrarea documentelor Web într-un CMS. Paginile web sunt
documente electronice care combină textul, imaginile, graficele, sunetele şi
elementele video dar şi unele mici programe executabile. Aceste documente sunt
stocate pe un server de unde utilizatorul le poate accesa. Diferitele elemente ale
paginilor Web nu trebuie codate în pagina propriu-zisă dar pot fi aduse în pagină, prin
referinţă la diferite linkuri. In cadrul unei pagini web pot exista mai multe documente
sau elemente esenţiale care sunt conectate prin linkuri.
Tag Descriere
<html>……</html> Declară un document HTML
<head>……</head> Conţine antetul documentului
<title>……</title> Defineşte titlul documentului
<body>……</body> Conţine corpul documentului
<hn>………</hn> Defineşte nivelul de adâncime a titlurilor
<li>………</li> Defineşte o listă
<br /> Carriage return
<p>………</p> Conţine un paragraf
<img src=”surs_imagine.jpg” /> Incarcă o imagine de la adresa specificată
<a href=”URL”>…….</a> Defineşte un hyperlink către un alt document
Pentru a administra paginile web în cadrul unui CMS, este necesar să fie definit
gradul documentului. De exemplu, imaginile şi fişierele audio sau video care sunt
accesate prin referinţă de către pagina web pot fi considerate parte din documentul de
unde este accesat linkul, ce poate fi chiar în exteriorul organizaţiei. Deci, când este
vorba de pagini web dintr-un CMS, este important să fie specificată adâncimea arhivei,
adică spaţiul unde obiectele ataşate ar trebui incluse în arhivele şi procesele de
management.
Paginile web sunt scrise folosind limbajul HTML (HyperText Markup Language).
HTML este un limbaj de marcare simplu, care este responsabil cu prezentarea
documentului pe ecran.
In comparaţie cu documentele SGML, documentele HTML sunt simple texte
ASCII care sunt structurate cu tag-uri. Aceste tag-uri pot fi văzute ca nişte comenzi de
control al formatului. Documentul HTML este structurat în trei părți, adică definiţia
tipului documentului, antetul documentului şi corpul documentului. In cadrul unui
document HTML, metadatele pot fi codate şi nu sunt accesibile utilizatorului pe ecran
dar pot fi folosite pentru a stabili autorul site-ului şi a evita probleme legate de
drepturile de autor sau, simplu, pentru a furniza unui motor de căutare web informaţii
despre pagina respectivă.
1
http://www.w3.org/Style/, http://dsssl.netfolder.com/
Tabelul de mai sus arată câteva tag-uri uzuale în HTML. După cum se observă
din tabel, unele tag-uri necesită semne de început şi de sfârşit pentru a include un
element. Dacă unul dintre tag-urile de început sau sfârşit nu se găsesc, documentul are
o eroare sintactică.
Aşa numita foaie de stil CSS poate fi utilizată în HTML pentru ca declararea
elementelor necesare să aibă aspectul cerut. Folosind foaia de stil, se separă aşezarea
în pagină de conţinutul propriu zis. Cu CSS (Cascading Style Sheets), aspectul unei
pagini web poate fi exact determinat. Foile de stil trebuie, de asemenea, administrate
într-un CMS care gestionează paginile web, referinţele din cadrul documentelor HTML
la foile de stil trebuind gstionate corect.
Cele mai multe iniţiative şi site-uri Web pot fi caracterizate în unul din cele cinci
stagii de maturitate, conform figurii următoare. Pe măsură ce organizaţiile evoluează
într-un alt stagiu de maturitate, acestea au nevoie de soluţii care să conveargă cu
nevoile de convingere de la exteriorul acestor stagii.
1
McNabb, K: Changing Perspective on Content Delivery:
http://www.forrester.com/Research/Document/Excerpt/0,7211,37196,00.html
2
McNabb, K: Use Workflow To Increase Web Content Management Adoption:
http://www.forrester.com/Research/Document/Excerpt/0,7211,41670,00.html
Stagiu Focus Model Criterii de evaluare
iniţiativele Web. iniţiativelor Web sponsorizat de afacere, conţinut între site-
condus de IT uri
Exploatare în mai
mulţi paşi
Integrarea cu un
portal
4) Capacitate de Suport pentru Fonduri: parte din Editarea în-site şi
operaţiuni de operaţiunile de operaţiunile online în-context;
afaceri business pentru crearea Diagnoza
Grupurile de operaţiuni şi gestionarea Managementul conţinutului;
de afaceri (e-Business, iniţiativelor online; programului: gestionat Segmentare şi
operaţiuni de limitarea participării IT de operaţiunile de personalizare;
marketing, comunicări în administrare şi afaceri, administrare şi Multi-canal (email,
de marketing) identifică personalizare suport pentru buletine de ştiri,
gestiunea conţinutului personalizare de la IT site-uri Web)
ca proces esenţial în
operaţiunile online
5) Servicii de afaceri Oferă operaţiuni online Fonduri: parte din Site-uri de referinţă
Grupul de operaţiuni de eficiente, utilizează IT operaţiunile online Workflow integrat,
afaceri oferă un serviciu pentru inovare diagnoză pentru
care asistă mai mult de Managementul site şi conţinut;
o unitate de programului: gestionat Suport pentru
afaceri/canal. Grupul de de operaţiunile de testare
operaţiuni îmbrăţisează afaceri, suport pentru multivariantă;
utilizarea gestiunii inovaţii IT Arhivarea şi
conţinutului pentru păstrarea
suportul operaţiunilor conţinutului şi a
în desfăşurare site-ului
Cei mai mulţi producători de aplicaţii WCM pot fi clasificaţi într-unul din
următoarele tipuri:
1) Concentraţi pe soluţii WCM generale;
2) Concentraţi pe suport pentru conţinut convingător.
Facilităţi ale produselor generale Facilităţi ale produselor care oferă conţinut
de tip Web Content Management „convingător”
Gestiunea ciclului de viaţă a Funcţionalităţi de personalizare permițând
conţinutului folosind servicii de personalului netehnic să gestioneze segmente de
bibliotecă şi funcţionalităţile audienţă şi să direcţioneze conţinutul către
politicilor de păstrare (pe termen vizitatorii autentificaţi şi neautentificaţi ai site-ului;
lung) Instrumente pentru analiza modului în care
Securitatea conţinutului şi vizitatorii site-ului consumă conţinutul;
administrarea drepturilor pentru Funcţionalităţi de testare multi-variantă permițând
protejarea conţinutului managerilor site-ului să testeze schimbările de
Facilităţi de publicare tranzacţionale, conţinut pe segmente de audienţă;
permițând autorilor să publice Suport pentru transmiterea conţinutului către
„pachete”de conţinut simultan canale multiple (Web, email, wireless);
Instrumente care permit dezvoltarea Facilităţi de globalizare permiţând administrarea mai
de workflow-uri complexe de către multor site-uri în mai multe limbi, cu conexiuni la
personal tehnic şi netehnic servicii de traducere automată
Integrarea cu produse de tip portal
pentru managementul site-urilor
intranet şi extranet
CAPITOLUL III
ENTERPRISE CONTENT MANAGEMENT
Scopul şi definiţia
In cele din urmă, ECM este un nou domeniu problemă cu drepturile lui, el utilizând
tehnologiile şi strategiile managementului conţinutului (digital) pentru a rezolva
problemele proceselor de afaceri, precum înregistrări, partajarea de cunoştinţe,
personalizarea şi standardizarea conţinutului ş.a.
Noi suite de produse au rezultat din combinaţia de captură, căutare şi abilităţi
reţelistice cu managementul conţinutului, care au rezolvat în mod tradiţional arhivarea
digitală, managementul documentului şi a workflow-ul. In general, aceasta se întâmplă
când managementul conţinutului se trasforma în ECM.
Nomenclatura difertă tinde să conţină toate ariile de problema legate de
folosirea şi conservarea informaţiei într-o organizaţie, în toate formele ei, nu numai
faţa ei web expusă lumii exterioare. De aceea, cele mai multe soluţii se concentrează
pe sisteme ”afacere catre angajat” sau B2E. Oricum, odată cu dezvoltarea soluţiilor, au
apărut noi componente pentru managementul conţinutului.
De exemplu, pe măsura ce conţinutul nestructurat este înregistrat sau „ieşit”
din sistemul ECM, fiecare folosire poate să îmbogăţească profilul conţinutului, într-o
oarecare măsura în mod automat, astfel încât sistemul să poată dobândii sau “învăţa”
noi moduri de filtrare, moduri de routare şi căutare, taxonomii de corporaţie şi retele
semantice, care în schimb ajută la dezvoltarea deciziilor legate de regulile de reţinere,
determinând ce înregistrări sau documente să fie pastrate şi care să fie descărcate şi
când. Problemele de acest fel devin din ce în ce mai importante, pe măsura ce e-mailul
şi mesajul instantaneu sunt utilizate din ce în ce mai mult în stabilirea procesului
deciziei în cadrul organizaţiei
Astfel, termenul ECM se referă la soluţiile care se concentrează pe furnizarea
informaţiei “în casă”, deseori folosind tehnologiile Internet. Soluţiile tind să furnizeze
servicii Intranet personalului angajat (B2E), dar include de asemenea şi portaluri de
întreprindere pentru B2B, B2G, G2B etc. Această categorie include majoritatea
formelor de management al documentelor, de groupware şi soluţiile workflow care nu
şi-au transformat complet arhitectura, dar furnizează o interfaţă web pentru aplicaţiile
lor. Digital Asset Management (DAM) este, de asemenea, o formă a ECM care se ocupă
de stocarea conţinutului folosind tehnologia digitală electronică.
Caracteristicile
ECM lucrează cel mai bine cînd este efectiv „invizibil” pentru utilizatori.
Tehnologiile ECM reprezintă infrastructuri care suportă aplicaţii specializare ca servicii
subordonate. ECM este, deci, o colecţie de componente de infrastrcutră care se
potrivesc într-un model multi-strat şi cuprinde toate tehnologiile legate de
documentele (DRT – Document Related Technologies) pentru gestiunea, transmiterea
şi gestiunea datelor structurate şi nestructurate. Deci, ECM este una din componentele
necesare, de bază, ale ariei de aplicaţii E-Business. ECM gestionează de asemenea
toate informaţiile unui WCM şi acoperă necesităţile de arhivare ca un depozit
universal.
Menţinere (păstrare);
Distribuire;
Acest model este bazat pe cinci categorii de vârf ale AIIM International. Ariile
de aplicaţie tradiţionale sunt:
Managementul documentelor;
Colaborare (sau software de colaborare, groupware);
Managementul conţinutului web (inclusiv portalurile web);
Managementul înregistrarilor (arhivarea şi completarea sistemelor
manageriale pe unităţi de stocare pe termen lung);
Workflow/Business process management (BPM).
Captura
Imaginea de document
Prelucrarea formularelor
COLD
Agregarea
Gestionarea
Scopul unui sistem închis ECM este să furnizeze aceste două componente doar
o singură dată, sub formă de servicii pentru toate soluţiile de gestiune cum ar fi
Managementul Documentelor, Colaborarea, Managemetul Conţinutului Web,
Managementul Înregistrarilor şi Workflow / Managementul Procesului de Afaceri.
Pentru a lega diverse componente de gestiune, ele ar trebui să aibă interfaţe
standardizate şi o procese de tranzacţionare securizate pentru comunicare inter-
componente.
Sisteme informatice pentru managementul conţinutului 157
DM – Document Management
Stocarea
Depozite/magazii
Diferitele tipuri de magazii ale ECM pot fi folosite în combinaţie. Printre tipurile
posibile putem găsi:
Sistemul de fişiere: este folosit în primul rînd pentru stocarea temporară
(memoria temporară) ca cache intermediar de intrare sau ieşire. Scopul
ECM-ului este să reducă încărcarea sistemului de fişiere şi să facă informaţia
disponibila în general prin tehnologii de “manevrare”, “stocare” şi
”menţinere”.
Sistemul de management al conţinutului: Acesta este sistemul actual de
stocare şi magazia pentru conţinut, care poate fi o bază de date sau un
sistem de stocare specializat;
Baze de date: administrează informaţia de acces, dar pot fi, de asemenea,
folosite pentru depozitarea directă a documentelor, a conţinutului şi a
fişierelor media;
Depozit de date/ Data Warehouses: acestea sunt sisteme de stocare
complexe bazate pe baze de date, care furnizează informaţie din toate
categoriile de surse. Ele pot fi de asemenea proiectate cu mai multe funcţii
globale, cum ar fi magaziile de documente şi informaţii.
Serviciile de Bibliotecă
Serviciile bibliotecă au de-a face doar în mod metaforic cu bibliotecile. Ele sunt
componentele administrative asemănătoare de sistemul care gestionează accesul la
informaţie. Serviciul de bibliotecă este raspunzator pentru luarea şi stocarea
informaţiei din componenetele “captura” şi ”manevrare”. El stabileşte, de asemenea,
locaţiile de stocare în memoria dinamică de stocare, “stocarea” reală şi arhivarea pe
termen lung, pentru “menţinere”. Locaţia de stocare este determinată doar de
caracteristicile şi clasificările informaţiei. Serviciul de bibliotecă lucrează în acord cu
baza de date a componentelor “manevră”. Acestea servesc funcţiilor necesare de:
Căutare;
Regăsire.
Tehnologii de stocare
Păstrarea
Transmiterea
Figura 3.5 – Livrarea conţinutului către aplicaţiile şi utilizatorii finali din cadrul unui
ECM.
Tehnologii de transformare
Tehnologii de securitate
Tehnologiile de securitate sunt funcţii care se pot întinde pe mai multe secţiuni
şi care sunt folosite pentru toate componentele ECM. Spre exemplu, semnăturile
electronice sunt folosite nu numai când documentele sunt trimise, ci şi în culegerea
prin scanarea datelor, pentru documentarea completitudinii capturii.
PKI (Public/Private Key Infrastructure) este o tehnologie de bază pentru
semnăturile electronice. Ea gestionează soluţiile şi certificatele şi verifică autenticitatea
semnăturilor. Alte semnături electronice demonstrează identitatea expeditorului şi
integritatea datelor expediate, (faptul că acestea sunt complete şi neschimbate în
tranzit.)
In Europa există trei forme de semnături electronice, de calităţi şi protecţii
diferite: simple, avansate şi calificate. În cele mai multe ţări europene semnătura
electronică calificată este legal admisibilă în documente şi contracte legale. In cele din
urmă, există Digital Rights Management (Managementul Drepturilor Digitale) şi
Watermaking. Acestea sunt folosite în Content Syndication şi în MAM (Media Asset
Management) pentru gestionanrea şi securizarea proprietăţii drepturilor intelectuale şi
a drepturilor de autor. Acestea lucrează cu tehnici precum filigramele electronice care
sunt integrate direct în fişier şi caută să protejeze întrebuinţarea drepturilor şi a
conţinutului care este publicat pe Internet.
Sisteme informatice pentru managementul conţinutului 167
Distribuirea
1
www.oreilly.com/catalog/esb
Figura 3.6 - Diagrama cererii de e-business
A. Integrarea
Componenta fundamentală a infrastructurii cererii est integrarea. În anul 2002,
Sam Palsiano, şef executiv al IBM definea cererea în felul următor:
"O afacere de tip e-business apare într-o întreprindere a cărei procese de
afaceri, integrează partenerii, furnizorii şi consumatorii, putând răspunde rapid oricărui
consumator, oportunităţi de piaţă sau ameninţare exterioară." 1,
Integrarea poate atinge diferite nivele:
persoanele
Pentru a funcţiona la un nivel operativ al cererii, apar procese de natură
om-om sau om-proces care interacţionează în măsură nelimitată până la
utilizatorul final. Partenerii de afaceri, consumatorii şi angajaţii reprezintă
cu toţii resurse importante ce se adaugă valorii cererii.
procesele
1
www.ibm.com
Grupând elemente cum ar fi cele de securitate, al nivelului de service, de
monitorizare etc., se pot împărţi aplicaţiile pe diferite niveluri orizontale ale
serviciilor, prin decuplarea acestor componente ale aplicaţiilor.
aplicaţiile
Foarte multe organizaţii au investit resurse deosebit de mult în dezvoltarea
pe cât posibil pe cont propriu a unei astfel de aplicaţii. Problema care a
apărut a fost integrarea acestor aplicaţii. Scopul integrării aplicaţiilor este de
a obţine un cost cât mai scăzut transformând bazele de date şi împărţind
informaţiile între ele.
sistemele
Sistemele conduc, procesează şi livrează date utilizatorilor şi altor aplicaţii.
În cererea unui Mediu Operaţional este nevoie ca sistemul să fie
transparent pentru a putea fi uşor observabile elementele care
interacţionează în interiorul său.
datele
Datele reprezintă elementul primar al unui sistem de afaceri. Datele
reprezintă sursele de informaţii. Ele pot fi împărţite complet pentru
adoptarea unor standarde.
B. Virtualizarea
Diverse niveluri ale tehnologiei exploatează concepte ale virtualizării, aici
putând include telefonia celulară, PDA-urile, conexiunea fără fir, etc.
Aspecte ale virtualizării au fost preluate de adoptarea conceptelor
arhitecturale, incluzând design-ul orientat-obiect, precum şi dezvoltarea serviciilor web
sau XML.
Un exemplu foarte bun de virtualizare a cererii este o colecţie de resurse
distribuite care sunt disponibile într-o reţea locală la un nivel universal şi care apar
unui utilizator final ca un singur sistem virtual.
Internetul este cel mai bun exemplu de virtualizare, oferind o reţea virtuală
prin care se furnizează şi se accesează date şi aplicaţii.
Virtualizarea se bazează pe un set de resurse:
servere - acestea putând include partiţionale, emulatoare, virtualizarea
intrărilor şi ieşirilor, Ethernet virtual etc.
stocare - aici punctul central fiind reprezentat de capacitatea reţelei;
sisteme distribuite - aici putând fi incluse servicii Web, previzionare,
programare şi tranzacţii de management.
C. Automatizarea
Se adresează firmelor care astfel doresc obţinerea unor scăderi a costurilor şi a
timpului, ca rezultat al:
supraaprovizionării;
costurilor ridicate ale noilor aplicaţii;
duratei de timp alocate pentru separarea platformelor
tehnologice între diferitele organizaţii;
bugetului IT consumat pentru mentenanţă;
complexităţii în operarea sistemelor eterogene.
Sisteme informatice pentru managementul conţinutului 171
1
www.infoage.idg.com.au
Cuplarea proceselor de afaceri
Figura 3.8 -
1
en.wikipedia.org/wiki/Service-oriented_architecture
2
http://emergingtech.ittoolbox.com/documents/industry-articles/serviceoriented-architecture-
elements-of-good-design-1868
Sisteme informatice pentru managementul conţinutului 173
ESB este unul din cele mai importante modele ale SOA. ESB unifică conceptele
într-o infrastructură. Conceptul de ESB1 a fost la început descris ca fiind "o nouă
arhitectură care exploatează serviciile Web, trimiţând mesaje, realizând o rutare
inteligentă precum şi transformare" spune Roy Schulte în lucrarea sa "Predicts 2003:
Enterprise Services Buses Emerge", 2002.
Din acel moment, ESB a devenit un subiect al dezbaterilor specialiştilor în SOA şi
în servicii Web.
Figura următoare prezintă metoda SOA, precum şi componentele sale. Aceasta
arată că SOA se bazează pe existenţa mai multor metode şi tehnici ce combină
tehnologiile şi disciplinele serviciilor Web cu ESB.
1
www.oreilly.com/catalog/esb
Figura 3.9 - Componentele metodei SOA
1
www.infoworld.com/article/03/06/13/24FEesb_1.html
2
www.ibm.com/developerworks/ webservices/library/ws-esbscen/
Sisteme informatice pentru managementul conţinutului 175
1
www.ftponline.com/ea/magazine/ spring/columns/architectstoolbox
2
www.sonicsoftware.com/solutions/ soa_enterprise/enterprise_service_bus/index.ssp
Sisteme informatice pentru managementul conţinutului 177
3.2. PORTALURI
Astăzi există o mulţime de portaluri al căror scop pe termen mediu şi lung este
consolidarea, precum am menţionat şi mai sus. Această diversitate de tehnologii
reflectă în esenţă evoluţia tehnologică cu adoptarea cu grijă a tehnologiei. Principala
problemă a portalurilor corporative a fost accesul public prin Internet. Deci, primele
două generaţii de portaluri la nivel de organizaţii, din intervalul de timp 1995-1999, au
fost portaluri intranet care puteau fi utilizate doar de către angajaţi. Portalurile
intranet de astăzi pot fi caracterizate ca portaluri business-to-employee, acest termen
câştigând teren după larga răspândire a unor termeni precum business-to-business sau
business-to-consumer.
Restricţionarea portalurilor corporative la utilizatorii interni şi, posibil, la
anumiţi parteneri selectaţi, avea sens în zilele de început ale acestei tehnologii. Mai
mult, aceasta era şi perioada în care intraneturile, în general, erau la mare modă, iar
corporaţiile au adoptat rapid reţelele locale bazate pe IP. Deoarece portalurile intranet
dominau cultura organizaţională, aceste portaluri au fost numite în mod natural
portaluri de întreprindere sau portaluri corporative.
Prima generaţie de portaluri intranet s-a concentrat pe asigurarea conectivităţii
universale în organizaţie şi pe oferirea accesului la conţinutul web din ce în cel mai
bogat. Funcţionalitatea tranzacţională era iniţial limitată la operaţii simple, precum
căutarea în agende de telefon sau transmiterea cererilor pentru concedii. Mai apoi, au
Sisteme informatice pentru managementul conţinutului 181
Personalizarea
Cel mai mare pericol din punct de vedere al personalizării este acela de
intimidare a utilizatorilor prin impresia care se poate face acestora în ceea ce priveşte
încălcarea confidenţialităţii. Toate organizaţiile mari care au implementat portaluri au
secţiuni speciale pentru explicarea politicilor de confidenţialitate sau chiar a unor
tehnici utilizate pentru urmărirea şi profilarea utilizatorilor.
Produsele de personalizare ale portalurilor sau facilităţile acestora sunt bazate
pe reguli şi orientate către scopuri. Există de obicei un „motor de reguli”, care
determină şi gestionează conţinutul şi serviciile oferite fiecărui utilizator în funcţie de
profile şi reguli. În cazul în care se utilizează profilul implicit, „motorul de reguli” va fi
complementat de un „motor de recomandări”, care va urmări comportamentul
utilizatorilor pe bază de tehnici statistice sofisticate, actualizând mai apoi regulile de
personalizare, astfel încât utilizatorul poate influenţa experienţa cu portalul pe baza
vizitelor anterioare.
Portaluri business-to-employee
Portaluri business-to-consumer
Portaluri business-to-business
Portalurile b2b ar trebui să fie baza viitorului comerţ electronic. Portalurile b2b
pot fi utilizate pentru două scopuri diferite:
1. interacţiunea cu partenerii existenţi, distribuitori sau furnizori, în
toate aspectele mutuale ale managementului lanţului de
aprovizionare şi a managementului relaţiilor cu clienţii;
2. identificarea şi localizarea noilor oportunităţi de afaceri, împreună
cu noi parteneri, distribuitori sau furnizori de afaceri.
Portaluri wireless
Portalurile de tip wireless nu mai sunt la fel de importante astăzi precum erau
la un moment dat, acest lucru nedatorându-se creşterii continue a pieţei de acces la
Internet prin wireless ci, mai ales, datorită faptului că oamenii au realizat că
dispozitivele wireless, dată fiind creşterea importanţei acestora, sunt cel mai bine
gestionate ca parte a portalului organizaţiei şi nu prin portaluri specifice. Acest fapt
elimină nevoia de a menţine şi actualiza conţinut separat în cele două tipuri de
portaluri. Cea mai mare problemă cu dispozitivele mobile este că acestea nu au încă
lăţimea de bandă necesară, aria de prezentare sau capacităţile de navigare necesare
portalurilor din ce în ce mai sofisticate sau pline de grafică.
Soluţiile populare de tip portal de astăzi înţeleg necesitatea suportului pentru
clienţii wireless şi oferă pentru aceştia instrumente pentru conversie şi filtrarea
conţinutului pentru a asigura faptul că acelaşi conţinut sau servicii pot fi accesate atât
de clienţii legaţi prin reţele clasice cât şi pentru cei wireless. Pe lângă acestea există
instrumente puternice precum WebSpere Transcoding Publisher (WSTP) de la IBM sau
MobileSys MX pentru simplificarea integrării dispozitivelor wireless, promovând în
acest fel accesul universal la portal.
WSTP facilitează suportul noilor tipuri de dispozitive şi limbaje de marcare
(WML, de exemplu), permiţând administratorilor de portal concentrarea pe
promovarea şi menţinerea unui singur portal consolidat, independent de tipul de
client. WSPT adaptează în mod dinamic conţinutul cerut pentru a răspunde cerinţelor
dispozitivelor wireless. Deoarece conţinutul web actual este scris în HTML şi nu într-un
limbaj specific anumitor dispozitive sau clienţi, WSTP rezolvă problema integrării
dispozitivelor wireless prin legarea dinamică a diferitelor structuri HTML la structuri
dependente de dispozitiv, transmiţând astfel conţinutul în formatul necesar.
Sisteme informatice pentru managementul conţinutului 189
Toate semnele curente indică faptul că XML şi XSLT vor reprezenta modalitatea
strategică şi acceptată de gestionare a dispozitivelor mobile de către portalul
organizaţiilor. Astfel, pot exista transformări XSLT care să gestioneze tipuri de
dispozitive diferite sau chiar grupuri de dispozitive, în funcţie de necesităţi. În mod
evident, utilizarea XML pentru integrarea wireless presupune existenţa conţinutului în
format XML, format care se poate obţine extrem de uşor.
După cum se poate observa şi în figură, portlet-ul deţine o parte din fereastra
browser-ului sau a ecranului dispozitivului mobil în care este afişată pagina curentă
portalului. Din perspectiva unui utilizator, un portlet este o „fereastră” sau un canal de
conţinut, completată cu controalele necesare.
Colaborarea;
Managementul fluxului de lucru, care permite utilizatorilor să monitorizeze
şi să controleze fluxul tranzacţiilor multi-pas necesare pentru execuţia unui
anumit proces al afacerii (exemple: acceptarea unui ordin, expediţia unui
produs, facturarea unui client, recepţionarea plăţii de la clienţi etc.).
Figura următoare extinde arhitectura de bază din figura de mai sus pentru a
reflecta funcţionalitatea discutată în paragraful anterior. Cu toate că este o arhitectură
funcţională, mai trebuie incluse anumite funcţii pentru a asigura o autenticitate totală.
De exemplu, regulile joacă un rol din ce în ce mai important în managementul şi
operaţiunile unui portal. Personalizarea bazată pe reguli este unul din exemplele
discutate mai sus. Directoarele de reguli, care conţin motoare de „forţare” a acestora,
pot fi utilizate pentru transmiterea conţinutului, managementul subscripţiilor,
împărţirea pe categorii a conţinutului sau managementul fluxurilor de lucru.
Portlet-urile sau alte mecanisme similare sunt facilităţi de profil ale multor
servere de tip portal în sensul că simplifică design-ul şi întreţinerea portalului şi
accelerează disponibilitatea conţinutului. Există numeroase căi în care portlet-urile
simplifică design-ul şi micşorează timpul necesar activării conţinutului; astfel portlet-
urile oferă funcţii de modularizare şi izolare. Fiecare aplicaţie portal va fi asociată unui
portlet specific, deci fiecare aplicaţie împreună cu portlet-ul corespunzător poate fi
dezvoltată, întreţinută şi actualizată în mod independent. În consecinţă, fiecare portlet
este o entitate autonomă independentă. De exemplu, inbox-ul e-mail-ului va fi un
portlet, aplicaţia de tip calendar un alt portlet iar agenda de contacte a organizaţiei va
fi un alt portlet. Funcţia de agregare a portalului va afişa în timp real diferite portlet-
uri, corespunzătoare diferitelor aplicaţii ale portalului.
Un alt factor cheie care face portlet-urile atât de atractive este disponibilitatea
portlet-urile gata construite atât de producătorul serverului de tip portal cât şi de la
alţi producători.
Printre cele mai utilizate portlet-uri gata construite, disponibile în pachetul de
instalare al portal-ului sau care pot fi instalate separat se numără:
Portlet XSL, care va afişa conţinutul de tip XML prin utilizarea
transformărilor XSL (XSLT);
Portlet WML, care va converti HTML către WML pentru ca portalul să
suporte dispozitive mobile;
Portlet de ştiri, cu suport pentru RSS sau alt protocol, astfel încît conţinutul
sindicalizat să fie direct integrat în pagina portalului;
Portlet-uri de colaborare, specifice Microsoft Exchange, Microsoft Outlook
sau Lotus Notes, cu opţiuni pentru e-mail, agendă de contacte, calendar şi
funcţie de tip „to-do list”;
Portlet pentru acces la baze de date;
Portlet pentru mesagerie instantanee;
Portlet de căutare, oferit în combinaţie cu motoare de căutare cunoscute
precum Google;
Portlet-uri specifice aplicaţiilor, cu suport pentru aplicaţii populare precum
ERP, resurse umane, CRM sau SCM, care simplifică integrarea acestor
aplicaţii larg utilizate în cadrul de lucru al portalului.
contextul unui server de tip portal, un domeniu defineşte cel mai înalt nivel al unui
anumit portal.
În cazul în care o organizaţie doreşte un singur portal consolidat, atunci întregul
portal poate fi un singur domeniu din punct de vedere al serverului care găzduieşte
portalul. Dacă organizaţia respectivă deţine mai multe portaluri, fiecare din acestea va
fi un domeniu separat dacă sunt implementate pe acelaşi server portal. Dintr-un alt
unghi, tot ceea ce este reunit sub aceeaşi adresă web aparţine unui singur domeniu;
deci, utilizarea de adrese web diferite (nume de domenii şi URL-uri) pentru portaluri
diferite dintr-o organizaţie conduce la domenii portal diferite. Domeniile sunt
importante pentru portaluri în cazul în care se doreşte execuţia mai multor portaluri pe
acelaşi server, permiţând identificarea portalurilor pe de-o parte, iar pe de alta
defineşte apartenenţa la o comunitate de utilizatori.
Personalizarea este implementată de obicei în servere portal prin intermediul
unui mecanism bazat pe roluri. În esenţă, fiecare utilizator autentificat primeşte unul
sau mai multe roluri în cadrul portalului, în timp ce utilizatorii neautentificaţi primesc
doar un rol implicit. Rolurile utilizatorilor definesc experienţa utilizatorului cu portalul
respectiv, ceea ce cuprinde modalitatea de afişare, controlul conţinutului şi serviciilor
precum şi accesul la aplicaţii.
Rolurile ar trebui definite ierarhic, într-o structură arborescentă, care să
oglindească structura organizaţiei, cel puţin din punct de vedere al organigramei,
permiţând asignarea uşoară către grupuri înrudite de oameni. De exemplu, se poate
defini un rol pentru toţi angajaţii din departamentul de resurse umane, alt rol pentru
cei din departamentul de marketing şi un altul pentru departamentul IT. Urmează apoi
asignarea de roluri specifice fiecărui departament către persoanele care au drepturi de
acces diferite la conţinut. Ca şi orice schemă ierarhică, rolurile pot moşteni
proprietăţile rolurilor de deasupra lor, existând şi mecanisme pentru modificarea şi
restricţionarea proprietăţilor moştenite. Rolurile ierarhice au marele avantaj de a
simplifica şi accelera procesul de personalizare şi administrare a portalurilor.
Gadget-urile, termen popularizat de Plumtree, este foarte asemănător unui
portlet sau web part, cu o singură mare diferenţă: un gadget este o componentă a unui
portal care operează pe un alt calculator. Gadget-urile sunt utilizate pentru integrarea
resurselor din aplicaţii şi plug-in-ul surselor de conţinut, ambele externe. În acest
context, resursele aplicaţiilor existente pot cuprinde instrumente de colaborare
precum e-mail, calendar sau directoare la nivel de organizaţie.
Numele întreg şi formal al unui gadget este „gadget web service”. Potrivit
Plumtree, gadget-urile sunt „servicii web” grafice disponibile utilizatorilor portalurilor,
care interacţionează direct cu acestea prin intermediul unui interfeţe cu utilizatorul
specifică gadget-urilor.
Ca şi în cazul portlet-urilor sau web part-urilor, mai multe gadget-uri pot si
combinate pentru a obţine o pagină a unui portal, în vederea oferirii utilizatorilor de
conţinut şi servicii personalizate. Figura de mai sus desemnează o vedere de ansamblu
a unui portal din punctul de vedere al Plumtree.
Breadcrumb, nume inventat de PeopleSoft, descrie o facilitate foarte utilă prin
care se poate face navigarea ierarhică, categorie cu categorie, pe măsură ce utilizatorul
navighează în portal urmărind link-urile oferite.
Utilizare WEB CMS Utilizare Portaluri Utilizare ECM
Simplu Locaţii Utilizare business
Broşură companie
Site orientat pe comunităţi Publicare Web Volum mare de capturi
Interacţiuni primare Dezvoltarea aplicaţiilor Web Procesare formulare
SMB/Internet departamental Portaluri de colaborare Conform cu reglementările în
vigoare
Portaluri self-service Management
Nivelul de mijloc Intranetul organizaţieii Colaborare de grup
Intranetul organizaţiei Portal de e-business Informaţii de marketing
Mgmt
E-business Integrarea aplicaţiilor în Documentaţie tehnică
organizaţii
Organizaţie – mod general Publicare organizaţie pe web
Publicare multi-canal
Micro-site-uri Orientarea spre industrie
Sănătate
Complex Guvernare
Intranet global Servicii profesionale
E-business Energie
Organizaţie – mod general Educaţie
Publicare multi-canale Sistem bancar
Siteuri de mari dimensiuni Asigurări
Producţie
Media / Divertisment
Sursa: CMS Watch – www. cmswatch.com
Sisteme informatice pentru managementul conţinutului 199
CAPITOLUL IV
APLICAŢII OPEN SOURCE CMS/PORTAL
Conceptul Open Source descrie metoda prin care sunt realizate şi dezvoltate
produse finite la care accesul utilizatorilor este liber. Utilizatorii pot acţiona şi asupra
procesului de producţie sau de dezvoltare ulterioară.
Potrivit unor accepţiuni, conceptul open source este privit din punct de vedere
ştiinţific, iar alţii văd open source ca o metodologie pragmatică.
Orice software este numit software liber dacă întruneşte toate cele 4
caracteristici de mai sus.
În acest sens "libertatea" se traduce prin posibilitatea de a redistribui, de a
efectua copii ale produsului, de modifica şi pune la dispoziţia comunităţii modificările
făcute în mod gratuit.
Libertatea de utilizare înseamnă că produsul program poate fi utilizat de orice
persoană fizică sau organizaţie, pentru orice fel de activitate (chiar şi comercială) fără
să comunice autorului programului sau unei alte entităţi acest fapt.
Libertatea de distribuire a programului presupune atât distribuirea acestuia sub
formă de cod cât şi sub formă executabilă. Distribuirea programelor în forma
executabilă este necesară pentru simplificarea instalării şi lucrului pe o altă maşină de
calcul, în timp ce forma cod este utilizată doar pentru modificare, adaptare şi corectare
a programelor. Există cazuri când datorită unor reglementări vamale sau a unor
sancţiuni comerciale internaţionale se limitează libertatea de distribuire a copiilor
programelor.
În urma mentenanţelor aduse pachetelor de programe rezultă versiuni
îmbunătăţite. Acest fapt se poate deci realiza doar pe baza existenţei codului sursă
care este modificat. Deci existenţa codului sursă pentru programele libere este o
necesitate.
Foarte important este ca toate acest libertăţi ce caracterizează software-ul
liber să fie irevocabile în timp. În cazul în care autorul programului poate revoca licenţa
fără a justifica acest lucru prin comiterea unei fapte de către utilizator, se consideră că
software-ul nu este liber.
Din acest motiv există o serie de reguli acceptate privind distribuirea de
software liber. De exemplu, copyleft (un termen derivat din copyright) înlătură
restricţiile de distribuire ale copiilor şi a versiunilor modificate, făcând ca versiunile
ulterioare realizate să fie caracterizate prin aceleaşi caracteristici de software liber ca şi
software-ul iniţial.
În concluzie, prin copyleft nu se pot adăuga limitări libertăţilor fundamentale
ale altor utilizatori. Copyleft-ul protejează libertăţile fundamentale.
Deoarece produsele software liber pot fi şi comercializate, poate exista cazul în
care pentru anumite programe GNU trebuie plătit unui distribuitor şi în acelaşi timp să
existe distribuitori care să ofere în mod gratuit acelaşi program. Odată intrat în posesia
unui program GNU, în calitate de distribuitor puteţi atât vinde respectivul produs, cât
şi să-l distribuiţi gratuit.
Software liber nu înseamnă non-comercial. Orice program caracterizat ca
software liber poate fi utilizat şi în scopuri comerciale şi trebuie să fie disponibil pentru
dezvoltare şi distribuţie comercială.
Sisteme informatice pentru managementul conţinutului 201
Oricine poate copia şi distribui copii identice ale acestui document, dar modificarea lui
nu este permisă.
0. PREAMBUL
Scopul acestei Licenţe este de a conferi unui set de instrucţiuni, manual şcolar sau altui
document folositor "libertate", înţeleasă în sensul următor: asigură tuturor libertatea
de a copia şi redistribui textul, cu sau fără modificări, în scopuri comerciale şi
necomerciale. Ca scop secundar, această Licenţă rezervă pentru autor şi editor dreptul
de a fi creditaţi pentru munca lor şi de a nu fi responsabili pentru modificările efectuate
de alţii.
Această Licenţă conferă un fel de "stânguri de autor" ("copyleft"), ceea ce înseamnă că
lucrările derivate trebuie să fie şi ele libere în sensul de mai sus. Această Licenţă este
inspirată de Licenţa Publică Generală GNU (GNU General Public License, GNU GPL),
care este o licenţă similară concepută pentru a acoperi softul liber.
Această Licenţă a fost scrisă pentru a oferi manuale pentru soft liber, pentru că softul
liber necesită documentaţie liberă: un program trebuie însoţit de manuale care oferă
aceeaşi libertate în folosire ca şi softul. Această Licenţă nu este limitată la manuale
pentru soft şi poate fi folosită pentru a acoperi orice lucrare, indiferent de subiect sau
de modul de publicare. Această Licenţă este recomandată în principal pentru lucrări
care servesc drept referinţă sau au fost scrise în scop de instruire.
1. APLICABILITATE ŞI DEFINIŢII
Această Licenţă se aplică oricărui manual sau lucrări, în orice mediu, care conţine o
notă inclusă de către deţinătorul dreptului de autor ce permite distribuţia sub
acoperirea acestei Licenţe. Nota conferă dreptul universal (world-wide), fără
indemnizaţie şi nelimitat ca durată de a folosi această lucrare în condiţiile descrise de
această Licenţă. Termenul "Documentul" folosit mai jos se referă la manualul sau
1
http://ro.wikipedia.org/wiki/Wikipedia:GNU_FDL
lucrarea acoperită de Licenţă. Orice membru al publicului este un beneficiar al acestei
Licenţe şi va fi desemnat prin termenul "Dvs." sau prin folosirea persoanei a doua. Se
consideră în mod automat că aţi acceptat termenii acestei Licenţe dacă copiaţi,
modificaţi sau distribuiţi Documentul într-un mod ce necesită permisiunea autorului în
conformitate cu legea drepturilor de autor.
O "Versiune Modificată" a Documentului este orice lucrare conţinând Documentul sau
o porţiune din Document, copiată identic sau cu modificări şi/sau tradusă într-o altă
limbă.
O "Secţiune Secundară" este o anexă cu titlu, sau o secţiune menţionată în cuprins care
are ca scop exclusiv descrierea relaţiei editorilor sau a autorilor Documentului cu
subiectul Documentului (sau cu subiecte legate de acesta) şi care nu conţine subiecte
incluse în mod direct în subiectul Documentului. (Aşadar, dacă Documentul este în
parte manual de matematică, o Secţiune Secundară nu poate conţine explicaţii
matematice.) Relaţia poate fi o conexiune istorică cu subiectul sau cu problemele
înrudite cu subiectul, sau puncte de vedere juridice, comerciale, filosofice, etice sau
politice legate de acesta.
"Secţiunile Invariante" sunt anumite Secţiuni Secundare ale căror titluri sunt specificate
ca fiind titluri de Secţiuni Invariante din Document în nota ce permite distribuţia
Documentului sub acoperirea acestei Licenţe. Dacă o secţiune nu este conformă cu
definiţia de mai sus a unei Secţiuni Secundare, ea nu poate fi desemnată drept Secţiune
Invariantă. Documentul poate să nu conţină nici o Secţiune Invariantă.
"Textele De Copertă" sunt pasaje scurte de text care sunt listate ca Texte Pentru
Coperta I (coperta din faţă) şi Texte Pentru Coperta IV (coperta din spate) în nota ce
permite distribuţia Documentului sub acoperirea acestei Licenţe. Un Text Pentru
Coperta I poate avea cel mult 5 cuvinte, iar un Text Pentru Coperta IV poate avea cel
mult 25 de cuvinte.
O copie "Transparentă" a Documentului este o copie în format electronic, reprezentată
într-un format a cărui specificaţie este disponibilă publicului. Aceasta este uşor de
modificat folosind un editor de text generic, sau un editor grafic generic (pentru
imagini compuse din pixeli) sau un editor larg răspândit de grafică vectorială (pentru
desene) şi poate fi folosită deprograme de formatare de text sau de programe de
conversie. O copie făcută într-un format de fişier Transparent, dar care prin prezenţa
sau absenţa anumitor elemente specifice formatului descurajează sau împiedică
modificările ulterioare nu este o copie Transparentă. Un format grafic - o imagine - nu
este un format Transparent dacă este folosit pentru a reprezenta o cantitate
substanţială de text. O copie care nu este "Transparentă" este "Opacă".
Exemple de formate compatibile cu copiile Transparente: text ASCII fără
marcare, format de intrare Texinfo, format de intrare LaTeX, SGML şi XML folosind un
DTD public, HTML simplu şi standard, fişiere PostScript şi PDF modificabile.
Exemple de formate Transparente pentru imagine: PNG, XCF şi JPG.
Formatele Opace includ formate de text ce pot fi citite şi editate doar de
procesoare de text particulare (proprietary), SGML şi XML pentru care DTD-ul şi/sau
uneltele de procesare nu sunt disponibile, HTML generat automat, documente
PostScript şi PDF produse de diverse procesoare de text exclusiv în scopul
printării/afişării.
"Pagina de Titlu" înseamnă, pentru o carte tipărită, pagina cu titlul şi paginile
următoare necesare pentru a tipări lizibil materialul care trebuie tipărit conform acestei
Sisteme informatice pentru managementul conţinutului 203
Pregătirea instalării
Aplicaţia DNN va fi instalată ca un director virtual al unui URL existent de forma:
http://<nume server>/DNN/
<nume server> din URL reprezintă serverul (localhost), serverul de web din
interiorul reţelei intranet, sau serverul web din extranet.
Analiza hardware
DNN nu necesită pregătiri hardware prestabilite, dar necesită o serie de
elemente software ce trebuie instalate pe o configuraţie hardware minimală.
Deoarece DNN este o aplicaţie web este de preferat ca serverul de web să aibă
mai multă memorie RAM (peste 1 GB).
Analiza software
Analiza hosting
DNN utilizează termenul de portal pentru a face diferenţa între site-urile web
pe care o singura aplicaţie le poate conţine. Portalul poate fi văzut ca o poartă de
intrare către alte web site-uri, de obicei oferind acces şi motoare de căutare a
informaţiilor.
În realitate DNN este mai mult decât o simplă poartă de acces către alte
aplicaţii. DNN oferă posibilitatea găzduirii mai multor web site-uri ce au acelaşi cod de
bază, fiecare conţinând diferite informaţii. Din punctul de vedere al funcţionării
portalului observăm două tipuri de portaluri: părinte şi copil. În calitate de
administrator orice utilizator poate realiza sute de site-uri într-un portal. În momentul
rulării aplicaţiei se determină conţinutul corect care trebuie afişat pe baza PortalID,
adică a identificării portalului accesat.
Portalurile părinte/copil
Diferenţa între portalurile părinte şi copil este vizibilă în URL-ul fiecăruia. Un
portal părinte are URL-ul de forma http://www.domeniu.ro iar portalul copil are forma
http://www.domeniu.ro/portalcopil. Aplicaţia odată instalată poate suporta orice
combinaţie a portalurilor părinte şi copil. Singura diferenţă existentă între tipurile de
portal este dată de definirea portalului. Figura următoare prezintă setările disponibile
în momentul instalării.
Setările portalului - părinte/copil
Paginile
Paginile sunt un concept relativ nou în DNN. Începând cu versiunea 3.X, acestea
sunt referite ca şi tab-uri. Acest lucru a fost realizat pentru a permite un lucru mai facil
din partea utilizatorului începător. În acest sens noţiunea de pagină poate fi văzută ca
o pagină statică html. Diferenţa este că pagina este încărcată pe baza unei serii de
parametrii.
În realitate, există doar o singură pagină care este afişată utilizatorilor, doar
conţinutul schimbându-se. Pentru administrarea paginilor portalului sunt disponibile o
serie de opţiuni ca în figura următoare:
Funcţie Descriere
Adăugare (Add) Permite adăugarea unei noi pagini în portal. După selectarea acestei
opţiuni din meniu se utilizează panoul de Management al Paginii, în care
se pot definii proprietăţile paginii (cum ar fi numele paginii, titlul, cuvinte
cheie, securitate etc.)
Setări (Settings) Meniul Setări permite modificarea paginii create precedent. Utilizatorul
poate modifica pagina curentă precum şi proprietăţile paginii.
Ştergere (Delete) Permite ştergerea sau înlăturarea paginii curente din cadrul portalului.
Copiere (Copy) Permite copierea modulelor alocate paginii curente. De asemenea este
posibilă duplicarea conţinutului în module în pagina curentă. Aceasta
presupune o salvare în timp real a setărilor portalului.
Vizualizare (Preview) Permite vizualizarea paginii în aceeaşi manieră în care o vor vedea şi
internauţii obişnuiţi. Această opţiune ajută în verificarea manierei în care
internauţii sunt afectaţi de setările paginii.
Containerele
Containerele permit creşterea imaginii portalului fără a aduce modificări skin-
ului. Scopul utilizării containerelor este de a le pune într-un modul cu câteva elemente
grafice, ce vor atrage mai multă atenţie asupra informaţiilor din respectivul modul.
Există posibilitatea şi utilizării unui singur portal pentru întreg portalul sau se
pot utiliza separat pentru fiecare modul.
De exemplu pentru modulul de Legături (Links) se utilizează un container în
pagina principală.
Module
Modulele reprezintă cea mai importantă componentă a aplicaţiei. Modulele
permit afişarea informaţiilor utilizatorului. Sunt disponibile sute de module pe baza
cărora se pot extinde funcţionalităţile aplicaţiei. Acesta este un mare avantaj deoarece
este foarte uşor să se modifice aplicaţiile după reguli şi necesităţi proprii.
Sisteme informatice pentru managementul conţinutului 217
Modulul - Anunţuri
Aşa cum sugerează şi numele, modulul Anunţuri este utilizat pentru afişarea
unei liste de anunţuri. Fiecare anunţ include titlu, text şi un link către "Detalii
suplimentare". Opţional, fiecare anunţ poate fi setat să expire la o anumită dată,
moment după care nu va mai fi afişat.
Modulul - Banner
DNN oferă un bogat set de management al vânzărilor de spaţiu publicitar. Acest
modul este utilizat pentru afişarea bannerelor cu reclame. Acest modul oferă facilităţi
în selectarea numărului bannerelor afişate şi a tipurilor disponibile.
Modulul - Contacte
Modulul contacte oferă informaţii despre un grup de oameni; exemple de
grupuri pot fi echipe de proiect, de sport, de personal sau din interiorul unui
departament. Acest modul oferă posibilitatea de editare a paginii, de către utilizatori
autorizaţi.
Modulul - Discuţii
Acest modul oferă grupuri de mesaje pe baza unui topic. Fiecare mesaj include
elementele Citire/ Mesaj de răspuns, pentru utilizatorii autorizaţi prin care aceştia pot
citi şi adăuga noi mesaje temei propuse. Acesta nu este un modul de forum propriu-zis,
el oferă doar funcţionalităţi asemănătoare dar mult mai puţine.
Modulul - Documente
Modulul Documente oferă o listă a documentelor, incluzând un link prin care se
poate downloada documentul ales. Acest modul include o pagină în care utilizatorii
autorizaţi pot adăuga noi documente şi informaţii despre acestea.
Modulul - Evenimente
Acest modul oferă o listă cu evenimentele viitoare, incluzând ora şi locaţia. Data
de expirare a evenimentelor poate fi setată automat sau manual. Modulul include o
pagină de editare prin care utilizatorii autorizaţi pot adăuga noi evenimente.
Modulul - FAQ
Modulul Frequently Asked Questions conţine întrebările cel mai des puse de
internauţi precum şi răspunsul aferent. Acest modul poate reduce suportul oferit de un
call center sau de un alt serviciu specializat.
Modulul - Feedback
Feedback permite vizitatorilor să trimită mesaje administratorului portalului.
Acest modul permite trimiterea de e-mail-uri în interiorul organizaţiei în funcţie de
conţinutul mesajului feedback.
Modulul - IFrame
Acest modul permite ca într-un browser web gen Internet Explorer să poată fi
afişate pagini cu o structură de frameuri (în pagina web este definit un loc în care este
afişat conţinutul altei pagini).
Modulul - Image
Modulul Image permite afişarea de imagini pe baza unui tag Html Img. Modulul
include şi o pagină de editare ce permite utilizatorilor autorizaţi să aleagă dintr-o
locaţie internă sau externă o imagine ce va fi afişată în portal. Totodată, utilizatorul
poate specifica dimensiunile imaginii precum şi atributele sale.
Modulul - Links
Acest modul oferă o listă de hyperlinkuri. Modulul include o pagină de editare
prin care utilizatorii autorizaţi pot edita şi adăuga noi linkuri. Fiecare link poate fi
personalizat pentru a deschide o nouă fereastră sau de a înregistra de câte ori un link
este apăsat.
Modulul - Text/HTML
Modulul Text/HTML permite scrierea editarea conţinutului paginilor din
interiorul portalului. Paginile pot fi scrise direct în HTML sau se poate utiliza un
generator de cod HTML pe baza căruia text se introduce asemănător unui editor de
text.
Modulul XML/XSL
Permite transformarea în XML/XSL. Acest modul include o pagină de editare
prin care utilizatorii autorizaţi pot specifica locaţia documentului XML sau celui XSL
utilizat în transformare.
Sisteme informatice pentru managementul conţinutului 219
Nucleul eXo
In cadrul platformei eXo, toate afacerile logice sunt încapsulate în servicii ce
sunt dependente.
Cuplarea acestor servicii se pierde prin Inversion of Control (IoC).
Din această cauză fiecare produs este compus dintr-un set de servicii.
Containerul eXo este responsabil cu atribuirea serviciilor.
Nucleul mai conţine şi un set minim de servicii ca de exemplu: Cache sau Command.
Depozitul de portlet-uri
Depozitul de portlet-uri eXo este implementarea a două specificaţii, şablonului
API şi Web Service pentru Remote Portals (WSRP).
Versiunea curentă este implementată utilizând Portlet-ul API 1.0 şi WSRP 1.0.
Versiunea eXo PC 2.0 suportă de asemenea portlet-ul 2.0 (JSR 286) şi WSRP 2.0
Portal şi WebOS
Portalul eXo este o nouă versiune ce are o interfaţă a utilizatorului
revoluţionară.
Datorită utilizării AJAX s-a obţinut un portal puternic, ce poate reproduce un
sistem de operare prin intermediul unui browser.
Imaginea afişată utilizatorului depinde de configurarea portalului,i de meniul de
navigare, precum şi de rolurile şi grupurile din care face parte utilizatorul.
Modalitatea uzuală de redare a unei pagini în portal este cea statică, unde este
necesar un şablon sau un model. Acest lucru face ca dezvoltatorii să fie dependenţi de
şabloanele şi modelele existente.
eXo are o modalitate dinamică prin care creează o structură arborescentă a
containerelor ce conţin şabloane. Fiecare container este responsabil cu redarea
copiilor.
În plus prin manipularea structurii arborescente cu editorul WYSIWYG se pot
crea noi containere, definii modul în care se redau copii şi se pot adăuga noi portlet-
uri.
Managementul conţinutului
Produsul eXo ECM oferă avantajele unui sistem de management de conţinut
fiind construit cu ajutorul eXo JCR şi eXo Portal într-un mediu integrat - Web Content
Management (WCM).
Sunt suportate elemente de managementul documentelor, managementul
înregistrărilor, evidenţa versiunilor, extrageri de metadate sau căutare avansată.
Elemente de colaborare
eXo Collaboration oferă un set de aplicaţii de colaborare cum ar fi calendare,
webmail, forum, listă de contacte. Ideea utilizării acestor elemente este de a valorifica
avantajele WebOS de interfaţă eficientă cu utilizatorul precum şi de stocare utilizând
eXo JCR.
1
WWW.CMSMATRIX.ORG
DotNetNuke eXo Platform Liferay Portal / OpenPortal
Portal Nuxeo CPS 5.0
4.8 2.0 CMS 4.3 CMF 2.8
Ultima variantă 11/29/2007 10/26/2007 7/27/2007 1/26/2006 12/19/2004
Liferay Portal / OpenPortal
Cerinţe de sistem DotNetNuke eXo Platform Nuxeo CPS
CMS CMF
Compatibilitate
testată cu
Borland ES 6.5,
JBoss 4.0.2,
JOnAS 4.4.3,
Aplicaţia Server JRun 4 Updater
Tomcat, JOnAS
Aplicaţia server sau 3, OracleAS
IIS or Oricare J2EE Zope Apache
aplicaţia necesară 10.1.2, Orion
server
pentru CMS. 2.0.6, Pramati
4.1, RexIP 2.5,
Sun JSAS 8.01,
WebLogic 8.1
SP4,
WebSphere 5.1
Cost aproximativ
Costul aproximativ de
Gratuit Gratuit Gratuit 0
licenţiere al CMS.
DB2, Firebird,
MSSQL
Baza de date utilizată Oricare Hypersonic,
2005/2000,
pentru stocarea (depinde doar InterBase,
MSSQL Zope MySQL
conţinutului şi a de driverele JDataStore,
Express
setărilor. JDBC) MySQL, Oracle,
2005, MSDE
PSQL
MIT Open
Tipul de licenţă şi de BSD
GNU GPL Source fără GNU GPL GNU GPL
distribuire (Modificată)
resticţii
Sistemul de operare Windows, Mac
cu care CMS-ul este Windows Oricare OS X, BSD, Oricare Oricare
compatibil Linux, Solaris
Limbajul de
PHP 4.2.2
programare în care ASP.NET 2.0,
Java Java 1.4. + Python sau
este scris CMS-ul sau VB.NET, C#
superior
în care poate fi extins.
Este necesar acces
administrator pentru Nu Nu Da Da Nu
instalarea aplicaţiei?
Este necesară logarea
pe server pentru
Nu Da Da Da Nu
instalare sau este
suficient FTP?
Sisteme informatice pentru managementul conţinutului 225
BIBLIOGRAFIE
1. ABBYY & DocWorks: AthletiCo’s Paper-Heavy Billing Department Gets into Shape,
www.kmworld.com;
2. AIIM International, www.aiim.org: Distributed Capture: Moving Capture Closer to
Document Creation;
3. AIIM International: What is ECM? http://www.aiim.org/about-ecm.asp
4. Asipenko S., Zukerman, Y.: CMS Review: OpenCms 6.0:
http://www.cmswire.com/cms/cms-reviews/;
5. Best Practices in Enterprise Content Management, www.kmworld.com;
6. Best Practices in Enterprise Search: www.kmworld.com;
7. Boiko, B.: Content Management Bible, www.metatorial.com;
8. Bracken, J.: Dicovering Hidden Information Treasures in ECM,
www.kmworld.com;
9. Business Process Management and Workflow, AIIM International, www.aiim.org;
10. Byrne, T.: A Lexicon for Document Analysis, http://www.cmswatch.com/ECM/;
11. Byrne, T.: A Scenario-based Approach to Evaluating CMS Vendors,
http://www.cmswatch.com;
12. Byrne, T.: Do you need an ECMS, WCMS, or a Portal?
http://www.cmswatch.com/CMS/
13. Capture - Setting the Scene for ECM, www.aiim.org.uk;
14. Cellucci, B.: Balancing Control and Distributed Capabilities For Web Content and
Site Management, www.kmworld.com;
15. Chen, H. and Dumais, S. (2000). Bringing Order to the Web: Automatically
Categorizing Search Results. In: T. TURNER, ed. Proceedings of the SIGCHI
conference on Human factors in computing systems, Netherlands 01-06 April
2000. USA: ACM Press, pp 145-152;
16. Clapp, M.: Collaboration First, Then Knowledge Management,
http://www.cmswatch.com/Portal/;
17. CMS Watch: CMS Report, Sample Edition, 2007, http://www.cmswatch.com;
18. CMS Watch: Enterprise Search Report, www.cmswatch.com;
19. CMS Watch: Information Management Software Product Landscape,
http://www.cmswatch.com;
20. CMS Watch: Web Content Management Vendor List,
http://www.cmswatch.com/Reports/Vendors/;
21. CMS Wire: Tridion, Fatwire and Interwoven Lead External Web Content
Management, http://www.cmswire.com/cms/web-cms/;
22. Cochrane, R. (1997). Unleashing the intranet. BT Technology Journal, 15 (2), pp
107-113. Available from:
http://www.springerlink.com/content/m681547155j581p1/fulltext.pdf;
23. Content Management Problems and Open Source Solutions,
http://contenthere.blogspot.com/;
24. Content Manager. (2004). ECM Market to reach $9B in Software and Services,
http://www.contentmanager.net/magazine/article_445_ecm_market_software_
services.html;
25. Daydream’s Digital Asset Management (DAM) Blog: What Is Digital Asset
Management?
26. Dell (2005). Standardization, consolidation, scaling, interoperability, data
management, portfolio management. USA: Dell,
http://www.dell.com/downloads/global/solutions/ dell_it_we_are_scalable.pdf;
27. DM Review. (2003). The problem of unstructured date,
http://www.dmreview.com/article_sub.cfm?articleId=6287;
28. Document and Content Capture, AIIM International, www.aiim.org;
29. Document and Content Output and Presentation, AIIM International,
www.aiim.org;
30. Document and Web Content Management, AIIM International, www.aiim.org;
31. Dunwoodie, B. (2004). Global ECM Market Still Likely to Consolidate. CMS Wire.
http://www.cmswire.com/cms/enterprise-cms/global-ecm-market-still-likely-to-
consolidate-000301.php;
32. ECM at Work, www.aiim.org.uk;
33. ECM West. (2006). Matthew Glotzbach Google Enterprise.
http://ecmwest.com/ecmwest/v42/conference/ speaker_bio.cvn?profileID=151;
34. Eddleman, T.: Managing Mission Critical Content, http://www.kmworld.com/
35. Emery, P. (2003). Document and Records Management: Understanding The
Differences and Embracing Integration. USA: Zlyab Technologies,
http://www.lightindustries.com/pdf/Document%20Management%20vs%20Recor
ds%20Management.pdf;
36. Emery, P.: Why Records Management?, http://cmswatch.com/ECM/;
37. Enterprise Content Management THE AIIM Guide to to ECM Purchasing, AIIM
International, www.aiim.org;
38. Enterprise Open Source Journal, http://www.eosj.com;
39. Flynn, D. (1998) Information System Requirements: Determination and Analysis.
Berkshire, England: McGraw-Hill;
40. Forrester Consulting: Open Source Software’s Expanding Role in the Enterprise.
Companies Adopt Open Source as Standard, 2007;
41. Forrester. (2005). ECM Growth Outpaces the Overall Software Market,
http://www.forrester.com/Research/Document/Excerpt/ 0,7211,36935,00.html;
42. Forrester. (2006). Information Management 101,
http://www.forrester.com/Research/Document/Excerpt/ 0,7211,38472,00.html;
43. FRASER, S.: Real-World ASP.NET—Building a Content Management System,
Apress, 2002;
44. Gartner Research: Magic Quadrant for Enterprise Content Management, 2006;
45. Gartner Research: Magic Quadrant for Enterprise Content Management, 2007;
46. Gartner: MarketScope for Records Management, 2005,
http://mediaproducts.gartner.com/reprints/emc/vol2/article1/article1.html#top;
47. Gingrande,A.: Processing Unstructured Documents: Challenges and Solutions,
AIIM International, www.aiim.org;
48. Groff, T.; Jones, T.: FileNet. A Consultant’s
Sisteme informatice pentru managementul conţinutului 237
103. Step Two Designs: What are the goals of a content management system,
www.steptwo.com.au;
104. Stephenson, J.: Intelligent Imaging, Scanning Only What You Need, Only When
You Need It http://www.kmworld.com/
105. Thrasher, D.: Managing in Place Isn’t Managing, www.kmworld.com;
106. Velikin, P.: Automating Your Technical Publishing Processes, www.kmworld.com;
107. Waldron Martin IFC: European Study on Electronic Archiving;
108. Walker, P.: Best Practices in ECM Document Consolidation and Migration,
www.kmworld.com;
109. Watson, J. and Patel, J. and Chambers, B. (2006). ECM in 2007: What's Top-of-
Mind for the Coming Year.
http://www.edocmagazine.com/article_new.asp?ID=32227;
110. Wikipedia.org: Collaborative software;
111. Wikipedia.org: Content management system;
112. Wikipedia.org: Content management;
113. Wikipedia.org: Digital asset management;
114. Wikipedia.org: Digital asset;
115. Wikipedia.org: Document management system;
116. Wikipedia.org: Electronic document;
117. Wikipedia.org: Enterprise content management;
118. Wikipedia.org: Extranet;
119. Wikipedia.org: Information repository;
120. Wikipedia.org: List of content management frameworks;
121. Wikipedia.org: List of content management systems;
122. Wikipedia.org: Metadata;
123. Wikipedia.org: Separation of presentation and content;
124. Wikipedia.org: Template engine (web);
125. Wikipedia.org: Template processor;
126. Wikipedia.org: Template system (computing);
127. Wikipedia.org: Web content management system;
128. Wikipedia.org: Web content;
129. Wikipedia.org: Web template system;
130. Wikipedia.org: Workgroup Support Systems;
131. www.asg.com : Electronic Document Archiving with ASG-Cypress, Whitepaper;
132. www.asg.com: Managing and Delivering Knowledge from Disparate Applications
and Platforms;
CUPRINS
CAPITOLUL I
INTRODUCERE ÎN MANAGEMENTUL CONȚINUTULUI ................................................. 1
1.1. SISTEME DE MANAGEMENT AL CONȚINUTULUI (CMS) .....................................8
1.2. METADATE ........................................................................................................16
1.3. TAXONOMIA CONȚINUTULUI ŞI A UNUI PORTAL .............................................30
1.4. ŞABLOANE .........................................................................................................35
1.5. PUBLICAŢII.........................................................................................................43
1.6. INDEXAREA ŞI CĂUTAREA CONŢINUTULUI .......................................................53
1.7. DEPOZITUL BAZAT PE XML ................................................................................65
1.8. CANALE DE CONȚINUT ......................................................................................73
CAPITOLUL II
SOFTWARE DE COLABORARE ȘI DE MANAGEMENT AL DOCUMENTELOR ................. 81
2.1. CAPTURĂ DE DATE ȘI DE DOCUMENTE ............................................................87
2.2. DOCUMENT MANAGEMENT SYSTEM .............................................................102
2.3. DIGITAL ASSET MANAGEMENT .......................................................................119
2.4. MANAGEMENTUL ÎNREGISTRĂRILOR .............................................................125
2.5. WEB CONTENT MANAGEMENT ......................................................................134
CAPITOLUL III
ENTERPRISE CONTENT MANAGEMENT.................................................................. 150
3.1. ENTERPRISE SERVICE BUS (ESB) ......................................................................167
3.2. PORTALURI ......................................................................................................177
CAPITOLUL IV
APLICAȚII OPEN SOURCE CMS/PORTAL ................................................................. 199
4.1. LIFERAY PORTAL / CMS 4.3 .............................................................................209
4.2. NUXEO CPS 5.0 ................................................................................................210
4.3. DOTNETNUKE - PORTAL OPEN SOURCE..........................................................211
4.4. EXO PLATFORM 2.0 .........................................................................................219
4.5. OPENPORTAL CMF 2.8 ....................................................................................223
4.6. COMPARAȚIA PORTALURILOR PREZENTATE ..................................................223