Sunteți pe pagina 1din 14

Analitica Afacerilor, 14 mai 2016

Capitolul 2. Date
„Cea mai întâlnită greşeală în gătit este să foloseşti ingrediente de calitate proastă”

2.1. Big Data


2.2. Tipuri de date folosite în BA
2.3. Formatul datelor
2.4. Managementul datelor
2.4.1. Integrarea datelor
2.4.2. Calitatea datelor
2.4.3. Securitatea și confidențialitatea datelor
2.4.4. Guvernanța datelor
2.5. Pregătirea datelor
2.6. Manipularea datelor

Înainte de a folosi BA, trebuie să acordăm atenţie datelor, deoarece există o


explozie în proliferarea datelor, tipul, sursa sau caracteristicile acestora, toate afectând
modul în care datele pot fi integrate şi utilizate. Pentru a diferenţia tipologia nouă de date,
mai puţin structurate faţă de datele convenţionale stocate în baze de date tradiţionale,
industria a introdus un nou termen, „Big Data”.

2.1. Big Data


- termenul nu se referă numai la atributul de „big” ca volum de date, dar şi la
provocările privind modul de lucru şi analiză cu aceste date (deşi nu există un consens în
ceea ce priveşte severitatea provocărilor – cât de severe sunt pentru a deveni Big Data).
În schimb, o accepţiune generală este aceea că, atunci când datele afectează afacerea în
mai mult de un atribut de tip „V”, atunci devin Big Data.

Definiția pentru Big Data: date prea mari sau prea complexe pentru a putea fi prelucrate
prin tehnologii standard de baze de date tradiţionale şi care trebuie manipulate cu alte
tehnologii avansate, suplimentare.

Definiţia standard: Datele să posede unul sau mai multe atribute de tip „V”:
Volume: datele manipulate sunt aşa de voluminoase astfel încât în mod frecvent
depăşesc capacitatea de stocare şi de procesare a serverului. Există soluţii pentru aceste
aspecte: soluţii scalabile vertical (cresc capacitatea de stocare sau viteza procesoarelor)
sau orizontal (folosesc servere mai ieftine, fără să închid serverul existent). Scalabilitatea
orizontală se recomandă atunci când:
- datele cresc prea repede în timp şi pot depăşi capacitatea de stocare şi
procesare a serverului existent;
- datele trebuie păstrate mai întâi fără o definiţie clară a schemei
relaţionale a datelor;
- datele pot fi necesare tot timpul şi nu pot fi arhivate sau serverul nu poate
fi oprit pentru mentenanţă.
Variety: afacerile se confruntă cu o mare varietate de date, cu o creştere
exponenţială, provenite din media socială, on line sau mobilă (vezi tipurile de date).

1
Analitica Afacerilor, 14 mai 2016

Datele din afaceri nu sunt numai date bine structurate (tranzacţii, date demografice despre
clienţi, date din chestionare); apar informaţii din senzori (personal devices), media on
line, aplicaţii pe mobil, smartphone-uri etc. Pentru a lucra cu ele şi a le putea folosi în
BA, trebuie stocate într-o formă ce poate fi ulterior utilizată.
Veracity: lipsa clarităţii sau a certitudinii asupra datelor;
Velocity: dacă viteza în termeni de date generate, analizate şi decizii luate este
mai mare decât infrastructura IT poate permite, atunci apare atributul Velocity pentru Big
Data. Viteza este deseori măsurată în fracţiuni de secundă în timp real sau cât îi ia unui
client să dea click pentru a părăsi site-ul afacerii.

2.2. Tipuri de date folosite in BA


Datele sunt divizate în 4 tipuri sau categorii:
- date despre companie;
- date despre consumatori;
- date agregate;
- alte tipuri de date (care nu sunt de primele 3 tipuri);
Unele date pot fi măsurate direct, altele trebuie modelate şi validate.

2.2.1. Date despre companie


Atâta vreme cât compania operează, sunt generate o mulţime de date, păstrate
pentru scopuri operaţionale (raportări, analize, suport pentru luarea deciziilor).
A. Date financiare: venituri, costuri, cifra de afaceri, randamente ale investiţiilor,
indicatori ţintă de profitabilitate.
B. Date despre vânzări la punctele de lucru: costuri unitare, nr. de produse
cumpărate, reduceri şi cupoane de reducere utilizate, carduri de loialitate folosite, nr.
magazine/puncte de lucru etc.
C. Date de marketing obţinute din:
- reţele sociale sau mobile, canale de informaţii: email (mesaje, subiectul,
oferta, ziua şi ora transmiterii, deschis şi răspuns, metrici ale mesajului etc.), web channel
(data, nr. de clicks, link URL, cuvântul cheie căutat, platforma şi sistemul de operare de
pe care accesează clientul, durata vizitei, shopping cards abandonate, wishlist);
- rezultate ale unor campanii promoţionale (date, mesaje, oferte, costuri,
documente interne promoţionale: texte, poze, video);
- randamente ale unor investiţii în marketing;
- publicitate (locaţie, cost, print, impact social, mobil, on line);
- date de targeting (mesaje, oferte, segemente de clienţi, testări de
produse);
- cercetări de piaţă (chestionare şi grupuri ţintă);
- call-center: deşi există o înclinaţie pentru cumpărături online, call center-
urile câştigă teren atunci când cumpărătorii fac achiziţii complexe şi preferă să vorbească
cu o persoană „live”. Sunt obţinute informaţii ca păreri, sentimente, alegeri, temeri ale
clienţilor. Pentru a asigura păstrarea datelor sunt necesare software-uri de recunoaştere
automată a vocii;
- Internet of Things (internetul lucrurilor): senzori de mişcare în magazine,
senzori de golire a rafturilor, senzori monitorizând starea de sănătate, smart homes, smart
cities etc;

2
Analitica Afacerilor, 14 mai 2016

- tarifarea produselor: istoricul preţurilor, mixare de produse, promoţii


speciale şi efectele acestora asupra veniturilor, loialitatea clienţilor;
- produse: ierarhizarea produselor, furnizori, preţuri, cuvinte cheie şi
descriere, versiuni, inventariere, sortimente.
D. Date despre vânzări şi servicii obţinute din:
- call center-uri: managementul vânzărilor, metrici de performanţă, costul
pe achiziţie, costul pentru retenţia clienţilor;
- discuţii live: înregistări ale dialogurilor, durată, satisfacţia clienţilor,
probleme discutate şi rezolvate, experienţa clientului, date istorice;
- evenimente promoţionale: tipul de eveniment, nr. de planificări şi
realizări efective, criterii de targeting, metrici de performanţă a evenimentelor, media
utilizată pentru promovare;
- prioritizarea clienţilor: care clienţi ar trebui să aibă prioritate în servire în
locul serviciilor standard;
- garanţie şi servicii post-vânzare: frecvenţa reparaţiilor, tipurile de
probleme, segmente de clienţi, produse, timpul soluţionării, experienţa şi părerile
clienţilor;
E. Date operaţionale:
- date despre inventariere şi logistică, supply chain management: nr. de
produse comandate, stocate şi livrate pe zi, durata de epuizare a stocurilor, cereri
agregate, suprastocări sau rupturi de stoc, metrici de performanţă istorice;
- date despre locaţii/puncte de vânzare: locaţie şi dimensiune, tipul de
magazin, demografici în vecinătatea locaţiei, sortimente, promoţii, evenimente
desfăşurate în locaţia respectivă.

2.2.2. Date despre consumatori individuali (atât clienţi proprii, cât şi cei care ar putea fi
interesaţi – vizitatori on-line)
- informaţii de identificare personală (nume, adresa şi mailul, nr. de telefon, ID de
client, ID Facebook);
- informaţii senzitive: cărţi de credit sau alte date; recomandat să nu se stocheze
astfel de date pentru modelare, ci să fie convertite într-un ID unic de client sau criptate;
- date demografice (vârstă, sex, nivel al educaţiei);
- informaţii despre familie, locuinţă (nr. de membri, active deţinute, venit mediu,
copii, vârstnici, animale de companie);
- valori financiare pe client (produse achiziţionate, cheltuiala medie pe produs şi
totală, procentul din venitul mediu alocat produselor companiei de client, trenduri
istorice);
- comportamentul clienţilor în achiziţii directe (când, câte, costuri unitare) sau on-
line (pagini, imagini, video, URL, click-uri, comentarii, termeni căutaţi, istoricul şi calea
căutării, durate de vizitare, nr. de logări, ultima logare);
- comportamentul în folosirea smart-phonurilor: date pasive (măsurate inerent de
telefon: GPS, utilizarea aplicaţiilor, baterie, WiFi, sistem de operare etc.) sau date active
(date suplimentare detectate de diferite aplicaţii: adrese de mail, nr. de telefon apelate sau
primite, contacte, site-uri vizitate, cuvinte cheie căutate etc.);
- date din media socială (Facebook, LinkedIn, Twitter etc) ce pot fi necesare
pentru a monitoriza trendurile, sentimentele, părerile consumatorilor;

3
Analitica Afacerilor, 14 mai 2016

- date despre stilul de viaţă (hobby-uri, subscrieri la diferite magazine, tipul de


maşină deţinut, animale de companie, călătorii etc);
- date despre loialitatea clientului (carduri de loialitate, nr. cardului, de când este
membru, nume şi date de contact, ultima dată de utilizare, niveluri de loializare).
- date senzoriale: surse de date noi, ce sunt generate de anumiţi senzori pe care
oamenii îi poartă sau îi plasează în bunurile deţinute (case, maşini, alte device-uri).
Deţinerea unor astfel de date produce noi oportunităţi de afaceri, dar vine cu riscuri şi
responsabilităţi mai mari pentru afacere pentru a păstra datele şi confidenţialitatea
acestora. Surse de astfel de date:
- QS sensors: persoanele se înregistrează cu ID şi parolă de la Facebook
sau Twitter; astfel de date vor deveni disponibile pentru afaceri în viitorul apropiat.
Datele personale colectate sunt activităţile sportive, dietele, obiceiuri de dormit, mâncat,
greutate, calorii arse etc. Companiile de asigurări de sănătate au început să ţină cont de
astfel de date atunci când fixează primele de asigurare sau reducerile;
- date despre case inteligente: obţinute cu ajutorul senzorilor de control ai
climei, de securitate etc. Trebuie avute în vedere securitatea şi confidenţialitatea datelor,
protejarea clienţilor;
- IoT: internetul lucrurilor: multe gadgeturi şi device-uri electronice pot fi
conectate ca parte a caselor, maşinilor, oraşelor inteligente.
Toate aceste date pot fi utilizate pentru a agrega valoarea în interesul clienţilor,
pentru a economisi bani şi pentru a avea noi oportunităţi de afaceri.

2.2.3. Date agregate


Multe companii îşi pot completa datele interne despre clienţi cu date externe, de la
furnizori specializaţi de date, care colectează datele şi le modelează (paneluri de date,
chestionare, sondaje, date de la recensământ).
Pentru analişti, este important să testeze calitatea acestor date, deoarece, dacă
datele nu au niciun efect asupra rezultatelor modelării, atunci este mai bine să se renunţe
la ele, acestea nefăcând altceva decât să adauge „zgomot” şi să reducă eficacitatea
modelelor.
Datele agregate pot fi folosite în 2 moduri:
- pentru a realiza profilul consumatorilor: adaugă aspecte şi aprecieri pentru
clienţi diferiţi, evidenţiind preferinţele acestora şi comportamentul lor (utile în
marketing);
- pentru a îmbunătăţi rezultatele modelării, fiind adăugate ca variabile
independente suplimentare; se testează apoi care dintre modele – cel cu sau fără variabile
suplimentare – are performanţe mai bune.

2.3. Formatul datelor


Datele de tip text sau numerice pot fi transmise în diferite formate, specifice
anumitor sofware-uri (în SPSS de tip .sav, în SAS de tip .sas7bdat), altele sunt delimitate
de punct (.csv) sau tab (.dat), sau în format nespecificat (.txt)

Date structurate, puţin structurate sau nestructurate

4
Analitica Afacerilor, 14 mai 2016

Cum tipurile şi dimensiunea seturilor de date au crescut în mediul de afaceri, este


important ca toate datele să fie păstrate/ stocate corespunzător şi pregătite pentru analize
ulterioare, indiferent de tip şi dimensiune.
Înainte, datele erau păstrate agregat, pentru 6 luni. În zilele noastre, afacerile
trebuie să răspundă la întrebări ce necesită date tranzacţionale structurate, text
nestructurat, informaţii din media socială şi mobilă, fără o schemă relaţională a priori
specificată. Pentru a asigura capabilităţile necesare pentru a lucra cu astfel de date în
viitor se impune ajustarea pe orizontală (adăugarea de noi capacităţi de stocare şi
procesare fără a opri sistemul).

2.4. Managementul datelor


„O greşeală capitală este să tragi concluzii înainte de a dispune de date”

Înainte ca orice dată să fie utilizată în BA, anumite aspecte trebuie clarificate şi
manageriate corect: integrarea, calitatea, securitatea, confidenţialitatea, guvernanţa,
prepararea şi analiza/investigarea datelor. Aceste aspecte legate de date pot determina
dacă o strategie/decizie a companiei (bazată pe BA) poate fi un succes sau eşua.
În prezent, datele provenind dintr-o singură sursă sunt rare în BA, adevăratele
provocări fiind acelea când datele provin din mai multe surse şi trebuie integrate.

2.4.1. Integrarea Datelor


Pentru a ne asigura că datele din surse diferite pot fi concatenate la nivelul de
bază, trebuie să răspundem la următoarele probleme:
- identificarea datelor: datele sunt identificabile la nivel de client?
- definirea unei chei unice: există o cheie unică (cod de client, nr de telefon,
adresă de email etc) ce poate fi utilizată, direct sau indirect, în toate sursele de date?
- completează golurile din date: seturile de date sunt complete, fără goluri? Dacă
există astfel de goluri, rupturi, cum pot fi rezolvate?
- asigură accesibilitatea: seturile de date diferite sunt accesibile la momentul dorit,
la nivel de client şi alte niveluri de agregare?

2.4.2. Calitatea Datelor


Calitatea datelor este relativă, mai ales în analiza de afaceri; sunt rare seturile de
date care să nu aibă deficienţe sau erori. Pentru a şti dacă un set de date particular are o
calitate adecvată, trebuie să definim ce înseamnă „date cu calitate potrivită” (date cu care
se poate lucra), adică date cu suficientă calitate pentru a satisface nevoii afacerii, având
următoarele atribute:
- acurateţe: datele nu conţin erori semnificative;
- completitudine: setul de date conţine date din toate sursele necesare, iar valorile
lipsă nu afectează precizia modelului;
- consistenţă: toate câmpurile de date sunt bine definite şi manageriate într-o
manieră consistentă, astfel încât orice modificare afectează toate bazele de date;
- prospeţime/actualitate: datele sunt menţinute „proaspete”, cu reguli clar
precizate cu privire la valabilitatea acestora. Datele sunt datate şi testate pentru
valabilitate periodic (important datorită mobilităţii clienţilor). Datele trebuie actualizate

5
Analitica Afacerilor, 14 mai 2016

periodic, pentru a nu-şi pierde abilitatea de a genera cunoştinţe şi de a afecta rezultatele


modelării;
- actualitatea datelor: datele sunt colectate, extrase, transformate şi disponibile
atunci când este nevoie;
- claritatea şi corelarea datelor: datele şi corelarea acestora sunt clar definite
pentru a permite flexibilitatea în gruparea şi combinarea lor, necesare pentru BA.

2.4.3. Securitatea Datelor și Confidențialitatea Datelor


Cum necesarul de date referitoare la clienţi este în creştere în afacerile din zilele
noastre, responsabilitatea afacerii de a păstra datele în siguranţă creşte. Din păcate,
această siguranţă s-a erodat, datorită atacurilor la securitatea şi confidenţialitatea datelor
despre consumatori. Aceste două aspecte trebuie să constituie obiective fundamentale în
analiza de afaceri pentru orice echipă de specialişti.

Securitatea datelor
Studiile recente arată că sunt atacate mult mai des sistemele de POS decât
serverele companiilor. Securitatea datelor trebuie asigurată pe tot parcursul relaţionării cu
clientul (din momentul în care intră în magazin, on-line sau off-line, când navighează,
cumpără sau îi este oferit eventual un cupon de reducere pentru următoarea vizită).
Recomandare: Nicio bază de date folosită în BA nu ar trebui să conţină informaţii
personale identificabile (PII) (nume, adrese fizice sau de email, nr de telefon, conturi de
pe reţelele sociale sau parolele aferente). Toate acestea pot fi înlocuite cu un ID unic de
client. Apoi, atunci când este nevoie, alte date pot fi adăugate folosindu-se acest ID şi
ţinute separat faţă de baza de date personale iniţiale.

Confidenţialitatea datelor
Datorită evoluţiei societăţii, a dezvoltării mediei sociale şi mobile şi normelor
sociale, multe afaceri adoptă o strategie de tipul „mai întâi fă şi apoi cere-ţi scuze”. Ca
rezultat, multe companii au tendinţa să colecteze mai multe date decât este nevoie,
abuzând uneori de datele voluntar descrise de clienţi, ambiguităţi în acceptarea de
permisiuni şi politici de confidenţialitate vagi.

Confidențialitatea contextuală
Deoarece datele sunt absolut necesare pentru a dezvolta economia, orice
modificare în disponibilitatea datelor afectează economia şi în mod firesc şi consumatorii.
De aceea, trebuie găsit un echilibru între cele două: protecţia datelor şi bunurile publice
create prin data sharing. De ex., au fost luate măsuri de protecţie a datelor financiare
personale, dar limitate, pentru că erau necesare astfel de date în credit scoring.
Datorită complexităţii datelor recente despre consumatori/clienţi este necesar un
nou mod de gândire în BA: „confidenţialitatea contextuală”, definită ca „o practică de
afaceri în care colectarea şi utilizarea datelor personale este consemnată în cadrul unui
context dual agreat, cu scopuri mutual acceptate de părţi”.

Value Exchange/Beneficii bidirecționale


Situaţia actuală arată că numai companiile obţin beneficii folosind datele
personale ale clienţilor şi mai puţin aceştia. Pentru a obţine acceptul clienţilor, afacerile

6
Analitica Afacerilor, 14 mai 2016

trebuie să le „promită” ceva în schimb; să acorde clienţilor incitaţii de a accepta folosirea


datelor: recompense în bani, puncte de loialitate, reduceri exclusive.
În America, 42% dintre consumatorii adulţi sunt siguri că nu vor distribui
informaţii personale şi tendinţa este de creştere. Este clar că fără o rezoluţie/legislaţie
privind confidenţialitatea datelor, rezultatele afacerilor vor fi afectate.

Contexte de confidențialitate
Există 4 contexte pe care afacerile ar trebui să le respecte dacă sunt interesate în a
adopta practici de confidenţialitate mai bune:
- contextul temporal: toate datele colectate şi folosite trebuie să aibă o limită de
timp specifică, agreată şi de consumator;
- contextul locaţional/spațial: locaţiile în care consumatorii cumpără şi de unde
doresc să obţină oferte sau servicii trebuie stabilite de comun acord, specificate şi
respectate;
- contextul utilizării datelor: datele trebuie folosite în afacere numai pentru
scopurile menţionate în acordul cu clientul;
- contextul dimensional: în contextul prezent al exprimării părerilor şi
experienţelor personale, consumatorii ar dori să împărtăşească diferite niveluri ale datelor
lor, depinzând de gradul lor de implicare în media socială.

Ierarhizarea confidențialității
Există 3 tipuri distincte de confidenţialitate:
1) Access privacy: Confidenţialitatea accesului: consumatorii au dreptul să
controleze pe cine să contacteze sau să fie contactați, cum, când, unde şi prin intermediul
cărui canal;
2) Identity privacy: Confidenţialitatea identităţii: consumatorii au dreptul să nu îşi
dezvăluie identitatea anumitor entităţi de afaceri, indiferent de scopul pentru care au fost
solicitate datele. Datele personale identificabile sunt formate din:
- orice informaţie care poate fi utilizată pentru a distinge sau recunoaşte
identitatea individuală: nume, CNP, data şi locul naşterii, numele mamei, înregistrări
biometrice;
- orice altă informaţie ce este legată sau poate fi corelată cu un individ: informaţii
medicale, financiare, despre educaţie sau angajare.
3) Pooling privacy: Confidenţialitate în gruparea caracteristicilor
consumatorilor: consumatorii au dreptul de a păstra anumite date personale secrete,
atunci când sunt cerute pentru a grupa consumatorii în scopuri de BA. Gruparea
consumatorilor trebuie să fie făcută strict pentru a determina trăsături şi valori comune,
preferinţe ale grupurilor de consumatori, fără a le cunoaşte identităţile. Scopul final al
afacerii fiind să aloce produsele şi serviciile potrivite pentru anumiţi consumatori, la
timpul, locul şi preţul potrivite. Economiile de cost şi valoarea creată astfel sunt apoi
împărtășite între afacere şi consumatori.
Gradul de afectare (intruziune) a confidenţialităţii este astfel: pooling privacy este
minimal, acces privacy este la cel mai înalt nivel. Deoarece nu există o definiţie clară a
confidenţialităţii pentru consumatori, orice pierdere a acesteia implică pierderea celor trei
tipuri prezentate anterior:
- lumea va şti cine eşti (identity privacy);

7
Analitica Afacerilor, 14 mai 2016

- lumea va şti totul despre tine (pooling privacy);


- lumea va şti să ajungă la tine (access privacy).
De aceea este recomandată abordarea pe niveluri de confidenţialitate şi tratarea
separată a acestora.

Soluție propusă:
Cei mai mulţi dintre consumatori vor permite ca datele lor personale să fie
distribuite şi utilizate dacă sunt gândite şi aplicate măsuri de protecţie şi incitaţii
corespunzătoare. Măsuri de protecţie sugerate: 1) nicio PII nu este înregistrată, nicio dată
nu poate fi folosită pentru a „merge înapoi/identifica” la consumator; 2) orice trăsături
determinate în analiză nu violează legile statului (de ex., discriminare rasială, sexuală sau
de vârstă); 3) valorile create trebuie împărţite cu acei consumatori care au pus la
dispoziţie datele; 4) consumatorii să poată da permisiuni suplimentare de dezvăluire a
identităţilor şi/sau să permită accesul la date.

2.4.4. Guvernanța datelor


- câştigă atenţie în prezent şi multe afaceri recunosc datele ca pe un activ
important al întreprinderii;
- ar trebui să acopere următoarele aspecte: managementul datelor, politicile şi
strategiile privind datele, managementul proceselor de afaceri, managementul riscului;
- la nivel de întreprindere, este necesară deoarece multe aspecte privind datele nu
pot fi lăsate la îndemâna managerilor individuali; trebuie luate decizii aproape tot timpul
şi la toate nivelurile companiei;
- importanţa guvernanţei datelor este reflectată prin sprijinul inovaţiilor şi crearea
afacerilor de succes (oportunităţilor de afaceri generate de analiza datelor).

Există mai mulţi paşi pentru atingerea acestui obiectiv (guvernanţa datelor):
1) Elaborarea unui consiliu care să se ocupe de guvernanţa datelor, să se asigure că toate
aspectele afacerii sunt încorporate corect în documentele oficiale privind guvernanţa
datelor; cele mai importante părţi ale afacerii trebuie reprezentate în consiliu (lideri cheie
din IT, marketing, vânzări, BA, juridic);
- consiliul să fie condus de cineva cu abilitatea de a obţine un consens în cadrul
şedinţelor, care are acces direct la consiliul de administraţie şi poate fi făcut responsabil
pentru acţiunile şi progresul consiliului;
2) Evaluarea situaţiei: este importantă evidenţierea situaţiei existente în termeni ai
practicilor curente şi apoi evidenţierea potenţialelor arii de risc, oportunităţi şi
îmbunătăţiri necesare. Trebuie elaborate planuri strategice pentru a duce afacerea în
situaţia dorită.
3) Dezvoltarea unei strategii de guvernanţă a datelor; o strategie efectivă urmează
următoarele subetape:
- definirea misiunii (de ce este necesară guvernanţa datelor);
- stabilirea ariilor de interes (determinarea scopurilor, metricilor şi măsurilor de
succes, asigurarea finanţării);
- formalizarea regulilor şi definiţiilor (asigurarea clarităţii şi alinierea la
standarde);

8
Analitica Afacerilor, 14 mai 2016

- acordul asupra drepturilor de decizie (cine, când şi ce proces va asigura luarea


deciziilor);
- stabilirea responsabilităţilor (cine, ce ar trebui să facă şi când);
- asigurarea controlului (pentru a soluţiona riscurile diferitelor niveluri de control,
în concordanţă cu gradul de expunere şi niveluri de responsabilitate);
- identificarea beneficiarilor (cine poate afecta sau poate fi afectat de deciziile
privind guvernanţa datelor, solicitarea aşteptărilor şi părerilor acestora);
- stabilirea locaţiei pentru guvernanţa datelor (locaţie care să suporte activităţile
consiliului);
- formularea procesului de guvernanţa datelor (stabilirea proceselor standardizate,
pe bază de documente necesare pentru managementul datelor, confidenţialitate şi
managementul accesului la date).
4) Cuantificarea valorii datelor: deseori, valoarea datelor este considerată ca fiind dată,
a.î. eforturile anuale de a obţine fonduri necesare pentru guvernanţa datelor constituie o
preocupare constantă în multe afaceri. Totuşi, dată fiind importanţa datelor în crearea de
noi inovaţii, venituri, oportunităţi de afaceri, guvernanţa datelor nu ar trebui privită ca un
centru de cost (valoarea datelor trebuie măsurată corect).
5) Elaborarea unui dashboard (scorecard): este recomandat într-o afacere să se
stabiliească o metodă consistentă de măsurare a progresului şi valorii create – utilizarea
unui dashboard pentru a monitoriza starea datelor şi care să raporteze regulat
executivului.

2.5. Pregătirea datelor


Una dintre cele mai mari greşeli ale echipei de BA este să treacă direct la
construirea de modele analitice, fără ca mai întâi să pregătească şi să exploreze datele. Se
recomandă mai întâi EDA (Exploratory Data Analysis) – analiză exploratorie a datelor,
care poate economisi bani, evita greşeli şi furniza idei pentru o analitică efectivă
ulterioară.
Riscurile de a nu apela la EDA mai întâi sunt:
- axioma GIGO (garbage in – garbage out): prin nedetectarea erorilor din date şi
neluarea în considerare a impactului acestora, rezultatele analiticii ar putea fi eronate sau
prost înţelese, iar impactul lor asupra afacerii ar putea fi costisitor. De asemenea, trebuie
rezolvată problema datelor incomplete (date lipsă);
- analitici „sărace”: fără cunoaşterea dependenţelor dintre diferite date şi lipsa
potenţialelor aspecte furnizate de EDA, modelele avansate analitice ar putea fi setate fără
fundamente potrivite şi vor eşua în a furniza rezultatele aşteptate;
- probleme prost adresate: multe probleme de afaceri pot fi rezolvate folosind
EDA sau tehnici din BI; dar acestea nu sunt întotdeauna suficiente. Astfel de răspunsuri,
obţinute prin EDA sau BI, pot conduce la întrebări mai dificile, la care BA poate
răspunde. În schimb, nu trebuie pierdute ore cu modelarea în BA dacă răspunsurile sunt
mai uşor de obţinut prin EDA sau BI;
- aspecte teoretice: fără o înţelegere clară a restricţiilor din viaţa reală a afacerii
sau caracteristicilor clienţilor, chiar dacă, spectacular, modelul ar putea genera rezultate
care nu pot fi efectiv implementate sau care nu funcţionează în lumea reală.
Există multe metode ce pot fi utilizate pentru a pregăti şi explora datele. Analiza
EDA poate dezvălui anumite aspecte referitoare de ex., la comportamentul

9
Analitica Afacerilor, 14 mai 2016

consumatorilor, dar nu poate indica efecte cauzale, pentru care sunt necesare modele
analitice; rezultatele modelelor trebuie mai întâi testate/verificate. Este important de
determinat cauzalitatea pentru că în acest fel sunt identificaţi factorii ce pot fi folosiţi
pentru a obţine modificările dorite. Este de asemenea important să ne asigurăm că
veniturile suplimentare obţinute sunt suficiente pentru a acoperi costurile identificării
acelor factori şi utilizării acestora.

2.6. Manipularea datelor


Eforturile cu „curăţarea” şi pregătirea datelor pot constitui cam 30-40% din
proiectele analitice. Procentul real va depinde de dimensiunea, starea şi complexitatea
datelor actuale.

2.6.1. Tipuri de date


Pentru BA, datele trebuie să fie prespecificate şi citite în conformitate cu tipul
acestora; anumiţi algoritmi încearcă să „ghicească” tipul datelor, dar necesită timp şi pot
greşi. De aceea este bine ca tipul datelor să fie prespecificat, mai ales când datele conţin
şi valori lipsă.
Tipurile de date în informațiile culese din business:
- întregi (nr.întregi, fără zecimale);
- numerice (nr. cu oricâte zecimale);
- string (date de tip text nenumeric: nume date, cuvinte, de obicei
păstrate ca text ASCII);
- categorie (textele au numai câţiva parametri; de ex., masculin, feminin
sau neutru pentru gen);
- nominale (texte ce reprezintă nume, ca nume şi prenume, judeţe,
localitate etc.);
- ordinale (variabile pentru care valorile text pot fi ierarhizate sau
ordonate). De ex., variabila educaţie poate fi nr. de ani de şcoală – ce
este nr întreg, dar la fel poate fi reprezentată de primar, secundar,
colegii şi universitate, postuniversitar etc – tip ordinal. Aceste valori
pot fi uneori înlocuite cu numere (de la 1 la 4). De reţinut totuşi că
valorile ordinale nu indică magnitudini (dacă 1 este primar şi 4
corespunde la master, atunci nu putem afirma că un absolvent de
master este de 4 ori mai educat decât un absolvent de ciclu primar);
- variabile numerice de tip categorie: în loc să lucrăm cu variabile
numerice ce au un nr mare sau chiar infinit de valori posibile, este
preferabil să împărţim variabila în subdiviziuni (categorii). De ex, dacă
venitul actual al unei gospodării este greu de obţinut şi este supus
incertitudinii, ar fi mai bine să clasificăm clienţii în clienţi cu venit
ridicat, mediu sau mic. Un avantaj suplimentar îl reprezintă
posibilitatea modelului de a diferenţia mai bine comportamentele
consumatorilor din diferite categorii, faţă de situaţia în care păstrăm
toate valorile iniţiale;
- variabilele de tip dummy: o modalitate de a lucra cu variabile
nominale sau de tip categorie; acestea sunt transformate în variabile
dummy de tip 0 sau 1;

10
Analitica Afacerilor, 14 mai 2016

- valorile lipsă nu trebuie considerate de fiecare dată ca fiind zero; de


ex, vizitatorii online care au navigat pe pagină dar nu au cumpărat
nimic sau au abandonat shopping cardurile nu sunt aceiaşi cu cei care
nu au cumpărat nimic în aceeaşi perioadă dată. Depinzând de contextul
privind valorile lipsă, ar trebui folosită cea mai potrivită metodă de
completare a valorii lipsă:
- nu completa cu nimic: atunci când datele lipsă pot fi ignorate cu siguranţă, fără a
cauza confuzie în analiză;
- şterge linia: valorile lipsă indică faptul că şi valorile din celelalte câmpuri ale
liniei sunt supuse incertitudinii, a.î. e bine ca întreaga linie să fie ştearsă;
- Min: valoarea cea mai de jos (minimă) din întregul set de date pentru acel câmp
este luată ca referinţă şi va substitui toate valorile lipsă;
- media: valoarea lipsă este considerată ca fiind valoarea medie pentru variabila
particulară;
- Max: valoarea cea mai de sus (maximă) din întregul set de date pentru acel câmp
este luată ca referinţă şi va substitui toate valorile lipsă;
- valoarea cea mai frecventă: valoarea lipsă este considerată ca fiind valoarea cea
mai frecvent întâlnită pentru variabila respectivă;
- valoare fixă: valorile lipsă corespund unei anumite valori, predefinite.

Normalizarea datelor
În multe modele, domeniile variabilelor independente sunt foarte variate, iar
anumiţi algoritmi impun ca variabilele să fie de dimensiuni similare (de ex, în
clusterizare). În clusterizare, trebuie definită o măsură distanţă şi de aceea, fără
standardizare, o modificare procentuală mică într-o variabilă cu amplitudine mare va avea
un impact mai mare asupra rezultatelor clusterizării decât variabilele cu au domenii mai
înguste, dar care ar putea avea relevanţă mai mare. Două metode de normalizare sunt
utilizate mai des:
- normalizare prin domeniul absolut (max-min);
- normalizare prin abaterea standard (Z normalizare).

Partiționarea datelor
Ca parte a procesului de modelare supervizată, este o practică obişnuită divizarea
setului de date în 2 sau 3 subseturi, cunoscute ca partiţii. Prima partiţie este numită
partiţie de antrenare şi este utilizată pentru a formula şi rula modelul. A doua partiţie –
partiţia pentru validare – este folosită pentru a valida modelul, fără ajustări ulterioare.
Uneori, cea de a doua partiţie este folosită pentru a alege cea mai bună combinaţie de
parametri ai modelului (de ex, nr. de clustere) sau cel mai bun model dintre cele
potenţiale. În acest caz, o a treia partiţie, numită partiţie de testare, este folosită pentru a
testa cel mai bun model generat de primele două partiţii, fără modificări ulterioare.

Eşantionare: Prima partiţie poate fi obţinută prin eşantionarea în mai multe


feluri:
- alege de la început din setul de date: de la prima linie până la linia pentru
care dimensiunea eşantionului este atinsă;
- eşantionare liniară: fiecare a n-a linie este aleasă;

11
Analitica Afacerilor, 14 mai 2016

- extragere aleatoare: prin generare de numere aleatoare ce corespund


liniilor;
- eşantion stratificat: este o eşantionare aleatoare pentru care se păstrează
aceeaşi distribuţie de valori într-un câmp particular, nominal, ca în setul iniţial de date.

Partiţionări pentru modele predictive: Există două modalităţi de a rula modelele


predictive.
- prima: extragem eşantioane aleatoare din datele din aceeaşi perioadă;
- a doua: dacă datele sunt longitudinale şi se extind pe o perioadă suficient de
lungă de timp, atunci eşantioanele din prima parte a perioadei sunt utilizate pentru a rula
modelele; apoi modelul este utilizat pentru a testa predicţiile faţă de datele din a doua
parte a perioadei.
Dacă modelele astfel rulate şi testate sunt capabile să previzioneze „viitorul deja
trecut” şi nimic dramatic nu se întâmplă anul viitor, atunci este de aşteptat ca
rezultatele/previziunile modelului să fie de acurateţe ridicată. Această capacitate a
modelelor de a se păstra valabile în timp se numeşte durata de valabilitate sau
„prospeţimea” modelului. Pe măsură ce timpul trece, condiţiile şi ipotezele iniţiale
probabil se vor modifica; de aceea este importantă monitorizarea modelelor în timp şi în
funcţie de necesităţile afacerii, de cât de costisitoare este actualizarea datelor şi
informaţiilor şi reconstruirea modelelor, acestea trebuie reactualizate regulat sau
reconstruite total.

2.7. Exploratory Data Analysis


2.7.1. Cubul multidimensional al datelor
Problemele multidimensionale din domeniul Big Data pot fi simplificate cu
ajutorul unui instrument uşor de manipulat şi vizualizat: un cub 3D al datelor, simplificat.
Un set mai mare de date înseamnă un cub în mai mult de 3 dimensiuni şi un nr. mai mare
de subcuburi.

12
Analitica Afacerilor, 14 mai 2016

Exemplul din Figură: ne interesează vânzările din 3 magazine deţinute în 3 orașe


diferite (NYC, BOS, LA), produsele vândute şi lunile ianuarue, februarie, martie.
Anumite statistici simple ce caracterizează datele (min, max, medie, abatere standard,
varianţă etc.) pot fi calculate imediat. În plus, dacă ne interesează aspecte suplimentare
(de ex, cum variază în timp vânzările pe fiecare produs sau magazin) trebuie să folosim
alte operaţii ca: slicing, dicing, drilling down/up, pivoting.
- slicing (feliere, tăiere, decupare): o tăiere verticală sau orizontală a cubului. De
ex, toate vânzările din ianuarie pentru magazinul NYC corespund unei tăieri verticale, pe
fiecare din cele două dimensiuni; la fel, o tăiere pe orizontală răspunde la întrebări
privind produsele.
- dicing (subdivizare în poliedre): această metodă izolează o combinaţie
particulară de parametri (de ex., vânzările de lapte şi ouă în NYC, în lunile februarie şi
martie);
- drilling down/up (explorare în adâncime): să presupunem că fiecare dimensiune
are subcategorii; de ex., lunile pot avea săptămâni, sub oraşe putem găsi nr magazinului;
sub fructe, tipuri de fructe. Putem avansa în adâncime cu subcategorii sau putem
însuma/agrega subcategoriile în categorii mai generale (lunile însumate în trimestre);
- pivoting (pivotare): permite să răspundem la întrebări mai complexe decât cele
rezolvate de procedura de feliere sau divizare. De ex., dacă ne interesează să ştim cum
variază vânzările de produse pentru fiecare din cele 3 oraşe, dar nu ne interesează cum
variază în timp, am putea pivota după oraşe şi însuma vânzările pentru fiecare oraş în cele
3 luni.

2.7.2. Vizualizarea evoluţiei datelor şi trendurilor


Metodele prezentate anterior ar putea să nu fie suficiente pentru a evidenţia
anumite particularităţi ale datelor, mai ales atunci când este necesară procesarea unor
cantităţi mari de date, cu sute şi chiar mii de dimensiuni (milioane de linii). Sunt necesare
în aceste cazuri tehnici de Business Intelligence.

Criterii de selectare a unui instrument de BI


Printre criteriile de selectare a unui instrument BI sunt:
- accesul la date şi integrare: instrumentul ar trebui să fie capabil să acceseze
datele din diferite baze de date şi să furnizeze instrumente facile de a fi integrate în
analiză;
- opţiuni grafice: dată fiind complexitatea şi natura multidimensională a datelor,
nu sunt suficiente reprezentările sub formă de pie, bar, line charts; sunt necesare şi alte
tipuri de reprezentări grafice:
- tabele text: arată valorile încrucişate a 2 dimensiuni;
- grafice prin linii sau prin puncte (scatter and line charts): grafice
evidenţiind puncte reprezentate în 2 axe; dacă trendurile sunt utile, atunci pot fi unite
punctele, mai ales pentru analiza seriilor de timp;
- box charts: atunci când distribuţia datelor (media unei categorii) în
fiecare punct este importantă;
- bar charts: utilizate pentru a compara valori între diferite dimensiuni (de
ex, bare pentru a ilustra cum variază vânzările de lapte între cele 3 oraşe şi pe cele 3

13
Analitica Afacerilor, 14 mai 2016

luni); putem adăuga targeturile de vânzări pe acelaşi grafic pentru a vedea dacă au fost
îndeplinite sau nu;
- hărţi geografice: posibilitatea de a reprezenta toate celelalte tipuri de
grafice suprapuse peste o hartă geografică;
- heat maps: folosind culori şi dimensiuni, se pot compara valori ale unor
variabile;
- tree maps: folosite atunci când parametrii sunt prea mulţi (>10), a.î. nu
pot fi utilizate barele;
- histograme: folosite pentru a evidenţia diviziuni ale unei variabile
continue în valori discrete;
- diagrame Gantt: folosite pentru a evidenţia durata fiecărei activităţi.
- reprezentări multichart: abilitatea de a analiza datele simultan din mai multe
perspective pentru a detecta dependenţe, factori cauzali; apoi, o dată construite, aceste
reprezentări pot fi folosite într-un dashboard ce permite analistului să lucreze interactiv;
- uşurinţă în utilizare şi viteză mare de lucru: pentru a ne asigura că instrumentul
va fi adoptat de toţi cei implicaţi, trebuie să fie uşor de învăţat şi intuitiv în
funcţionalitatea lui, trebuie să rezolve sarcinile rapid (secunde mai degrabă decât minute).

Observație: Instrumentele de vizualizare din BI pot oferi răspunsuri la anumite întrebări,


dar mult mai multe întrebări îşi găsesc răspunsul prin tehnici de BA. De ex., o dată ce am
stabilit, prin tehnici de BI, că, comportamentul de cumpărare al clienţilor diferă
semnificativ de la magazin la magazin, am putea să ne întrebăm cine sunt cumpărătorii,
de ce cumpără de acolo, care este istoricul lor de achiziţii, ce a întreprins sau nu afacerea
pentru a cauza astfel de traiectorii pentru comportamentul şi experienţele clienţilor săi.
Lista poate continua, iar pentru a găsi soluţii, trebuie folosite analitici de predicţii
avansate.

14

S-ar putea să vă placă și