Sunteți pe pagina 1din 22

Analitica Afacerilor

Curs 2

Daniela Elena MARINESCU


Departament DICE, CSIE
www.dice.ase.ro
daniela.marinescu@csie.ase.ro

14.05.2016 1
Analitica Afacerilor Curs 2
Capitol 2: Date
„Cea mai întâlnită greşeală în gătit este să foloseşti ingrediente de calitate
proastă”

2.1. Big Data


2.2. Tipuri de date folosite in BA
2.3. Formatul datelor
2.4. Managementul datelor
2.4.1. Integrarea datelor
2.4.2. Calitatea datelor
2.4.3. Securitatea si confidentialitatea datelor
2.4.4. Guvernanta datelor
2.5. Pregatirea datelor
2.6. Manipularea datelor

14.05.2016 2
Analitica Afacerilor Curs 2
2.1. Big Data
- termenul nu se referă numai la atributul de „big” ca volum de date, dar şi la
provocările privind modul de lucru şi analiză cu aceste date;

Definitia pentru Big Data: date prea mari sau prea complexe pentru a putea fi
prelucrate prin tehnologii standard de baze de date tradiţionale şi care trebuie
manipulate cu alte tehnologii avansate, suplimentare.

Definiţia standard: Datele să posede unul sau mai multe atribute de tip „V”:
volume, variety, veracity, velocity

Volum: datele manipulate sunt aşa de voluminoase a.î. în mod frecvent


depăşesc capacitatea de stocare şi de procesare a serverului. Există soluţii
pentru aceste aspecte: soluţii scalabile vertical (cresc capacitatea de stocare
sau viteza procesoarelor) sau orizontal (folosesc servere mai ieftine, fără să
închid serverul existent).

14.05.2016 3
Analitica Afacerilor Curs 2
Variety:
- afacerile se confruntă cu o mare varietate de date, cu o creştere
exponenţială, provenite din media socială, on line sau mobilă
- Datele din afaceri nu sunt numai date bine structurate (tranzacţii, date
demografice despre clienţi, date din chestionare);
- apar informaţii din senzori (personal devices), media on line, aplicaţii pe
mobil, smartphone-uri etc.
- pentru a lucra cu ele şi a le putea folosi în BA, trebuie stocate într-o formă
ce poate fi ulterior utilizată.
Veracity: lipsa clarităţii sau a certitudinii asupra datelor;
Velocity:
- dacă viteza în termeni de date generate, analizate şi decizii luate este mai
mare decât infrastructura IT poate permite, atunci apare atributul Velocity
pentru Big Data;
- Viteza este deseori măsurată în fracţiuni de secundă în timp real sau cât îi
ia unui client să dea click pentru a părăsi site-ul afacerii.

14.05.2016 4
Analitica Afacerilor Curs 2
2.2. Tipuri de date folosite in BA
Datele sunt divizate în 4 tipuri sau categorii:
• date despre companie;
• date despre consumatori;
• date agregate;
• alte tipuri de date (care nu sunt de primele 3 tipuri);
- Unele date pot fi măsurate direct, altele trebuie modelate şi validate.
2.2.1. Date despre companie
A. Date financiare: venituri, costuri, cifra de afaceri, randamente ale
investiţiilor, indicatori ţintă de profitabilitate.
B. Date despre vânzări pe fiecare magazin./regiune: costuri
unitare, nr. de produse cumpărate, reduceri şi cupoane de reducere utilizate,
carduri de loialitate folosite, nr. magazine/puncte de lucru etc.
C. Date de marketing obţinute din: reţele sociale sau mobile, canale
de informaţii, rezultate ale unor campanii promoţionale, publicitate etc

14.05.2016 5
Analitica Afacerilor Curs 2
D. Date despre vânzări şi servicii obţinute din:
- call center-uri: managementul vânzărilor, metrici de performanţă, costul pe
achiziţie, costul pentru retenţia clienţilor;
- discuţii live: înregistări ale dialogurilor, durată, satisfacţia clienţilor, probleme
discutate şi rezolvate, experienţa clientului, date istorice;
- evenimente promoţionale: tipul de eveniment, nr. de planificări şi realizări
efective, criterii de targeting, metrici de performanţă a evenimentelor, media
utilizată pentru promovare;
- prioritizarea clienţilor: care clienţi ar trebui să aibă prioritate în servire în locul
serviciilor standard;
- servicii de garanţie şi servicii post-vânzare.
E. Date operaţionale:
- date despre inventariere şi logistică;
- date despre locaţii/puncte de vânzare.

14.05.2016 6
Analitica Afacerilor Curs 2
2.2.2. Date despre consumatori individuali (atât clienţi proprii, cât şi cei care
ar putea fi interesaţi – vizitatori on-line)
- informaţii de identificare personală;
- informaţii senzitive : cărţi de credit sau alte date;
- date demografice (vârstă, sex, nivel al educaţiei);
- informaţii despre familie, locuinţă;
- valori financiare pe client;
- comportamentul clienţilor în achiziţii directe;
- comportamentul în folosirea smart-phonurilor: date pasive (măsurate inerent de
telefon: GPS, utilizarea aplicaţiilor, baterie, WiFi, sistem de operare etc.) sau date
active (date suplimentare detectate de diferite aplicaţii: adrese de mail, nr. de telefon
apelate sau primite, contacte, site-uri vizitate, cuvinte cheie căutate etc.)
- date din media socială (Facebook, LinkedIn, Twitter etc;
- date despre stilul de viaţă;
- date despre loialitatea clientului;
- date senzoriale.

14.05.2016 7
Analitica Afacerilor Curs 2
2.2.3. Date agregate
- Multe companii îşi pot completa datele interne despre clienţi cu date externe,
de la furnizori specializaţi de date, care colectează datele şi le modelează
(paneluri de date, chestionare, sondaje, date de la recensământ).
- Pentru analişti, este important să testeze calitatea acestor date, deoarece,
dacă datele nu au niciun efect asupra rezultatelor modelării, atunci este mai
bine să se renunţe la ele, acestea nefăcând altceva decât să adauge „zgomot”
şi să reducă eficacitatea modelelor.
Datele agregate pot fi folosite în 2 moduri:
- pentru a realiza profilul consumatorilor;
- pentru a îmbunătăţi rezultatele modelării, fiind adăugate ca variabile
independente suplimentare.

14.05.2016 8
Analitica Afacerilor Curs 2
2.4. Managementul datelor
- Aspecte discutate: integrarea, calitatea, securitatea, confidenţialitatea,
guvernanţa, prepararea şi analiza/investigarea datelor. Aceste aspecte legate
de date pot determina dacă o strategie/decizie a companiei (bazată pe BA)
poate fi un succes sau eşua.

2.4.1. Integrarea datelor


- identificarea datelor: datele sunt identificabile la nivel de client?
- definirea unei chei unice: există o cheie unică (cod de client, nr de telefon,
adresă de email etc) ce poate fi utilizată, direct sau indirect, în toate sursele de
date?
- completează golurile din date: seturile de date sunt complete, fără goluri?
Dacă există astfel de goluri/ rupturi, cum pot fi rezolvate?
- asigură accesibilitatea: seturile de date diferite sunt accesibile la momentul
dorit, la nivel de client şi alte niveluri de agregare?

14.05.2016 9
Analitica Afacerilor Curs 2
2.4.2. Calitatea datelor
- Calitatea datelor este relativă, mai ales în analiza de afaceri; sunt rare
seturile de date care să nu aibă deficienţe sau erori.
- Pentru a şti dacă un set de date particular are o calitate adecvată, trebuie
să definim ce înseamnă „date cu calitate potrivită” (date cu care se poate
lucra):
• acurateţe: datele nu conţin erori semnificative;
• completitudine: setul de date conţine date din toate sursele necesare, iar
valorile lipsă nu afectează precizia modelului;
• consistenţă: toate câmpurile de date sunt bine definite şi manageriate într-o
manieră consistentă, a.î. orice modificare afectează toate bazele de date;
• actualitate: datele sunt menţinute „proaspete”, cu reguli clar precizate cu
privire la valabilitatea acestora;
• claritatea şi corelarea datelor: datele şi corelarea acestora sunt clar definite
pentru a permite flexibilitatea în gruparea şi combinarea lor, necesare
pentru BA.

14.05.2016 10
Analitica Afacerilor Curs 2
2.4.3. Securitatea si confidentialitatea datelor
- Cum necesarul de date referitoare la clienţi este în creştere în
afacerile din zilele noastre, responsabilitatea afacerii de a păstra datele în
siguranţă creşte.
Securitatea datelor
- Studii recente arată că sunt atacate sistemele de POS mult mai des
decât serverele companiilor;
- Securitatea datelor trebuie asigurată pe tot parcursul relaţionării cu
clientul (din momentul în care intră în magazin, on-line sau off-line, când
navighează, cumpără sau îi este oferit eventual un cupon de reducere pentru
următoarea vizită);
- Recomandare: Nicio bază de date folosită în BA nu ar trebui să
conţină informaţii personale identificabile (PII) ; toate acestea pot fi înlocuite cu
un ID unic de client. Apoi, atunci când este nevoie, alte date pot fi adăugate
folosindu-se acest ID şi ţinute separat faţă de baza de date personale iniţiale.

14.05.2016 11
Analitica Afacerilor Curs 2
Confidentialitatea datelor
- Datorită evoluţiei societăţii, a dezvoltării mediei sociale şi mobile şi normelor
sociale, multe afaceri adoptă o strategie de tipul „mai întâi fă şi apoi cere-ţi
scuze”;
- multe companii au tendinţa să colecteze mai multe date decât este nevoie,
abuzând uneori de datele voluntar descrise de clienţi, ambiguităţi în
acceptarea de permisiuni şi politici de confidenţialitate vagi.
- Datorită complexităţii datelor recente despre consumatori/clienţi este
necesar un nou mod de gândire în BA: „confidenţialitatea contextuală”,
definită ca „o practică de afaceri în care colectarea şi utilizarea datelor
personale este consemnată în cadrul unui context dual agreat, cu scopuri
mutual acceptate de părţi”.
- Situaţia actuală arată că numai companiile obţin beneficii folosind datele
personale ale clienţilor şi mai puţin aceştia. Pentru a obţine acceptul
clienţilor, afacerile trebuie să le „promită” ceva în schimb; să acorde
clienţilor incitaţii de a accepta folosirea datelor: recompense în bani, puncte
de loialitate, reduceri exclusive. (value exchange)

14.05.2016 12
Analitica Afacerilor Curs 2
Contexte de confidențialitate
Există 4 contexte pe care afacerile ar trebui să le respecte dacă sunt
interesate în a adopta practici de confidenţialitate mai bune:
- contextul temporal: toate datele colectate şi folosite trebuie să aibă o limită de
timp specifică, agreată şi de consumator;
- contextul locaţional/spațial: locaţiile în care consumatorii cumpără şi de unde
doresc să obţină oferte sau servicii trebuie stabilite de comun acord, specificate
şi respectate;
- contextul utilizării datelor: datele trebuie folosite în afacere numai pentru
scopurile menţionate în acordul cu clientul;
- contextul dimensional: în contextul prezent al exprimării părerilor şi
experienţelor personale, consumatorii ar dori să împărtăşească diferite niveluri
ale datelor lor, depinzând de gradul lor de implicare în media socială.

14.05.2016 13
Analitica Afacerilor Curs 2
Ierarhia Confidentialitatii
Există 3 tipuri distincte de confidenţialitate:
1) Confidenţialitatea accesului: consumatorii au dreptul să controleze cum să
fie contactati, când, unde şi prin intermediul cărui canal;
2) Confidenţialitatea identităţii: consumatorii au dreptul să nu îşi dezvăluie
identitatea anumitor entităţi de afaceri, indiferent de scopul pentru care au fost
solicitate datele. Datele personale identificabile sunt formate din:
- orice informaţie care poate fi utilizată pentru a distinge sau recunoaşte
identitatea individuală: nume, CNP, data şi locul naşterii, numele mamei,
înregistrări biometrice;
- orice altă informaţie ce este legată sau poate fi corelată cu un individ:
informaţii medicale, financiare, despre educaţie sau angajare.
3) Confidenţialitate în gruparea caracteristicilor consumatorilor: consumatorii au
dreptul de a păstra anumite date personale secrete, atunci când sunt cerute
pentru a grupa consumatorii în scopuri de BA. Gruparea consumatorilor trebuie
să fie făcută strict pentru a determina trăsături şi valori comune, preferinţe ale
grupurilor de consumatori, fără a le cunoaşte identităţile.

14.05.2016 14
Analitica Afacerilor Curs 2
Gradul de afectare (intruziune) a confidenţialităţii este diferit in cele trei tipuri:
pooling privacy este minimal, acces privacy este la cel mai înalt nivel. Deoarece nu există
o definiţie clară a confidenţialităţii pentru consumatori, orice pierdere a acesteia implică
pierderea celor trei tipuri prezentate anterior:
- lumea va şti cine eşti (identity privacy);
- lumea va şti totul despre tine (pooling privacy);
- lumea va şti să ajungă la tine (access privacy).

Solutii propuse
Cei mai mulţi dintre consumatori vor permite ca datele lor personale să fie distribuite şi
utilizate dacă sunt gândite şi aplicate măsuri de protecţie şi incitaţii corespunzătoare:
1) nicio PII nu este înregistrată, nicio dată nu poate fi folosită pentru a „merge
înapoi/identifica” la consumator;
2) orice trăsături determinate în analiză nu încalcă legile statului (de ex., discriminare
rasială, sexuală sau de vârstă);
3) valorile create trebuie împărtasite cu acei consumatori care au pus la dispoziţie datele;
4) consumatorii să poată da permisiuni suplimentare de dezvăluire a identităţilor şi/sau să
permită accesul la date.

14.05.2016 15
Analitica Afacerilor Curs 2
2.4.4. Guvernanta datelor
- câştigă atenţie în prezent şi multe afaceri recunosc datele ca pe un activ
important al întreprinderii;
- ar trebui să acopere următoarele aspecte: managementul datelor, politicile şi
strategiile privind datele, managementul proceselor de afaceri, managementul
riscului;
- la nivel de întreprindere, este necesară deoarece multe aspecte privind datele
nu pot fi lăsate la îndemâna managerilor individuali; trebuie luate decizii
aproape tot timpul şi la toate nivelurile companiei;
-importanţa guvernanţei datelor este reflectată prin sprijinul inovaţiilor şi
crearea afacerilor de succes (oportunităţilor de afaceri generate de analiza
datelor).

14.05.2016 16
Analitica Afacerilor Curs 2
2.4.4. Guvernanta datelor
Etape:
1) Elaborarea unui consiliu care să se ocupe de guvernanţa datelor, să se
asigure că toate aspectele afacerii sunt încorporate corect în documentele
oficiale privind guvernanţa datelor; cele mai importante părţi ale afacerii trebuie
reprezentate în consiliu (lideri cheie din IT, marketing, vânzări, BA, juridic);
2) Evaluarea situaţiei: este importantă evidenţierea situaţiei existente în termeni
ai practicilor curente şi apoi evidenţierea potenţialelor arii de risc, oportunităţi şi
îmbunătăţiri necesare. Trebuie elaborate planuri strategice pentru a duce
afacerea în situaţia dorită.
3) Dezvoltarea unei strategii de guvernanţă a datelor; o strategie efectivă
urmează următoarele etape:
- definirea misiunii;
- stabilirea ariilor de interes (determinarea scopurilor, metricilor şi măsurilor de
succes, asigurarea finanţării);
- formalizarea regulilor şi definiţiilor (asigurarea clarităţii şi alinierea la
standarde);
14.05.2016 17
Analitica Afacerilor Curs 2
2.4.4. Guvernanta datelor
- acordul asupra drepturilor de decizie (cine, când şi ce proces va asigura
luarea deciziilor);
- stabilirea responsabilităţilor (cine, ce ar trebui să facă şi când);
- asigurarea controlului (pentru a soluţiona riscurile diferitelor niveluri de
control, în concordanţă cu gradul de expunere şi niveluri de responsabilitate);
- identificarea beneficiarilor (cine poate afecta sau poate fi afectat de deciziile
privind guvernanţa datelor, solicitarea aşteptărilor şi părerilor acestora);
- stabilirea locaţiei pentru guvernanţa datelor (locaţie care să suporte activităţile
consiliului).
4) Cuantificarea valorii datelor: deseori, valoarea datelor este considerată ca
fiind dată, a.î. eforturile anuale de a obţine fonduri necesare pentru guvernanţa
datelor constituie o preocupare constantă în multe afaceri

14.05.2016 18
Analitica Afacerilor Curs 3
2.5. Pregatirea datelor
• Una dintre cele mai mari greşeli ale echipei de BA este să treacă direct la construirea
de modele analitice, fără ca mai întâi să pregătească şi să exploreze datele.
• Se recomandă mai întâi EDA (Exploratory Data Analysis), care poate economisi bani,
evita greşeli şi furniza idei pentru o analitică efectivă ulterioară.
• Riscurile de a nu apela la EDA mai întâi sunt:
- axioma GIGO: prin nedetectarea erorilor din date şi neluarea în considerare a
impactului acestora, rezultatele analiticii ar putea fi eronate sau prost înţelese, iar
impactul lor asupra afacerii ar putea fi costisitor. De asemenea, trebuie rezolvată
problema datelor incomplete (date lipsă);
- analitici „sărace”: fără cunoaşterea dependenţelor dintre diferite date şi lipsa
potenţialelor aspecte furnizate de EDA, modelele avansate analitice ar putea fi setate
fără fundamente potrivite şi vor eşua în a furniza rezultatele aşteptate;
- probleme prost adresate: multe probleme de afaceri pot fi rezolvate folosind EDA sau
tehnici din BI; dar acestea nu sunt întotdeauna suficiente
- aspecte teoretice: fără o înţelegere clară a restricţiilor din viaţa reală a afacerii sau
caracteristicilor clienţilor, chiar dacă, spectacular, modelul ar putea genera rezultate care
nu pot fi efectiv implementate sau care nu funcţionează în lumea reală.

14.05.2016 19
Analitica Afacerilor Curs 2
2.6. Manipularea datelor
- Eforturile cu „curăţarea” şi pregătirea datelor pot constitui cam 30-
40% din proiectele analitice.
- Tipurile de date în datele din business:
• întregi (nr.întregi, fără zecimale);
• numerice (nr. cu oricâte zecimale);
• string (date de tip text nenumeric: nume date, cuvinte, de obicei păstrate ca
text ASCII);
• categorie (textele au numai câţiva parametri; de ex., masculin, feminin sau
neutru pentru gen);
• nominale (texte ce reprezintă nume, ca nume şi prenume, judeţe, localitate
etc.);
• ordinale (variabile pentru care valorile text pot fi ierarhizate sau ordonate);
• dummy;
• tratarea valorilor lipsa/datelor incomplete;
• normalizarea datelor.
14.05.2016 20
Analitica Afacerilor Curs 2
Ca parte a procesului de modelare supervizată, este o practică obişnuită
divizarea setului de date în 2 sau 3 subseturi, cunoscute ca partiţii:
- partiţie de antrenare - utilizată pentru a formula şi rula modelul;
- partiţie pentru validare – este folosită pentru a valida modelul, fără ajustări
ulterioare. Uneori, cea de a doua partiţie este folosită pentru a alege cea mai
bună combinaţie de parametri ai modelului (de ex, nr. de clustere) sau cel mai
bun model dintre cele potenţiale;
- partiţie de testare, este folosită pentru a testa cel mai bun model generat de
primele două partiţii, fără modificări ulterioare.

Eşantionare: Prima partiţie poate fi obţinută prin eşantionarea în mai multe


feluri:
- alege de la început din setul de date: de la prima linie până la linia pentru care
dimensiunea eşantionului este atinsă;
- eşantionare liniară: fiecare a n-a linie este aleasă;
- extragere aleatoare: prin generare de numere aleatoare ce corespund liniilor;
- eşantion stratificat: este o eşantionare aleatoare pentru care se păstrează
aceeaşi distribuţie de valori într-un câmp particular, nominal, ca în setul iniţial
de date.
14.05.2016 21
Analitica Afacerilor Curs 2
2.7. Exploratory Data Analysis- Cubul multidimensional al datelor
Problemele multidimensionale din domeniul Big Data pot fi simplificate cu
ajutorul unui instrument uşor de manipulat şi vizualizat: un cub 3D al datelor,
simplificat. Un set mai mare de date înseamnă un cub în mai mult de 3
dimensiuni şi un nr. mai mare de subcuburi.

Operatii folosite:
- Slicing;
- Dicing;
- Drilling down;
- Pivoting

14.05.2016 22

S-ar putea să vă placă și