Sunteți pe pagina 1din 24

Curs 5 - Pregtirea datelor

pentru analiz

CUPRINS Curs 5

1. Pregtirea datelor pentru analiz


2. Tabele de analiz

3. Transpunerea datelor

Pregtirea datelor pentru analiz/1

Procesul de analiz: de la datele de baz la rezultate


Accesarea datelor

Pregtirea datelor

Surse de date diferite

Interclasare,
Denormalizare

Rapoarte,
Grafice

Folosirea
rezultatelor

Modele relaionale,
Scheme stea

Variabile
derivate

Modelare,
Estimarea
parametrilor

Crearea de
profile

Transpuneri,
Agregregri

Predicii,
Clasificri

Interpretare

Pregtire

Modelare

Rezultate
bune

Disponibilitatea
datelor

adecvat

Rezultate i Aciuni

Analiza datelor

eficient

Pregtirea datelor pentru analiz/2

Sisteme software care proceseaz date


Sistemele operaionale
Se adreseaz conducerii
departamentelor funcionale.
Conin date curente, primare
privind tranzaciile.
Corectitudinea acestor date
este foarte important.
Au o orientare tranzacional.

Sistemele pentru depozite de


date
Constituie o baz pentru
procesul decizional de la diferite
nivele ale conducerii.
Conine date istorice. Acestea
pot fi disponibile ca atare sau
pot fi create pornind de la
fiierele istorice de log asociate
tabelelor.
Furnizeaz date pentru
raportare, monitorizare i
analiz.

Pregtirea datelor pentru analiz/3

Intrri pentru tabela de analiz din perspectiv logic

Pregtirea datelor pentru analiz/4

Persoane implicate n procesul de analiz

Analist - cerine economice


Statistician expert cantitativ

Informatician expert IT i n domeniul datelor

Pregtirea datelor pentru analiz/5

Probleme de baz n pregtirea datelor

Care sunt cerinele de date pentru o anumit prelucrare


analitic?

Ce trebuie s avem n vedere?


1. Identificarea datelor necesare
2. Accesarea datelor
3. nelegerea structurii i semnificaiei datelor:

Eterogenitatea surselor de date, modele de date diferite

4. Identificarea i eliminarea erorilor din date


5. Combinarea i transformarea surselor de date diferite

Tabele de analiz/1

Pai pentru crearea tabelelor de analiz


1.

Identificarea i definirea subiectului analizei


Definiie: Subiectul analizei reprezint o entitate care este analizat ntr-o
anumit problem, iar rezultatele analizei sunt interpretate n contextul
acesteia. Este elementul de baz pentru tabelele de analiz care se
contruiesc.
Frecvent, se adaug un identificator subiectului, similar unei chei primare.
Chiar dac nu este folosit n analiz, prezena acestui identificator este
important din urmtoarele considerente:

Verificarea datelor, dac se consult baze de date sau alte surse de


date;

Necesitatea de a identifica subiectul analizei dac trebuie adugate


informaii adiionale la tabela de analiz.

Tabele de analiz /2

Pai pentru crearea tabelelor de analiz


Stabilirea existenei mai multor observaii per subiect i modul
de tratare a acestora
Categorii de tabele de analiz:
de tipul o nregistrare per subiect (1-s): toate informaiile
2.

referitoare la subiectul analizei sunt reprezentate printr-o nregistrare.


Caracteristicile subiectului analizei sunt stocate n coloanele tabelei.

de tipul mai multe nregistrri per subiect (n-s): un subiect poate


avea mai multe nregistrri. Trebuie s existe un identificator pentru
subiect i un identificator secundar care identific observaiile multiple
pentru fiecare subiect. n termeni tehnici avem tabela printe i tabela
copil ntre care exist o relaie de tipul unu-la-mai muli.

Tabele de analiz /3

Categorii de tabele de analiz - exemple


Coninutul tabelei CLIENT
CodC

DataN

Gen

12.05.1975

Masculin

24.04.1964

Feminin

Coninutul tabelei CONT


Cont

CodC

Tip

DataDeschidere

Curent

05.12.2001

Economii

02.06.2007

Economii

07.07.2002

Curent

23.10.2003

Economii

08.09.2004

Tabele de analiz /4

Categorii de tabele de analiz - exemple


Trebuie s crem o tabel de analiz de tipul o ntegistrare per
subiect n care s avem:

Numrul de conturi pentru fiecare client


Calcularea procentajului conturilor curente
Identificarea datei de deschidere a celui mai vechi cont

CodC

DataN

Gen

Numar
Conturi

Procent
conturi curente

Deschiderea
primului cont

12.05.1975

Masculin

50%

05.12.2001

24.04.1964

Feminin

33%

07.07.2002

S-a utilizat procedeul de agregare.


Variabilele din tabela CLIENT au fost copiate.
Agregarea din tabela CONT a dus la pierdere de informaii.

Tabele de analiz /5

Tabela de analiz de tipul mai multe nregistrri per


subiect
Raiuni pentru existena observaiilor multiple per subiect:
Msurtori repetate de-a lungul timpului: exist o relaie de
tipul unu-la-mai-muli ntre subiectul analizei i entitatea
dependent de timp. Exemplu: studii clinice, studiul produselor.

Observaii multiple datorate relaiilor ierarhice: avem nevoie


de un identificator pentru subiectul analizei i altul care
identific observaiile multiple ale aceluiai subiect. Exemplu:
domeniul asigurrilor, unde un client poate beneficia de mai
multe tipuri de servicii.
Se pot folosi, spre exemplu, n analiza statistic a seriilor de
timp.

Tabele de analiz /6

Tabela de analiz de tipul o nregistrare per subiect

Este frecvent ntlnit n analizele statistice i n data mining.


Informaiile suplimentare despre subiect nu trebuie s apar n
alte rnduri, ele trebuie transformate n coloane adiionale ale
aceluiai rnd.
Exist dou perspective legate de transformarea tabelelor n-s
n tabele 1-s:

Perspectiva tehnic a conversiei propriu-zise;


Perspectiva economic: ce agregri, variabile derivate etc. au sens din
punct de vedere economic.

Procesul de transformare a tabelelor n-s n tabele 1-s poart


denumirea de transpunere, denormalizare, aplatizare, pivotare
.a.m.d.

Tabele de analiz /7

Crearea tabelelor de analiz 1-s din tabele n-s


Dou tehnici principale pot fi folosite n acest sens:
1.

2.

Transpunerea: sunt transpuse nregistrrile multiple per


subiect n coloane. n forma pur toate datele de pe rnduri
sunt transformate n coloane.
Agregarea: informaiile din coloane sunt transformate n valori
agregate pentru un subiect al analizei. Informaia este redus
prin obinerea unor msurtori descriptive derivate din datele
originale.

Tabele de analiz /8

Crearea tabelelor analitice 1-s din tabele n-s


Tabela principal a subiectului
ID
1
2
3
4

Var1

Var2

Var3

Var4

Mai multe nregistrri per subiect


Var5

Copiere variabile
Creare variabile
derivate

ID
1
1
1
2
2
3
3
3
4
4
4

Var11

Var12

Var13

Var14

Transpunere
Agregare
ID
1
2
3
4

Var1

Var2

Var3

Var4

Var5

Var6

Var15

Transpunerea datelor/1

Transpunere datelor

Schimbarea structurii seturilor de date este o activitate


frecvent i important n pregtirea datelor.

Aceasta poate fi realizat datorit cerinelor specifice


prelucrrilor de analiz sau pentru a permite jonciunea cu alte
seturi de date.

SAS are instrumente specifice pentru transpunere prin


procedura TRANSPOSE.

Transpunerea datelor/2

Terminologie

n funcie de forma seturilor de date, acestea pot fi privite ca:

Seturi de late lungi (cu multe nregistrri) - LUNG


Seturi de date late (cu multe coloane) LAT

n practic se folosesc aceti termeni pentru seturile de date de


tipul mai multe nregistrri per subiect (LUNG), respectiv o
nregistrare per subiect (LAT)

Transpunerea datelor/3

Transpunerea unui set de date de tipul mai multe nregistrri


per subiect ntr-un set de date cu o nregistrare per subiect
ID

TIMP

PUNCTAJ

77

79

83

62

58

59

99

97

92

Dac vrem s determinm punctajul mediu acordat de fiecare subiect, care


este forma potrivit a acestui set de date?

Transpunerea datelor/4

Procedura TRANSPOSE din SAS - parametri


DATA=
Specific setul de date de intrare.
OUT=
Creaz un set de date nou unde sunt memorate rezultatele. Dac nu se specific un
set de date de ieire, rezultatele vor fi plasate n setul de date implicit data1.
PREFIX=
Adaug un prefix la variabila transpus, folosindu-se n conjuncie cu variabila ID.
NAME=
Permite alegerea unui nume pentru variabila automat _NAME_ creat de procedur.
Se folosete pentru probleme complexe, altfel poate fi tears.

Transpunerea datelor/5

Procedura TRANSPOSE din SAS - opiuni


BY
Permite transpunerea datelor pentru fiecare valoare a variabilei precizate n clauza BY.
Variabilele aceastea nu sunt propriu-zis transpuse. Datele trebuie n prealabil sortate dup
aceste variabile.
ID
Identific variabila care ajut la crearea numelui pentru valorile care sunt transpuse. Fr o
specificare a varibilei ID, valorile implicite pentru rezultat vor fi col1, col2 etc.
VAR
Listeaz valorile efective ale datelor care trebuie transpuse. Dac aceast declaraie este
omis, se vor transpune toate variabilele numerice care nu sunt incluse n clauzele BY sau
ID. Pentru transpunerea variabilelor caracter, aceast declaraie este obligatorie.
COPY
Copiaz valorile unei variabile din setul de date surs n setul de date rezultat al procedurii
de transpunere.

Transpunerea datelor/6

Transpunerea unui set de date de tipul mai multe nregistrri


per subiect ntr-un set de date cu o nregistrare per subiect

Transpunerea datelor/7

Transpunerea mai multor variabile - Exerciiu


IDFAMILIE

AN

VENITURI

CHELTUIELI

DATORII

96

40

38

DA

97

41

39

DA

98

42

40

NU

96

45

42

DA

97

46

43

NU

98

47

44

NU

96

75

70

NU

97

76

71

NU

98

77

72

NU

S se realizeze un set de date de tip 1-s, avnd ca subiect al analizei familia,


prin aplicarea repetat a transpunerilor i interclasarea rezultatelor.

Transpunerea datelor/8

Recapitulare

Recapitulare

Care este rolul pregtirii datelor pentru analize?

Ce activiti de baz include pregtirea datelor?

Care sunt categoriile de tabele de analiz?

Prin ce procedee tehnice se pot transforma tabelele de tipul mai


multe nregistrri per subiect n tabele de tipul o nregistrare per
subiect?