Sunteți pe pagina 1din 12

Suport seminar SIE

STUDIU DE CAZ

Compania XAuto are două domenii de activitate – leasing auto și polițe de asigurări auto. Societatea
dorește să realizeze un tablou de bord în care să integreze analize referitoare la activitățile sale, astfel:

Leasing:

C1. Profilul clienților în funcție de vârstă, sex, stare civilă, profesie, nivel venituri, grad de îndatorare,
istoric de creditare;
C2. Estimarea probabilității de încheiere a unui noi credit de leasing pe baza profilului clientului;
C3. Clasificarea clienților în funcție de profilul acestora;
C4. Analiza creditelor acordate în funcție de profilul clienților;

Asigurări:

C5. Estimarea daunelor în funcție de marca auto/data fabricație;


C6. Analiza daunelor în funcție de producător, model, marca, data fabricației, reprezentanță auto și
furnizor.

ETAPE DE REALIZARE A APLICAȚIEI


1. Studiul de fezabilitate - Presupunem realizată această etapă
2. Planificarea - Presupunem realizată această etapă.
Tehnologiile și produsele software utilizate pentru realizarea aplicației sunt: Oracle Database (SQL
Developer) – pentru integrarea surselor de date și pentru aplicarea algoritmilor de data mining, Oracle
Data Integrator – pentru construirea depozitului de date, Oracle Business Intelligence Enterprise Edition
pentru realizarea rapoartelor și a tablourilor de bord.
3. Analiza de sistem
3.1. Analiza și identificarea cerințelor – se pot realiza diagramele UML;
3.2. analiza datelor & metadatelor – sursele de date sunt în fișierele excel din directorul SURSE_DATE.
Deschideți fișierele și observați structura cestora.
3.3. Realizarea prototipului – va fi realizată o singură versiune a prototipului în etapa de dezvoltare.
4. Proiectarea noului sistem
4.1. Proiectare funcționalităților sistemului – se pot realiza diagramele UML;
4.2. Proiectarea datelor și a procesului ETL
Realizarea schemei BD relaționale
Fișierele excel au fost importate în Oracle Database în două tabele: T_CLIENTI_LEASING și
T_CLIENTI_DAUNE.
Ca rezultat datele au fost importate în schema MS_DBA, iar pentru a accesa tabelele vă conectați în SQL
Developer și folositi urmatoarele detalii in fereastra New database Connection (click dr pe Connection->
New Connection):

Connection Name: numele Dvs

Username: MS_DBA

Parola: oracle

Server

Host: 37.120.250.20

Port 1521

Service_name: oracle
Pe baza tabelelor a fost construit un set de tabele virtuale pentru a permite analiza multidimensională și
aplicarea algoritmilor de data mining.

Analizați datele din tabela T_CLIENTI_DAUNE. Selectați toate înregistrările. Tabela conține atribute
descriptive referitoare la producatori, furnizori, reprezentanța și marca auto, dar și valori numerice
referitoare la daune.

In SQL Developer (în stânga-> Views) observați următoarele tabele virtuale:

o DIM_FURNIZOR (NUME_FURNIZOR, ZONA_FURNIZOR, TARA_FURNIZOR și ID_FURNIZOR


– derivat din atributele anterioare);
o DIM_REPREZENTANTA (DENUMIRE_REPREZENTANTA, ZONA_REPREZENTANTA,
ORAS_REPREZENTANTA, GEOCODE_REPREZENTANTA, ID_REPREZENTANTA - derivat din
atributele anterioare);
o DIM_PRODUCATOR (PRODUCATOR, REGIUNEPRODUCATOR, TARAPRODUCATOR,
ID_PRODUCATOR - derivat din atributele anterioare);
o DIM_AUTO (MARCA, MODEL, AN_FABRICATIE, ID_MARCA - derivat din atributele
anterioare);
o DIM_TIMP (DATA, LUNA, TRIMESTRUL, AN) – construită pe baza atributelor data_cerere
și data_vanzarii.
o FACT_DAUNE (VIN, ID_CLIENT, DATA_CERERE, DATA_VANZARII, COD,
OPERATII_REALIZATE, COMPONENTA, DAUNA, PRET_MANOPERA, PRET_TOTAL,
VALOARE_DAUNA , ID_FURNIZOR, ID_REPREZENTANTA, ID_PRODUCATOR, ID_AUTO);

Analizați tabela T_CLIENTI_LEASING. Tabela conține informații referitoare la clienti și la cererile de


contractare a leasingului. Vom separa cele 2 categorii de atribute. Pe baza acestei tabele au fost construite
următoarele tabele virtuale:

o DIM_CLIENT (ID_CLIENT, NUME_CLIENT, PROFESIA, SEX, STARE_CIVILA);


o FACT_CERERE_LEASING (DATA_CERERE, MONEDA, CONT_CURENT, VENIT_ANUAL,
VENIT_ANUAL_RON, VAL_CREDITE_RON, CATEGORIE, PRESCORING, SUMA_DEPOZIT,
FIDELITATE, PROBABILITATE_CONTRACTARE_N, SUMA_SOLICITATA,
PRAG_SUMA_ACORDATA);

Puteți vizualiza toate tabelele virtuale în SQL Developer. Click View-> Data Modeler->Browser. In fereastra
apărută (stg jos), expandați Untitled_1, click dr. Relational Model și New Relational Model. Cu drag&drop
adăugați tabelele virtuale din lista de obiecte (Views).
5. Dezvoltarea funcționalităților sistemului
5.1. Dezvoltarea algoritmilor de data mining

Începând cu versiunea 11g, în Oracle Database tehnicile de data mining pot fi implementate cu SQL
Developer. Algoritmii de data mining pot fi aplicați prin crearea unui proiect și a unui flux de lucru
(workflow) în cadrul unei conexiuni în SQL Developer prin intermediul următoarelor componente
(Components):
Pentru analiza datelor în vederea aplicării algoritmilor de data mining, SQL Developer pune la dispoziție și
un model de analiză (Explore Data) disponibil tot în fereatra Components.

Pașii pentru aplicarea algoritmilor de data mining sunt:

- adăugarea surselor de date (tabele, views);


- analiza surselor de date prin componenta Explore Data;
- construirea modelului de data mining prin componentele de tip Models și verificarea rezultatelor
acestora;
- aplicarea și testarea modelor construite anterior prin componentele Evaluate an Apply.

Vom aplica algoritmii de data mining pentru implementarea cerințelor următoare:

Leasing:

C2. Clasificarea clienților în funcție de profilul acestora;

C3. Estimarea probabilității de încheiere a unui noi credit de leasing pe baza profilului clientului;

Asigurări:

C5. Estimarea daunelor în funcție de marca auto/data fabricație;

Rezolvare - C3. Estimarea probabilității de încheiere a unui noi credit de leasing pe baza profilului
clientului;
Dorim să clasificăm clienții companiei de leasing din punctul de vedere al contractării unui credit nou
pe baza atributelor: profesie, varstă, sex, stare civilă, venit anual, suma deținută în depozite, creditele
existente și tipul acestora, gradul de fidelitate față de bancă, prescoringul realizat anterior. Datele
referitoare la clienți sunt stocate în tabela T_CLIENTI_LEASING disponibilă în schema MS_DBA.

Aplicarea algorimilor de clasificare

Pentru aplicarea algoritmului de clasificare vom parcurge următorii pași:

 In SQL Developer click pe meniul View->Data Miner->Data miner Connections


 Adăugați o nouă conexiune pentru utilizatorul ms_dba parola oracle cu următoarea configurație:

 Creați un nou proiect: click dr. pe numele utilizatorului -> New Project. Denumiți proiectul
PROIECT_NUME (unde NUME este numele vostru).
 În acest proiect creați un nou flux, click dr - >New Workflow, denumirea w1 (sau orice alta
denumire). După acest pas sunt afișate componentele pentru data mining:
1. Analiza datelor din tabelele sursă

 În fereastra fluxului de lucru adăugați o nouă sursă de date. Din fereastra Components->Data
selectați Data Source și drag and drop în fereastra de lucru.
 Din fereastra apărută selectați tabela T_CLIENTI_LEASING apoi Next, lăsați toate atributele
selectate și Finish. Se va adăuga tabela T_CLIENTI_LEASING.
 Pentru analiza datelor vom adăuga tot din fereastra Components un element de tip Explore
Data.
 După validarea nodului, îl conectăm la sursa de date. Click dr. pe tabelă – Connect:

 Configurăm elementul Explore Data, click dr. și apoi Edit. Din fereastra apărută, la Group By
selectăm atributul PROBABILITATE_CONTRACTARE_N. Debifăm opțiunea Auto Column Input
Selection și de-selectăm atributele ID_CLIENT, CONT_CURENT, CATEGORIE:
 Click OK și rulăm procesul, click dr. pe Explore data -> Run. După terminarea procesului,
analizăm datele click dr->View Data. Analizați datele în funcție de atributele selectate. Utilizati
tab-urile Data si Statistics.
 La final închideți fereastra curentă și reveniți în fereastra procesului.

2. Aplicarea algoritmilor de clasificare

 Adăugăm un element de tip Classification din fereastra Components.


 Conectăm sursa de date la elementul Classification, click dr. pe tabelă și Connect. Implicit sunt
utilizați 4 algoritmi.
 Selectăm atributul target PROBABILITATE_CONTRACTARE_N. Nu completăm atributul Case Id.
 Click pe algoritmul SVM și apoi pe simbolul Edit. Din fereastra apărută, click pe Support Vector
Machine și tab-ul Algorithm Settings. Alegem varianta Linear. Click OK. Revenim în pagina
principală (click OK).
 Rulăm activitatea, click dr. pe nod și Run.
 După finalizarea procesului vizualizăm rezultatele, click dr. pe nod și selectăm Compare Test
Results. Analizați rezultatele obținute.
 Analizați pe rând rezultatele obținute de algoritmii Decision Tree și SVM. În fereastra principală
a proceselor, click dr. pe nod, View models. Analizați pentru DT regulile de formare a arborelui:
 În continuare aplicăm modelul DT pe un nou set de date. Click pe nodul Classification. In
fereastra Properties deselectați toți algoritmii cu excepția DT (click in dreptul acestora, se
schimba sageata verde in x):

 adăugăm o nouă sursă de date, alegem tabela T_CLIENTI_LEASING_EUR.


 din fereastra Components, secțiunea Evaluate and Apply adăugăm un element de tip Apply.
 conectăm tabela T_CLIENTI_LEASING_EUR cu elementul Apply. Conectăm și elementul Class
Build cu elementul Apply:

 modificăm elementul Apply, click dr – Edit. Din secțiunea Aditional Output adăugăm coloanele
ID_CLIENT, NUME_CLIENT, PROBABILITATE_CONTRACTARE_N și PRAG_SUMA_ACORDATA.
 Revenim în fereastra proceselor și rulăm elementul Apply.
 Analizăm datele, click dr. pe elementul Apply - >View Data.
 Comparați valorile atributelor PROBABILITATE_CONTRACTARE_N și CLASS_DT_..PRED. (predictia
modelului). Observați și probabilitatea estimării (CLASS_DT_..PROB).

C2. Clasificarea clienților în funcție de profilul acestora - Aplicarea algoritmului de clusterizare

 Creați un nou workflow în proiect.


 Adăugați o sursă de date – tabela T_CLIENTI_DAUNE.
 Din secțiunea Components-> Models adăugați modelul de clusterizare (clustering).
 Conectați cele 2 noduri.
 Editati modelul de clusterizare. In tab-ul INPUT configurați atributele utilizate în model. Debifați
opțiunea Determine Inputs Automatically și selectați opțiunea Ignore la coloana Input pt
atributele: COD, DAUNA, GEOCOD_REPREZENTANTA, ID_CLIENT, ORAS_REPREZENTANTA,
REGIUNE_PRODUCATOR, REPREZENTANTA, TARAPRODUCATOR, TARA_FURNIZOR, VIN,
ZONA_FURNIZOR, ZONA_REPREZENTANTA .
 Rulați procesul și vizualizați rezultatele. Analizați clusterele formate pe cele 2 modele.
 Adăugați un nod Apply și modificați lista de atribute (Edit-Aditional Input). Adăugați toate
atributele.
 Rulați procesul Apply și vizualizați rezultatele. Observați gruparea înregistrărilor în clustere.
C5. Estimarea daunelor în funcție de marca auto/data fabricație.

Aplicarea algoritmului de regresie

Pentru clienții companiei de asigurări auto dorim să estimăm valoarea daunelor solicitate de acești clienți
pentru diverse defecțiuni în funcție de atribute precum: marca,modelul și producătorul autoturismului,
anul de fabricatie, componenta defectă, pretul total și cotul manoperei. Aplicăm algoritmul de regresie
(Generalized Linear Regression și Support Vector Machines).

 Creați un nou workflow în proiectul existent.


 Adăugați o sursă de date – tabela T_CLIENTI_DAUNE.
 Din secțiunea Components adăugați modelul de regresie.
 Conectați cele 2 noduri, iar la Target (din tab-ul Build) stabiliti atributul VALOARE_DAUNA
 In tab-ul INPUT configurați atributele utilizate în model. Debifați opțiunea Determine Inputs
Automatically și selectați opțiunea Ignore la coloana Input pt atributele: COD, DAUNA,
GEOCOD_REPREZENTANTA, ID_CLIENT, ORAS_REPREZENTANTA, REGIUNE_PRODUCATOR,
REPREZENTANTA, TARAPRODUCATOR, TARA_FURNIZOR, VIN, ZONA_FURNIZOR,
ZONA_REPREZENTANTA .
 Rulați procesul și vizualizați rezultatele.
Partea a II-a
5.3. Dezvoltarea aplicației – realizarea interfețelor
Se vor construi rapoartele în Oracle Business Intelliegence Answers (http://37.120.250.20:9704/analytics
) și se vor integra într-un tablou de bord (Dashboard) în Oracle BI Dashboard.
Cuburile de date aferente activităților de leasing și asigurări sunt deja definite în Oracle BI Administration
Tool:

Realizarea rapoartelor în OBI Answers și realizarea tabloului de bord în OBI Dashboard. Realizați cel puțin
3 rapoarte pe fiecare domeniu de activitate (Daune și Leasing). Exemple detaliate sunt prezentate în
documentul Rapoarte daune Oracle Business Intelligence Suite.pdf.

S-ar putea să vă placă și