Documente Academic
Documente Profesional
Documente Cultură
APLICATII CLASIFICARE
BAYESIANA
Aplicați metoda de clasificare
bayesiană unei baze de date asociate
datelor meteorologice ale unor zile.
Atributul tinta este “Play” și
corespunde deciziei dacă într-o zi dată
sunt condiții favorabile unui joc de
baseball. Clasificati ziua curenta.
Rezolvati aplicatia in doua moduri:
Calculati
probab
Automat folosind Tanagra
Outlook Temp Humidity Windy Play
sunny hot high F N
sunny hot high T N
overcast hot high F Y
rain mild high F Y
rain cool normal F Y
rain cool normal T N
overcast cool normal T Y
sunny mild high F N
sunny cool normal F Y
rain mild normal F Y
sunny mild normal T Y
overcast mild high T Y
overcast hot normal F Y
rain mild high T N
Modificam baza de date de mai sus astfel:
Adaugam un nou atribut Type cu valori posibile:
{training, new}
Adaugam o noua inreg pentru ziua curenta
Cu exceptia inreg noi, toate celelalte au ca
valoare pentru atributul Type: training
Importam baza de date de mai sus in Tanagra
Alegem numai exemple din mt de training:
din tab-ul Instance Selection alegem Discrete
Select Examples si aici alegem atributul Type
cu val training.
Construim clasificatorul Bayesian pe aceasta mt
de training.
Pt aplicarea clasificatorului pe intreaga baza de
date deci si pt exemplele neclasificate inca se
foloseste :
din tab-ul Instance Selection -> Recover
examples si marcam la Parameters: unselected
Alegem View dataset si vedem exemplele cele
noi acum clasificate
Baza de date poate fi acum exportata: de la
Data visualization alegem -> Export Dataset
alegem
fie selected adica doar cele noi
fie all adica toate inreg
Aplicați metoda de clasificare
bayesiană bazei de date de la
exercitiul anterior. Alegeti multimea
de training ca fiind un esantion de
66% din exemplele clasificate iar
multimea de testare, restul
exemplelor.
Calculati rata erorii clasificatorului
pe multimea de training si apoi pe
multimea de testare.
Se importa baza de date vreme.xls
Din tab-ul Instance selection se alege operatorul
Sampling unde alegem proportia esantionului
66%.
Se applica NB pe mt de training.
Eroarea=0,1111
Pentru a calcula eroarea pe mt de testare:
Define status:
input: noul atribut dat de clasificator,
target=play
De la Spv learning assessment se alege Test cu
parameters: unselected.
Eroarea= 0,4
Construiti un arbore de decizie
folosind algoritmul C-RT pe baza de
date de la exercitiul anterior.
Alegeti aceeasi multime de training.
Calculati rata erorii clasificatorului
pe multimea de training si apoi pe
multimea de testare.
Ca si la ex 2, dar se alege din SPV learning
operatorul C-RT.
Se alege min size of node to split=2
Pruning size =15%
Se obtine eroare = 0 pe mt de training
Ca mai sus se poate det eroare pe mt de
testare = 0,6
Arbore de decizie este o structura care poate fi folosita pentru a
imparti o colectie mare si eterogena de exemple intr-un sir de
colectii din ce in ce mai mici si mai omogene in raport cu un
atribut tinta.
Divizarea colectiei se face prin aplicarea unui sir de reguli de
decizie simple.
Ca orice arbore in teoria grafurilor, arborele de decizie are drept
componente
◦ noduri,
◦ ramuri,
◦ frunze
si se reprezinta cu ramurile in jos, plecand de la radacina.
◦ Nodurile interne= teste facute colectiei de date in functie de valorile unui
atribut
◦ Ramurile = valori posibile ale testelor
◦ Frunzele = modurile de clasificare (clasa careia ii apartine colectia de
inregistrari din nodul respectiv)
Pentru baza de date
din tabelul 1, un
arbore de decizie
asociat este:
Un arbore de
decizie pentru baza
de date
corespunzatoare
meciului de
baseball in care
atributul tinta este
“Play”, este:
In procesul decizional, o inregistrare intra
in arbore la radacina si iese printr-un nod
terminal clasificata.
Un drum de la radacina la o frunza este o
expresie care exprima regula folosita pt
clasificarea inregistrarii.
De exemplu, inregistrarea: {sunny, cool,
high, T} parcurge in ordine nodurile 1, 2, 5
si iese cu clasificarea Play=N, regula
folosita fiind: {Outlook= sunny si
Humidity=high}.
Frunze diferite pot fi clasificate la fel, chiar
daca din motive diferite. De exemplu,
nodurile 3 si 6 sunt clasificate la fel.
Daca atributul tinta este o var discreta
atunci arb de decizie se numeste arbore de
clasificare.
Arborele este construit de sus in jos recursiv, in
maniera Divide et Impera. Atributele de intrare sunt
discretizate in prealabil.
La inceput, in radacina arborelui se afla toate inreg
multimii de training.
Se selecteaza atributul care da cea mai buna
impartire a nodului radacina.
Se partitioneaza multimea datelor conform valorilor
testului efectuat asupra atributului selectat.
Pt. fiecare partitie se repeta pasii de mai sus.
Conditii de oprire a divizarii unui nod:
◦ Toate inreg nodului apartin aceleasi clase
◦ Nu mai sunt atribute pt a putea face divizarea ( se aege
clasa cu cele mai multe inregistrari)
◦ Nu mai exista inregistrari.
Cel mai bun atribut= atributul care da cea
mai buna divizare a unui nod
Criterii – arbore de clasificare
◦ Indicele Gini
◦ Entropia (sau informatia dobandita)
◦ Testul Chi-patrat
Daca T este o multime de date ce contine
inreg din n clase (deci atributul tinta are n
valori discrete posibile), indicele Gini se
defineste:
n 2
gini (T ) = 1 − p j
j =1
unde pj = frecventa relative a clasei j
in T
N N N
entropiediviziune(T ) = 1 entropie(T 1) + 2 entropie(T 2) + ... k entropie(T k )
N N N
entropie(T ) = −1log(1) = 0
F = ( f ij )1in
1 j m
definim
2 =
(f ij observat − f ij estimat )
2
i j f ij estimat
unde fij observat= frecventa de aparitie a
evenimentului
{ X = xi ,Y = y j }
m n
f ij estimat = = n m
f
nr. total observatii
ij
i =1 j =1
Pentru a testa ipoteza: X si Y sunt
independente, adica
P( X = xi ,Y = y j ) = P( X = xi ) P(Y = y j )
se calculeaza χ2.
Daca ipoteza este adevarata, χ2 va avea o
distributie Chi-patrat cu (n-1)(m-1) grade de
libertate.
Pentru testarea ipotezei se va calcula p-valoarea
distributiei.
Data valoarea lui χ2 pentru un set de experimente cu
gradul de libertate d, p valoarea este probabilitatea ca
ipoteza sa fie adevarata numai datorita sansei.
Cu cat p este mai mic cu atat sansele ca ipoteza sa fie
adevarata sunt mai mici si deci cu cat p este mai mic cu
atat X si Y sunt mai strans legate.
ancestor(X,Y):- parent(X,Y). %functioneaza ca o coditie de iesire din bucla (for-each, while, etc.)
ancestor(X,Y):- parent(X,Z), ancestor(Z,Y). %functioneaza ca un apel recursiv
?- ancestor(louis,sebastien).
I etapa
a II-a etapa
a III-a etapa
a IV-a etapa
un set de caracteristici 4
5
2400
4400
Bun
Bun
h1
h1
Se poate reprezenta ca
6 1600 Excelent h1
7 3200 Nesatisfacator h2
coloane caracteristicile
obiectelor Outlook
sunny
Temp
hot
Humidity
high
Windy
F
Play
N
Caracteristicile le sunny
overcast
hot
hot
high
high
T
F
N
Y
numim atribute rain mild high F Y
rain cool normal F Y
Obiectele le numim rain cool normal T N
inregistrari sau exemple overcast
sunny
cool
mild
normal
high
T
F
Y
N
sau entitati sunny cool normal F Y
rain mild normal F Y
sunny mild normal T Y
overcast mild high T Y
overcast hot normal F Y
rain mild high T N
CONTINUI – pot lua valori numerice intr-un
interval dat
Ex:
cantitatea vanduta,
temperatura (in grade),
greutatea (in kg)
DISCRETE – iau un numar finit de valori
Ex:
culoarea(albastru, rosu, galben, alb, etc),
Temperatura (ridicata, normala, scazuta)
Tip ciuperca(otravitoare, comestibila) –atribut binar
Atributele bazei de date se impart in:
Atribut tinta
Atribute de intrare
Scopul este de a estima valorile atributului
tinta.
Tipuri de operatii directionate:
Clasificarea
Regresia (estimarea)
A clasifica = a examina
trasaturile si
caracteristicile unui
obiect si a-l repartiza unui Outlook
sunny
Temp
hot
Humidity
high
Windy
F
Play
N
set de clase predefinite. sunny hot high T N
P ( x / h) P ( h)
P (h / x)
P ( x)
unde
P(x) = probab de aparitie a evenimentului x,
P(x/h) = probab ca data ipoteza h, evenimentul x sa apara.
P(h/x) se numeste probab aposteriori,
P(h) se numeste probab apriori.
Problema: Pentru acordarea unui credit pentru
cumpararea unui produs se cere clientilor sa
furnizeze informatiile legate de venitul lunar si
indicele de creditare urmand ca institutia care
acorda creditul sa decida daca un client dat
poate beneficia de acest credit.
Baza de date:
atribute:
ID (numarul de identificare a clientului,
Venit lunar, Credit(Indice de creditare),
Clasa - cu valori posibile
h1= se acorda creditul,
h2 = se acorda creditul dar cu anumite restrictii,
h3=nu se acorda creditul.
ID Venit lunar Credit Clasa
1 4800 Excelent h1
2 2800 Bun h1
3 1200 Excelent h1
4 2400 Bun h1
5 4400 Bun h1
6 1600 Excelent h1
7 3200 Nesatisfacator h2
8 1600 Nesatisfacator h3
9 2400 Nesatisfacator h2
10 200 Nesatisfacator h3
Interval_venit:
1 corespunde intervalului [0, 400)
2 corespunde intervalului [400, 2000)
3 corespunde intervalului [2000, 4000]
4 corespunde intervalului [4000, infinit).
ID Venit lunar Credit Clasa Interval_venit
1 4800 Excelent h1 4
2 2800 Bun h1 3
3 1200 Excelent h1 2
4 2400 Bun h1 3
5 4400 Bun h1 4
6 1600 Excelent h1 2
7 3200 Nesatisfacator h2 3
8 1600 Nesatisfacator h3 2
9 2400 Nesatisfacator h2 3
10 200 Nesatisfacator h3 1
Atribute de intrare:
Interval_venit
Credit
Atribut tinta:
Clasa
Data de intrare noua:
Calculam probabilitatile:
H P(H)
h1 6/10=0.6
h2 2/10=0.2
h3 2/10=0.2
Pentru fiecare
atribut:
H
h1 h2 h3
Interval_venit
Construirea
clasificatorului
Multime
testare
Evaluare
Estimari
Clasificare datelor
neclasificate conform
modelului
Multimea de training este independenta de
multimea de testare.
De obicei, alegerea multimii de training se
face prin alegerea unui esantion din
multimea datelor cunoscute
Acuratetea si rata erorii se determina pe
multimea de testare.
Daca atributul tinta poate
lua valorile
{c1, c2, …, cm}, matricea de
confuzie este o matrice
mxm cu:
C[i][j]=nr exemple care au
sunt clasificate ca avand
valoarea ci iar clasificatorul
le-a estimat ca avand fiind
in clasa cj .
Suma pe diagonala
principala = nr de exemple
clasificate corect
Suport de curs ID
1
Cuprins:
2
Clustering............................................................................................................................................................................ 17
Descrierea ........................................................................................................................................................................... 17
Arborii de decizie................................................................................................................................................................ 18
Metoda K-Nearest Neighbor ............................................................................................................................................... 19
Lanțuri Markov ................................................................................................................................................................... 20
Clasificarea Bayesiana ........................................................................................................................................................ 21
Întrebări pentru autoevaluare .............................................................................................................................................. 24
Unitatea de învățare 5 .............................................................................................................................................................. 25
Prelucrarea analitica online ...................................................................................................................................................... 25
Prelucrarea analitica online ................................................................................................................................................. 25
Caracteristicile unui sistem multidimensional .................................................................................................................... 25
Clasificarea și compararea instrumentelor OLAP ............................................................................................................... 25
Operații realizate asupra modelului multidimensional ........................................................................................................ 26
Studiu de caz ....................................................................................................................................................................... 26
Întrebări pentru autoevaluare .............................................................................................................................................. 29
Unitatea de învățare 6 .............................................................................................................................................................. 30
Analiza și proiectarea Sistemelor informatice pentru asistarea deciziei ................................................................................... 30
Modelarea datelor ............................................................................................................................................................... 30
Procesul de normalizare ................................................................................................................................................. 30
Modelarea semantica ...................................................................................................................................................... 30
Modelarea orientata-obiect............................................................................................................................................. 32
Concepte de bază ale modelarii prelucrărilor ...................................................................................................................... 33
Procesul .......................................................................................................................................................................... 33
Operația .......................................................................................................................................................................... 33
Tipul de operație ............................................................................................................................................................ 33
Regula de emisie ............................................................................................................................................................ 34
Evenimentul ................................................................................................................................................................... 34
Sincronizarea.................................................................................................................................................................. 34
Dinamica modelului conceptual al prelucrărilor ............................................................................................................ 34
Întrebări pentru autoevaluare .............................................................................................................................................. 35
Unitatea de învățare 7 .............................................................................................................................................................. 36
Dezvoltarea și testarea Sistemelor Informatice pentru Asistarea Deciziei ............................................................................... 36
Universal Modeling Language ............................................................................................................................................ 36
Diagrama cazurilor de utilizare ...................................................................................................................................... 36
Metode de Testare ............................................................................................................................................................... 39
Întrebări de autoevaluare..................................................................................................................................................... 40
Teste de evaluare ..................................................................................................................................................................... 40
Bibliografie .............................................................................................................................................................................. 40
3
Unitatea de învățare 1
Date, informații, cunoștințe
Datele sunt fapte brute, neprelucrate despre evenimente care nu au semnificație în sistem și nu sunt
organizate. Datele pot fi totuși organizate într-o manieră în care pot fi utile sau pot primi semnificație
pentru sistem. Când datele se organizează astfel încât să aibă semnificație pentru sistem ele devin
informație. Rafinarea datelor și informațiilor de-a lungul timpului formează un ansamblu numit
cunoștințe.
Direcții de abordare
• în general: semne care circulă pe diferite canale între elementele lumii reale, cu forme specifice de
receptare la nivelul materiei vii;
• în particular: când receptorul este omul, în cadrul procesului de cunoaștere
Caracteristici definitorii
• semn cu semnificație, prin existenta unui limbaj cunoscut de către receptor;
• noutate, prin completarea tezaurului de cunoștințe al receptorului;
• utilitate, prin receptarea în timp util, în contextul dorit.
- C este capacitatea canalului în biți pe secundă, o limită superioară teoretică a ratei de transfer
net (rata de informare, uneori indicată I), excluzând codurile de corectare a erorilor;
- B este lățimea de bandă a canalului în hertzi (lățimea benzii în cazul unui semnal de bandă);
- S este puterea semnalului mediu recepționat pe lățimea de bandă măsurată în wați (sau volți
pătrat);
- N este puterea medie a zgomotului și a interferenței pe lățimea de bandă, măsurată în wați
(sau volți pătrat);
4
- S / N este raportul semnal-zgomot (SNR) sau raportul purtător-zgomot (CNR) al semnalului
de comunicație la zgomotul și interferența la receptor exprimat ca un raport de putere liniar.
Data: mod concret de reprezentare a informației pentru un anumit procesor (om, calculator, algoritm,
program etc.)
Clasificarea datelor:
• După natură:
- numerice: naturale, întregi, reale, complexe;
- alfabetice
- alfanumerice
- logice
Piramidă informațională reflectă modul în care datele, informațiile și cunoștințele colaborează într-
un proces permanent, în care datele pot fi folosite pentru a obține informații și cunoștințe, iar
cunoștințele, la rândul lor, pot fi folosite pentru a obține informații și date.
5
Conceptul de tehnologie a informației (TI) se referă la totalitatea componentelor software și hardware
folosite în sistemele informaționale computerizate.
Un sistem este o entitate compusă din pârți organizate și care interacționează pentru o funcționare cât
mai eficientă. Subsistemele sunt pârți componente ale sistemului. De exemplu, Facultatea de Științe
Economice este un subsistem al sistemului Universitatea Hyperion.
Lucrările în domeniul sistemicii au condus la definirea unui model care promovează viziunea
sistemică asupra întreprinderii pe care o consideră formată din următoarele trei subsisteme:
6
Fig. 1.3. Informația și nivelele de management
În figura 1.4 intrările se constituie din date sau informații (care se preiau din documentele
justificative), care sunt procesate obținând-se informații pentru planificare, luarea deciziilor și control.
Documentele contabile se clasifică în funcție de rolul lor și de modul de întocmire în: documente
justificative (de evidentă primară), registrele contabile (evidentă contabilă) și situațiile financiare
(documente de sinteză și raportare).
7
Unitatea de învățare 2
Sistemul Informațional, Sistem informatic
Sistemul informațional comunică cu mediul său extern prin fluxuri informaționale (de exemplu
rapoartele pentru acționari), iar în interiorul său, subsistemele comunică între ele prin alte fluxuri
informaționale.
Sistemele informaționale prelucrează datele și/sau informațiile (sortare, organizare, calcule specifice)
obținând informații care sunt structurate în funcție de cerințele utilizatorilor informației.
Sistemul informatic reprezintă o parte a sistemului informațional care permite realizarea operațiilor
de culegere, transmitere, stocare, prelucrare a datelor și difuzare a informațiilor astfel obținute prin
utilizarea mijloacelor tehnologiei informației (TI) și a personalului specializat în prelucrarea automată
a datelor.
8
Fig. 2.1 Subsisteme informaționale organizate în funcție de activitățile din cadrul unei unități
economice
După aria de cuprindere, subsistemele informatice acoperă arii distincte, definite pe criterii
funcționale în cadrul organizației:
o Subsistemul contabilității
o Subsistemul producției
o Subsistemul cercetării
o Subsistemul comercial
o Subsistemul resurselor umane
9
Întrebări pentru autoevaluare
1. Definiți sistemul informațional și arătați care este relația lui cu celelalte componente ale sistemului
economic.
2. Definiți sistemul informatic și precizați locul lui în cadrul sistemului economic.
3. Ce este structura sistemului informatic?
4. Descrieți componentele structurale ale sistemului informatic și arătați care este relația dintre ele.
10
Unitatea de învățare 3
Sistemul informatic pentru asistarea deciziei
- Procesul decizional;
- Componentele SIAD;
- Depozitele de date;
- Caracteristicile depozitelor de date.
Procesul decizional, după H.Simon, presupune parcurgerea mai multor etape distincte:
- decizia permite decidentului sa aleagă o acțiune din mai multe posibile in funcție de modelul
decizional ales si de criteriul de selecție stabilit;
Conform [Stanciu, 2002], sistemele informatice pot fi grupate în funcție de natura activităților
susținute astfel:
[Ivancenco,] definește SIAD ca fiind „destinat asistării decidenților în rezolvarea unor probleme, prin
îmbinarea judecații umane cu procesarea automata a informațiilor, în scopul ameliorării calității
procesului decizional.” În opinia aceluiași autor, aceste sa diferențiază de alte sisteme informatice
după modul de utilizare, soluțiile oferite, performante, utilizatori și modelele folosite.
Componentele SIAD sunt următoarele:
1. Depozitul de date;
2. Baza de modele statistice și matematice;
3. Instrumente de raportare și data-mining;
1. Extragerea este procesul de captare a datelor din bazele de date operaționale și din alte surse;
poate interfera cu operațiile critice ale sistemului prin folosirea intensiva a metodelor de intrare/ieșire;
2. Curățarea vizează completarea valorilor lipsa, corectarea erorilor la introducerea datelor,
schimbarea formatului în care sunt salvate datele;
3. Transformarea și unificarea presupun divizarea și/sau combinarea înregistrărilor sursa,
„sincronizarea timpului”, samd.;
11
4. Încărcarea presupune realizarea mai multor etape:
a. Mutarea datelor;
b. Verificarea integrității;
c. Construirea indexurilor;
o Sincrona → declanșatoare(triggers)
o Asincrona → administrarea copiilor
Magaziile de date operaționale reprezintă colecții de date orientate către subiect, integrate,
actualizabile, curente sau aproape curente.
Depozitele de date reprezintă un sistem de baze de date specializat, orientat spre subiect, integrat,
nevolatil, dependent de timp pentru susținerea deciziilor manageriale.
Piețele de date reprezintă depozite de date specializate, orientate pe subiect, integrate, volatile și
dependente de timp.
Proiectarea logica a depozitelor de date pune accent pe corectitudinea relaționala astfel încât:
Proiectarea fizica a depozitelor de date vizează mai ales eficienta stocării și performanta:
12
▪ Redundanta controlata: vederi materializate și/sau coloane calculate
13
algebrica având M argumente (unde M este o constanta) care caracterizează
calculul.
• Stea, de exemplu:
• Fulg-de-nea, de exemplu:
14
Fig.3.2 Schema dimensionala fulg-de-nea, după http://datawarehouse4u.info/Data-warehouse-schema-
architecture-snowflake-schema.html
15
Unitatea de învățare 4
Data Mining
Data mining este analiza automata a datelor, în general a bazelor de date de dimensiuni mari, cu
scopul de a descoperi tendințe, șabloane, tipare netriviale, necunoscute anterior, uneori neașteptate, în
date și care ar putea oferi informații utile.
Tehnicile data mining fac preziceri despre viitoarele comportamente și trend-uri, permițând
afacerilor sa ia decizii bazate pe cunoștințe. Ele pot răspunde unor întrebări ca de exemplu: "Care sunt
clienții firmei care vor răspunde, aproape cu siguranța, noii promoții și de ce?" sau "Unde ar trebui
localizata noua sucursala a băncii?“
Domeniile de activitate în care se pot aplica tehnicile data mining sunt următoarele:
- în știința: astronomie, medicina, biologie;
- în domeniul afacerilor (comercial): managementul relației cu clienții (CRM –customer relationship
management), comerțul on-line, telefonie, sport și entertainment,
marketing, investiții;
- internet: motoare de căutare, text și agenți web.
1. Clasificare
2. Estimare
3. Prognoza
4. Clustering
5. Descrierea
Clasificarea consta în construirea unui model care sa poată fi aplicat unor date neclasificate.
Obiectele caracterizate sunt reprezentate de înregistrările unei baze de date sau fișier, iar clasificarea
înseamnă a adaugă o noua coloana (un nou atribut) și a determina pentru fiecare înregistrare care este
clasa căreia ii aparține.
16
Fig.4.1. Procesul clasificarii
Tehnicile data mining folosite pentru clasificare sunt arborii de decizie și tehnicile de tipul cel mai
apropriat vecin.
Estimarea lucrează cu rezultate cu valori continue, tehnicile data mining folosite pentru estimare sunt
regresia și rețele neurale.
Prognoza analizează înregistrările în raport cu o comportare viitoare ori sunt estimate în raport cu o
valoare viitoare, de exemplu prezicerea venitului unei persoane bazând-se pe istoricul activității
personale.
Clustering este operația de segmentare a unei mulțimi eterogene intr-un număr de subgrupuri mai
omogene numite clustere, înregistrările fiind grupate după similarități.
Descrierea tendințelor din baza de date pentru o mai buna înțelegere a proceselor care au dus la
producerea datelor din baza de date utilizează arborii de decizie.
17
Fig.4.2 Arbore de decizie, după https://businessjargons.com/decision-tree-analysis.html
1. instanțială clasele de atribute (de exemplu cifra de afaceri, salariu, profit net, etc), apelând
constructorul Attribute pentru fiecare din ele;
2. se populează intern setul de date cu înregistrările aferente;
3. este creată o instanță la arborele de decizie ID3; în cadrul constructorului se inițializează cu
zero variabila mEntropySet;
4. sunt apelate alternativ metodele allSamplesPositives/allSamplesNegatives care returnează true
dacă toate rezultatele sunt pozitive/negative;
5. dacă nu sunt toate cazurile pozitive/negative se apelează metoda getMostCommonValue care
returnează valoarea cea mai des întâlnită;
6. sunt numărate cazurile pozitive cu metoda countTotalPositives;
7. se calculează entropia după formula -p+log2p+ - p-log2p-;
8. se apelează metoda getBestAttribute pentru a se determina nodul rădăcină după criteriul
maxGain de câștig de informație;
9. se încarcă arborele de decizie cu valorile obținute;
În cadrul metodei principale (Main) sunt definite clasele de atribute și categoriile definite în interiorul
acestora. Implementarea criteriilor de selecție care permit clasificarea IMM-urilor în
microîntreprinderi, întreprinderi mici sau mijlocii, în cod C#, este prezentată mai jos:
18
După stabilirea tipului de IMM pe baza acestor informații, urmează corelarea cu alte date economice
ale companiilor (precum rentabilitatea economică și financiară), testându-se în ce măsură o firmă este
viabilă din punct de vedere economic. Astfel prin acest arbore de decizie se poate stabili care sunt
firmele viabile din punct de vedere economic și care nu sunt viabile.
Metoda K-Nearest Neighbor presupune calcularea distanțelor unei instanțe noi fată de instanțele din
setul de antrenare. Se vor preciza distantele fată de fiecare instanță din set, ponderile influențelor
acestor instanțe (invers proporționale cu pătratul distanțelor) și importanta instanțelor în cazul în care
atributele au ponderi diferite.
Având în vedere că fiecare instanță aparține unei clase, se prezintă suma valorilor ponderate ca
măsură a apartenenței instanței noi la una din cele două clase [Leon, 2009].
Implementarea metodei k_NearestNeighbor() presupune următoarele etape, după generarea listelor de
coordonate:
1. calcularea distanțelor dintre puncte, folosind teorema lui Pitagora și algoritmul – primul cu
toate celelalte, următorul cu restul punctelor, ş.a.m.d.:
2. sortarea ascendentă a listei cu distanțele din care s-au eliminat cele calculate redundant după
modelul – de la A la B și de la B la A:
19
length = len(testInstance)-1
for x in range(len(trainingSet)):
dist = euclideanDistance(testInstance, trainingSet[x], length)
distances.append((trainingSet[x], dist))
distances.sort(key=operator.itemgetter(1))
neighbors = []
for x in range(k):
neighbors.append(distances[x][0])
return neighbors
def getResponse(neighbors):
classVotes = {}
for x in range(len(neighbors)):
response = neighbors[x][-1]
if response in classVotes:
classVotes[response] += 1
else:
classVotes[response] = 1
sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
return sortedVotes[0][0]
Lanțuri Markov
Se spune că variabilele aleatoare (𝑋𝑛 )𝑛∈𝑁 formează un lanț Markov dacă pentru orice 𝑛 ∈ 𝑁,
probabilitatea de a ajunge din starea 𝑥𝑛−1 într-una din stările dintr-o mulțime 𝐴𝑛 ∈ 𝑆 nu depinde de
traiectoria evoluției până la 𝑥𝑛−1 , adică:
unde 𝑝(𝑥𝑛 |𝑥𝑛−1 ) se numește probabilitate de tranziție la pasul n, iar 𝑝0 (𝑥) = 𝑃(𝑋0 = 𝑥) se
numește repartiție inițială.
Fie 𝑃 = (𝑝𝑖𝑗 )𝑖,𝑗∈𝐼 matricea probabilităților de tranziție, iar 𝑝 = (𝑝𝑖 )𝑖∈𝐼 vectorul probabilităților
inițiale ale stărilor, numim 𝜋 vectorul probabilităților limită ale stărilor, iar relația adevărată:
lim 𝑝(𝑛) = 𝜋
𝑛→∞
Studiu de caz
Se afirma ca in tara vrăjitorului din Oz vremea in fiecare zi poate fi descrisa de 3 stări: ploaie,
0.5 0.25 0.25
soare si ninsoare, matricea P a probabilităților de tranziție fiind 𝑃 = ( 0.5 0 0.5 ) si repartitia
0.25 0.25 0.5
initiala p a stărilor fiind 𝑝 = (1/3 1/3 1/3), dupa o zi frumoasa urmează sigur una urata.
20
Fig.4.4. Lanț Markov implementat in Excel
Clasificarea Bayesiana
Conform [Joita, 2014], fie o baza de date D={e1, e2, …, en} si o mulțime de clase C={c1, c2, …, cm}, a
clasifica înseamnă a găsi o funcție f:D->C astfel încât fiecărui exemplu din baza de date sa ii
corespunda o clasa: f(ei)=cj.
X x1 , x 2 ,..., x n
si o mulțime de ipoteze
H h1 , h2 ,..., hm
presupunând ca o singura ipoteza poate sa apară in același timp atunci probabilitatea ca o ipoteza h
sa fie adevărata dat fiind un eveniment observabil x este:
P ( x / h) P ( h)
P(h / x)
P( x)
unde:
21
P(h/x) → probabilitate aposteriori,
Studiu de caz
Pentru acordarea unui credit pentru cumpărarea unui produs se cere clienților sa furnizeze informațiile
legate de venitul lunar si indicele de creditare urmând ca instituția care acorda creditul sa decidă daca
un client dat poate beneficia de acest credit.
Interval_venit discretizat
Se calculează:
Se calculează:
22
Calculam probabilitățile:
H h1 h2 h3
Interval_venit
H h1 h2 h3
Credit
P({int_venit=4, Credit=Exc}/h1}=(2/6)*(3/6)*(6/10)
P({int_venit=4, Credit=Exc}/h2}=0
P({int_venit=4, Credit=Exc}/h3}=0
23
Întrebări pentru autoevaluare
1. Precizați operațiile de data mining.
2. Cum se măsoară entropia în cazul algoritmului ID3
3. Ce înseamnă și cum se măsoară distanta euclidiana?
24
Unitatea de învățare 5
Prelucrarea analitica online
Caracteristicile unui sistem multidimensional - sunt clasificate în doua categorii: logice, fizice:
Caracteristicile logice sunt independente de platforma hardware utilizata, de sistemul de operare, de
numărul de utilizatori și de metodele de stocare fizica. Dimensiunile, ierarhiile, formulele, legăturile
sunt exemple de atribute logice.
Caracteristicile logice se clasifica în doua subcategorii:
- de baza (fundamentale): structura datelor, operațiile, reprezentările.
- specifice (de aplicație): orientate pe cunoștințe, orientate pe proces.
Caracteristicile fizice sunt independente de modelul multidimensional definit sau analizat și includ
modul cum se stochează și încarcă datele și ce platforme software și hardware se folosesc. Ele se
clasifica în doua categorii:
- interne: modul de stocare/acces, modul de calcul.
- externe: tipul de arhitectura, platforma utilizata.
25
Tabel 5.1. Analiza comparativa a instrumentelor OLAP
Instrumentele din grupele 1, 2 și 3 sunt instrumente ROLAP (relațional OLAP), cele din grupele 4 și 5
instrumente MOLAP (multidimensional OLAP), cele din grupa 6 instrumente desktop OLAP
(DOLAP) iar cele din grupele 2 și 4 instrumente OLAP hibride (HOLAP)
Studiu de caz
Se dau entitățile:
Cerințe:
Rezolvare:
SELECT componente.numec, furnizori.numef, fapte.cant
FROM public.furnizori, public.fapte, public.componente
WHERE furnizori.fid = fapte.fid AND fapte.cid = componente.cid;
26
Fig.5.3. Rezultat proiecție pe coloanele numec, numef și cant
Rezolvare:
SELECT `F#`,`C#`,SUM(cant) FROM Fapte GROUP BY `F#`,`C#`
27
Fig.5.5. Rostogolire pe dimensiunile Furnizori și Componente
Rezolvare 2:
SELECT SUM(fapte.cant), fapte.cid, fapte.fid FROM public.fapte GROUP BY
GROUPING SETS ((fid),(cid),())
Rezolvare 1:
SELECT SUM(fapte.cant), fapte.cid, fapte.fid FROM public.fapte GROUP BY CUBE
(fid,cid)
Rezolvare 2:
SELECT SUM(fapte.cant), fapte.cid, fapte.fid FROM public.fapte GROUP BY
GROUPING SETS ((fid,cid),(fid),(cid),())
28
Fig. 5.7. Hypercub asociat dimensiunilor Furnizori și Componente
29
Unitatea de învățare 6
Analiza și proiectarea Sistemelor informatice pentru asistarea deciziei
- Modelarea datelor;
- Modelarea prelucrărilor.
Modelarea datelor
Metodele de proiectare au ca scop obținerea unor colecții de date ce respecta atât cerințele
informaționale ale utilizatorului cat și restricțiile impuse de modelul relațional.
Modelarea semantica
De ce? A crescut nivelul de înțelegere a importantei regulilor de business în activitatea comerciala. Ea
reprezintă activitatea generala care consta în încercarea de a reprezenta semnificația.
30
Modelul Entitate-Asociere permite modelarea realității prin intermediul unor concepte abstracte:
entități, asocieri, atribute și reprezintă o tehnica de realizare a diagramelor:
- Subtipurile se constituie sub forma ierarhiilor de entități, implementate sub forma compunerii sau
specializării(moștenire)
31
Fig.6.3. Exemplu de ierarhie de tipuri
Modelarea orientata-obiect
Concepte:
Obiect – entitate cu identitate proprie caracterizata prin stare și comportament. Obiectele
comunica intre ele prin intermediul mesajelor
Abstractizare – obiecte cu aceeași stare și comportament sunt grupate în clase
Încapsulare – capacitatea obiectelor de a conține atât date cat și operații, numai în parte
vizibile
Moștenire – toate atributele și metodele vizibile unei clase sunt preluate automate de o clasa
derivate
Polimorfism – posibilitatea unui obiect de a răspunde diferit la primirea aceluiași mesaj.
- Partajarea datelor
- Utilizarea structurilor de date complexe
Clasa Tabel(Relație)
Obiect Tuplu(Înregistrare)
32
Atribut Câmp
Etapele proiectării
1. Identificarea obiectelor și claselor;
2. Identificarea asocierilor;
3. Identificarea atributelor, restricțiilor din interiorul unei clase și a metodelor specifice fiecărei clase;
4. Validarea modelului obiect.
Reguli de conversie
- O clasa este reprezentata printr-o tabela;
- O asociere se reprezintă prin includerea cheii primare din clasa corespondenta în clasa de referința;
- O clasa asociere conține atributele cheie din clasele asociate;
- Specializări ale unei clase de referința vor conține cheia primara a clasei de baza.
33
Regula de emisie
• reprezintă o propoziție logică care dacă se dovedește adevărată va determina producerea unui anumit
eveniment;
• este expresia condițiilor referitoare la contextul în care se va derula operația.
Evenimentul reprezintă o circumstanță (un semnal) adusă la cunoștința sistemului la care acesta
trebuie să răspundă. Grafic tipul de eveniment se reprezintă printr-o elipsă.
34
Fig.6.6. Modelul conceptual al prelucrărilor
35
Unitatea de învățare 7
Dezvoltarea și testarea Sistemelor Informatice pentru Asistarea Deciziei
- Diagrame UML;
- Metode de testare.
Alte diagrame:
• diagramele de stare completează descrierea obiectelor prin:
• descrierea tuturor stărilor posibile pe care le pot avea obiectele unei clase;
• evidențierea evenimentelor care determină schimbarea stărilor.
Nota: Diagramele de stare se întocmesc pentru clasele care au un număr definit de stări.
36
Fig.7.2. Diagrama de stare
37
• diagramele de secvență;
• diagramele de colaborare
38
Evaluarea sistemului informatic pentru asistarea deciziei presupune următoarele:
1. performanțele și limitările sistemului:
a. îndeplinirea obiectivelor, funcțiilor, sarcinilor de bază și de exercitare a conducerii;
b. oportunitatea, completitudinea și suficientă informațiilor destinate conducerii;
c. timpul de răspuns al sistemului – intervalul de timp din momentul transmiterii unei cereri
din partea conducerii până la momentul primirii răspunsului trebuie să fie scurt;
d. calitatea și precizia informațiilor obținute;
e. calitatea și siguranța fluxurilor informaționale;
f. posibilitățile de control;
g. timpii optimi privind reacția la apariția unor erori și corecția acestora;
h. gradul de integrare a sistemului informațional în corelație directă cu gradul de automatizare
a prelucrărilor;
2. gradul de pregătire a unității economice pentru implementarea sistemului informatic nou:
a. existenta cunoștințelor și disciplinei tehnologice;
b. posibilitățile de instruire și autoinstruire în ceea ce privește utilizarea computerelor și a
produselor informatice etc.
Metode de Testare
Functional testing - Testare de tip black box canalizata pe verificarea cerințelor funcționale ale
aplicației; acest tip de testare trebuie făcut de testeri.
Black box testing - Nu se bazează pe cunoașterea interna a design-ului sau a codului . Testele sunt
bazate pe cerințe și funcționalitate
White box testing - Se bazează pe cunoașterea logicii interne a codului aplicației. Testele sunt bazate
pe acoperirea sintaxei de cod, ramuri, cai, condiții.
39
Întrebări de autoevaluare
1. Enumerați principalele diagrame UML;
2. Care sunt principalele metode de testare?
Teste de evaluare
1. Ce desemnează acronimul UML?
2. Enumerați principalele metodologii de dezvoltare;
3. Ce caracteristici trebuie sa îndeplinească depozitele de date?
4. Care sunt operațiile de tip OLAP?
5. Care sunt diagramele UML utilizate în modelarea prelucrărilor?
6. Descrieți un algoritm de data mining la alegere;
7. Enumerați fazele funcționarii unui sistem;
8. Care sunt componentele unui sistem informatic pentru asistarea deciziilor?
9. Care sunt factorii alegerii unui nou sistem informatic pentru asistarea deciziilor?
10. Sunt considerate bune practici în dezvoltarea sistemelor informatice următoarele.
Bibliografie
1. I.Lungu, Gh.Sabau, M.Velicanu, M.Muntean – Sisteme informatice – Analiza, proiectare și
implementare, Ed. Economica, București, 2003
2. V. Stanciu – Proiectarea sistemelor informatice, Ed. Dual Tech, Bucureștii, 2002
3. R. Vasilescu – Sisteme informatice de contabilitate, Ed. Eurostampa, Timișoara, 2008
4. D. Joita – Tehnici de Data mining, Curs pentru învățământul la distanta, Ed. Univ.Titu
Maiorescu, București, 2014
5. C.V. Ivancenco – Note de curs,
http://www.cig.ase.ro/prof/ivancenco/resurse/cig_siad%20cursul%203.pdf
40
SIAD Suport de curs II
SIAD bazat pe doc
●
Monitoriz echipamentelor
●
Dictionare de date
●
Inventarul componentelor
●
Raion
SIAD orientate pe date
●
Gestiunea portofoliului
●
Analiza cadastrala
●
Analiza bugetului
●
Analiza datelor economice
●
Analiza seriilor de timp
●
Modelare
SIAD bazate pe analiza datelor
●
SI pentru vanzari – extrag datele relevante din sisteme de
prelucrare automata a datelor in vederea obtinerii de
analize ad-hoc.
●
Etape:
●
- identificarea problemei;
●
- configurarea sistemului in vederea gasirii unei solutii;
●
- identificarea solutiei pe baza analizei.
SIAD orientate pe gestiune
●
Logistica si managementul timpului;
●
Estimarea bugetelor;
●
Management de proiect;
●
Politica salariala si acordarea de bonusuri;
●
Extinderea planului general de dezvoltare;
●
Consolidarea strategica;
●
Planificarea investitiilor;
●
Estimarea pe termen scurt a bugetelor.
●
●
Scop: consolidarea, consistenta, evaluarea si intelegerea proceselor interne
SIAD axate pe optimizari
●
Eficientizarea activitatii de formare profesionala;
●
Planificarea strategica;
●
Optimizarea rezultatelor financiare pe termen scurt;
●
Reducerea consumului de materii prime;
●
Eficientizarea fluxului intern de documente;
●
Optimizarea sistemului de comenzi
●
●
Scop: alocarea optima a factorilor si mijloacelor de productie
SIAD-uri consultative
●
Alocarea bugetelor de cheltuieli in functie de vanzari;
●
Calculul tintelor de vanzari pe categorii de produse;
●
Previziunea nivelului viitor al productiei;
●
Determinarea fluxului activitatii comerciale pe niveluri organizatorice;
●
Gestiunea datoriei pe termen scurt;
●
Gestiunea portofoliului de actiuni si dividende;
●
Aocarea optimala a capitalului propriu;
●
●
Scop: oferirea unei solutii economice in vederea atingerii unei tinte
Caracteristici ale diferitelor tipuri de
sisteme
Caracteristici ale diferitelor tipuri de
sisteme (II)
Multumesc!
Data mining si securitatea
informatiei – introducere
Orice calculator sau retea de calculatoare este vulnerabila
la atacuri.
Clusterizarea
Clasificarea
Detectarea valorilor exceptionale (outlier detection)
Reguli de asociere
Suport de curs
Introducere
Data mining este analiza automata a datelor, in
general a bazelor de date de dimensiuni mari, cu
scopul de a descoperi tendinte, sabloane, tipare
netriviale, necunoscute anterior, uneori neasteptate,
in date si care ar putea oferi informatii utile.
Tehnicile data mining
Pot face preziceri despre viitoarele comportamente si
trend-uri, permitand
afacerilor sa ia decizii bazate pe cunostinte. Ele pot
raspunde unor intrebari ca de exemplu: "Care sunt
clientii firmei care vor raspunde, aproape cu siguranta,
noii promotii si de ce?" sau "Unde ar trebui localizata
noua sucursala a bancii?“
Metodologia data mining
Sunt numeroase domeniile de activitate in care se pot
aplica tehnicile data mining:
a. Clasificare
b. Estimare
c. Prezicere (prognoza)
d. Asociere
e. Clustering
f. Descriere si profil
Clasificarea
Obiectele care sunt caracterizate in general sunt
reprezentate de inregistrarile unei baze de date sau
fisier, iar clasificarea inseamna a adauga o noua
coloana (un nou atribut) cu un cod al unei clase de un
anumit tip si a determina pentru fiecare inregistrare
care este clasa careia ii apartine.
Clasificarea consta in construirea unui model care sa
poata fi aplicat unor date neclasificate inca tocmai
pentru a putea fi clasificate.
Tehnicile data mining folosite pentru clasificare sunt
arborii de decizie si tehnicile de tipul cel mai
apropriat vecin.
Estimarea
In timp ce clasificarea lucreaza cu rezultate de tip
discret, estimarea lucreaza cu rezultate cu valori
continue.
Estimarea se foloseste foarte des pentru a clasifica
inregistrarile.
Tehnicile data mining folosite pentru estimare
sunt: regresie si retele neurale.
Prezicere sau prognoza
Prezicerea este la fel ca si clasificarea si estimarea, doar
ca inregistrarile sunt clasificate in raport cu o
comportare viitoare sau estimate in raport cu o valoare
viitoare.
De exemplu, prezicerea acelor clienti care sunt pasibili
sa raspunda unui produs nou, prezicerea venitului
unei persoane bazandu-ne pe detalii personale.
Asociere
Asocierea este operatia de a determina ce lucruri pot fi
grupate impreuna.
Asocierea este o modalitate de a genera anumite reguli
de forma "daca se intampla acest lucru atunci se va
intampla si acest lucru (cu probabiliatea x).
Clustering
Clustering este operatia de segmentare a unei multimi
heterogene intr-un numar de subgrupuri mai
omogene numite clustere.
Clustering se deosebeste de clasificare prin aceea ca nu
se bazeaza pe clase predefinite. In cazul operatiei de
clustering nu exista multime de training sau exemple
predefinite. Inregistrarile sunt grupate dupa
similaritati.
Descriere si profil
Uneori scopul metodologiei data mining este de a
descrie ce se intampla, care sunt tendintele in baza de
date, pentru o mai buna intelegere a persoanelor,
produselor si proceselor care au dus la producerea
datelor din baza de date.
Printre tehnicile folosite se numara arborii de
decizie, regulile de asociere si clustering.
Metoda K-Nearest Neighbor
Aceasta presupune calcularea distanţelor unei instanţe noi
faţă de instanţele din setul de antrenare. În acest sens se
utilizează distanţa euclidiană şi ponderarea atributelor.
Se vor preciza distantele faţă de fiecare instanţă din set,
ponderile influenţelor acestor instanţe (invers
proportionale cu pătratul distanţelor) şi importanţa
instanţelor în cazul în care atributele au ponderi diferite.
Avand în vedere că fiecare instanţă aparţine unei clase, se
prezintă suma valorilor ponderate ca masură a apartenenţei
instanţei noi la una din cele două clase.
Implementarea metodei K-Nearest Neighbor
presupune următoarele etape, după generarea listelor
de coordonate:
1. calcularea distanţelor dintre puncte, folosind teorema
lui Pitagora şi algoritmul – primul cu toate celelalte,
următorul cu restul punctelor, ş.a.m.d. – şi adăugarea lor
în lista dist;
2. sortarea ascendentă a listei cu distanţele din care s-au
eliminat cele calculate redundant după modelul – de la
A la B şi de la B la A;
3. afişarea distanţelor în ordine descrescătoare.
Aplicarea teoremei lui Pitagora în determinarea distanţei dintre puncte
Modul de logare
Studiu de caz
:- dynamic fapt/2.
%metoda principala
login(Info):-
verifica(Info),!,
write('Multumesc!').
%daca atributul cu cheia respectiva (de ex. credentiale) NU este in baza de fapte se deduce din
reguli (de ex. Utilizator):
verifica(Cheie):-
fapt(Cheie,_),!.
verifica(Cheie):-
infer(Cheie),
cere(Cheie).
%modelul datelor
utilizator(credentiale, acces):-
atribut(user, radu),
atribut(pwd,1234).
%interfata
prompt(user):-write('Care este utilizatorul tau?'), nl.
prompt(pwd):-write('Ce parola ai?'), nl.
Etape:
Pasul 1. Se deduc utilizatorii din modelul de date si se adauga in baza de fapte – sageata albastra;
Pasul 2. Pentru fiecare atribut se invoca metoda verificare – sageata rosie - care solicita input-ul
utilizatorului – sageata verde – doar pentru valori care se gasesc in baza de fapte;
Pasul 3. Daca totul decurge bine, se intoarce un mesaj de intampinare (Multumesc!).
OLAP
6.53
Radu Manea
DEFINITIE
HOLAP OLTP
HOLAP, sau hibrid OLAP, încearcă să creeze Procesarea tranzacțiilor online, sau OLTP, se
inbinarea optimă între bazele de date relaționale și referă la metodele de prelucrare a datelor și
multidimensionale în cadrul unei singure arhitecturi software-ul axat pe date și aplicații orientate
OLAP. Tabelele relaționale conțin cantități mai mari către tranzacții.
de date, iar cuburile OLAP sunt folosite pentru
agregare și procesare speculativă. HOLAP necesită
un server OLAP care acceptă atât MOLAP, cât și
ROLAP.
ROLL UP
PIVOT
dimensiuni.
De exemplu, puteți trece în sus în ierarhia conceptuală
Operația de tip dice izolează un sub-cub selectând mai multe dimensiuni din cubul
OLAP principal. De exemplu, puteți evidenția toate datele după calendarul sau
trimestrul fiscal al unei organizații (dimensiunea timp) și în S.U.A. și Canada
(dimensiunea locație).
PIVOT
Funcția pivot rotește vizualizarea curentă a cubului
pentru a afișa o nouă reprezentare a datelor,
permițând vederi dinamice multidimensionale ale
acestora.
O structură de date care agregă măsurile după nivelurile și ierarhiile Un set de valori dintr-un cub care se bazează pe o coloană din tabelul
fiecăreia dintre dimensiunile pe care doriți să le analizați. Cuburile de fapte al cubului și care sunt de obicei valori numerice. Măsurile sunt
combină mai multe dimensiuni, cum ar fi timpul, locatia și liniile de valorile centrale din cub care sunt preprocesate, agregate și analizate.
produse, cu date rezumate, cum ar fi cifrele de vânzări sau de stoc. Exemplele comune includ vânzările, profiturile, veniturile și costurile.
DIMENSIUNE IERARHIE
Un set de una sau mai multe ierarhii organizate pe niveluri dintr-un O structură arborescentă logică care organizează membrii unei
cub pe care un utilizator le înțelege și le folosește ca bază pentru dimensiuni astfel încât fiecare membru să aibă un membru părinte
analiza datelor. De exemplu, o dimensiune geografică poate și zero sau mai mulți membri copii. Un copil este un membru
include niveluri pentru Țară/Regiune, Stat/Provinție și Oraș. inferior următorului nivel într-o ierarhie care este direct legată de
membrul curent. De exemplu, într-o ierarhie de timp care conține
nivelurile Trimestru, Lună și Zi, ianuarie este un copil al lui Qtr1.
10
Sisteme Info. pt. Asist. Deciziei
Caracteristici
●
Destinate managementului superior (middle-
upper)
●
Combina metode analitice cu functii de acces la
date
●
Interfete prietenoase, destinate utilizatorilor simpli
●
Adaptabile schimbarilor
Clasificare
●
Colaborative, ex Google Docs
●
Orientate pe date, ex Serii de timp
●
Orientate pe documente
●
Bazate pe cunoastere, ex Arbori de decizie
●
Bazate pe modele, ex Petri Net
Componente
●
Baza de date
●
Baza de modele statistico-matematice
●
Interfata: generatorul de rapoarte, BI tools, etc.
Tipologie
●
Dupa domeniu: mk, prod, fin
●
Dupa nivel org: operational, control, strategic
●
Dupa tipul problemei: structurat/nestructurat
●
Dupa tipul tehnologiei: interactiv/batch
●
Dupa abordare: simulare/optimizare
Operatii generice
●
Aducerea unui singur tip de info
●
Mecanisme ad-hoc de analiza a datelor
●
Agregari de date sub forma rapoartelor
●
Evaluarea deciziilor
●
Propunerea unei decizii
●
Aplicarea deciziei
Multumesc!
Radu Manea
O mulţime fuzzy A, definită pe o mulţime X, este formată
din perechi ordonate (x ; μA(x)), unde x este un element
din mulţimea X, iar μA(x) este un element care poate lua
valori în intervalul [0,1] şi descrie măsura în care
elementul x aparţine sau nu mulţimii A.
μA(x) este funcţia caracteristică sau funcţia de apartenenţă
asociată mulţimii fuzzy A, iar valoarea acestei funcţii se
numeşte grad de apartenenţă. O singură pereche de forma
(x ; μA(x)) se numeşte singleton fuzzy.
În general, un număr fuzzy este un număr real definit pe
un interval de încredere [a,b] şi descris de o funcţie de
apartenenţă care ia valori în intervalul [0,1].
R1 : Dacă x este X1 şi y este Y1 atunci z este Z1
R2 : Dacă x este X2 şi y este Y2 atunci z este Z2 . . .
Rn : Dacă x este Xn şi y este Yn atunci z este Zn
Fuzzificare
Inferenta – Reguli Fuzzy
Defuzzificare
Are ca scop obtinerea unei multimi Fuzzy pornind de la
input (singleton):
Ar trebui analizate toate combinatiile si construite
reguli pentru toate combinatiile posibile!
Reguli de inferenta:
Negarea. Pentru o mulţime fuzzy A caracterizată de funcţia de
apartenenţă μA(x), mulţimea fuzzy complementară, notată Ā, va
avea funcţia de apartenenţă: μĀ(x) = 1- μĀ(x);
Reuniunea a două mulţimi fuzzy A şi B, caracterizate de funcţiile de
apartenenţă μA(x) şi μB (x) produce o nouă mulţime fuzzy C=A B,
a cărei funcţie de apartenenţă se determină pe baza operatorului max,
conform relaţiei: μ A B(x) = max(μA(x), μB(x));
Intersectia a două mulţimi fuzzy A şi B produce o nouă mulţime
fuzzy C= A∩B, a cărei funcţie de apartenenţă se determină pe baza
operatorului min, conform relaţiei: μA∩B(x) = min(μA(x), μB(x)).
➢ Metoda centroidului determină valoarea crisp (exacta)
asociată ieşirii unui sistem fuzzy prin valoarea abscisei
centrului de greutate al figurii geometrice care descrie
mulţimea fuzzy asociată ieşirii sistemului
➢ Daca aria este perceputa ca și o placa de densitate egala,
centrul de greutate este ordonata punctului fata de care
placa sta in echilibru.
Determinarea vitezei optime de deplasare in functie de:
❖ vizibilitate
❖ calitatea drumului
Baza de reguli:
88,8 Km/h
SISTEME INFORMATICE BAZATE PE CUNOASTERE
RADU MANEA
Un sistem de management al
cunoștințelor cuprinde o serie de practici
DEFINITIE utilizate într-o organizație pentru a
identifica, crea, reprezenta, distribui și
adopta experiența (know-how).
ARHITECTURA
Baza de cunostinte sau
depozitul de date;
Instrumente de data mining
si reasoning;
Interfata cu utilizatorii din
groupware, intranet, samd.
MAPAREA CONTINUTULUI
Cunostintele Domeniile la
Detinatorii de
cheie sau utile care fac referire
cunostinte
organizatiei cunostintele
IDENTIFICAREA
CUNOSTINTELOR
Fisiere
Documente de uz intern
Inregistrari
Resurse web
Baze de date
Tacite <- interviuri
fata in fata
CLASIFICAREA
CUNOSTINTELOR
Explicite <- aplicarea
de chestionare
ACHIZIITIA
CUNOSTINTELOR
Aplicarea statistica/probabilistica
a sabloanelor
Mineritul datelor
Invatarea automata
Lisp
AIML
Matlab
JavaNNS
CLIPS
ETAPE IN ELABORAREA SIST. BAZATE PE CUNOASTERE
1. Se incepe cu problema de afaceri și valoarea de afaceri
care urmează să fie livrate mai întâi.
Semantica extinsa
Interogare bazata pe
backtracking
Eficienta sporita
Costuri reduse
MULTUMESC!
Sisteme expert
bazate pe AI
Radu Manea
Arhitectura generala
Etape
Caracteristici SE bazate pe IA
• Nu imita rationamentul uman;
• Orientate pe backward chaining;
• Invatarea automata bazata pe inductie este adesea folosita la
stabilirea regulilor prin formarea unui arbore de decizie plecand de la
un set de training.
Structura
neuronului
Formula de
calcul al
output-ului
∑wixi + bias = w1x1 + w2x2 + w3x3 +
bias
Arhitectura
retelei
Exemplu
Rețeaua neurală este formată
din celule care corespund
simptomelor din stratul de
intrare, bolile sunt prezentate în
stratul intermediar sau ascuns și
celule neurale (noduri) pentru
tratamentele definite în stratul
de ieșire.
Implementare (pseudocod)
if
duration (x, chronic) and
disorder (x, hepatocellular) and
age (x, <25) and
lab-results (x, Kayser–Fleischer rings)
then
diagnostic (x, Wilson’s disease)
Exemple de SE