Sunteți pe pagina 1din 2

Algoritmul APRIORI pentru extragerea mulimilor de item-uri frecvente

Tabelul cu lista de tranzacii din BD TID List of item_IDs T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1,I3 T800 I1,I2,I3,I5 T900 I1,I2,I3 |D|=9 deoarece sunt 9 tranzacii n BD Pai pentru algoritmul Apriori
C1 Itemset {I1} {I2} {I3} {I4} {I5} Sup.count 6 7 6 2 2
Compar contorul Compar contorul suportului suportului candidatului candidatului cu cu contorul suportului contorul suportului minim minim

L1 Itemset Sup.count {I1} 6 {I2} 7 {I3} 6 {I4} 2 {I5} 2


Compar contorul suportului candidatului cu contorul suportului minim

Scaneaz D pentru contorizarea fiecrui candidat

C2
Genereaz C2 candidai din L1

C2 Itemset {I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5} C3 Sup. count 4 4 1 2 4 2 2 0 1 0

L2

Genereaz C3 candidai din L2

Itemset {I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5} C3 Itemset {I1,I2,I3} {I1,I2,I5}

Scaneaz D pentru contorizarea fiecrui candidat

Itemset Sup.count {I1,I2} 4 {I1,I3} 4 {I1,I5} 2 {I2,I3} 4 {I2,I4} 2 {I2,I5} 2

Scaneaz D pentru contorizarea fiecrui candidat

Itemset {I1,I2,I3} {I1,I2,I5}

Sup. 2 2

Compar contorul suportului candidatului cu contorul suportului minim

L3 Itemset {I1,I2,I3} {I1,I2,I5} Sup. 2 2

1. La prima iteraie a algoritmului fiecare item este un membru din setul de candidai C1 de 1-itemset. Algoritmul numr apariii pentru fiecare item 2. Presupunem c suportul minim de tranzacie necesar numrrii este 2. setul de 1-itemseturi frecvente poate fi determinat. Considerm doar candidaii care satisfac suportul minim. 3. Dezvoltm setul de 2-itemseturi frecvente, L2, algoritmul utilizeaz L1xL1 pentru generarea candidailor, C2 4. Sunt scanate tranzaciile i contorizat numrul de apariii pentru fiecare itemset candidat, 5. Este determinat 2-itemseturile frecvente L2, considernd doar acei candidai care au suportul minim. 6. Se genereaz lista de 3-itemseturi frecvente. C3=L2xL2. Bazndu-ne pe proprietatea Apriori n care toate sub-seturile de itemseturi frecvente trebuie s fie de asemenea frecvente, putem determina c

candidai de 4 nu este posibil s fie frecveni. Observm c pentru k-candidai trebuie s verificm k-1 subseturi frecvente. 7. Baza D este scanat pentru a determina L3 8. Algoritmul genereaz L3xL3 candidai de 4-itemseturi. C4 {I1,I2,I3,I5} este tiat devreme ce subsetul din el nu este frecvent , C4 este mulimea vid i algoritmul se termin, gsind toate itemseturile frecvente.

S-ar putea să vă placă și