Bine ați venit la Scribd!

Săriți peste schemele de tip carusel

Ssignment Achine Earning: Innah Niversity FOR Omen

Încărcat de

Anonymous HTDoUfUgz

0% au considerat acest document util (0 voturi)

47 vizualizări6 pagini

Weka naive bayes KNN

Titlu original

TextClassifier_usingWeka-2

Drepturi de autor

Formate disponibile

DOCX, PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

Weka naive bayes KNN

Drepturi de autor:

Formate disponibile

Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

47 vizualizări6 pagini

Ssignment Achine Earning: Innah Niversity FOR Omen

Încărcat de

Anonymous HTDoUfUgz

Weka naive bayes KNN

Drepturi de autor:

Formate disponibile

Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 6

Căutați în document

ASSIGNMENT 1

MACHINE LEARNING

B.S. (IT)
Submitted by:
Bushra Urooj Ansari
Sana Iqbal

6th March 2016

DEPARTMENT OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY

JINNAH UNIVERSITY FOR WOMEN

5-C NAZIMABAD, KARACHI 74600

A data mining experiment: SMS

Spam reviews classification using
WEKA
The SMS Spam reviews dataset
The dataset consists of 5,574 user-created SMS. The collection is composed by just
one file where the class attribute has only two values: spam and ham.

Importing the dataset in WEKA

Fig. 1: imported dataset and class distribution

As expected, we get a relation containing 5,574 instances and two attributes (text and
class). The histogram in the figure shows the uniform distribution of the review classes
(blue = ham, red = spam).

Text preprocessing and feature extraction in WEKA

Choose Filter StringToWordVector Filter in preprocessing tab.

Fig. 2: StringToWordVector filter configuration

After applying the StringToWordVector filter, we get the result shown in figure 3.

Fig. 3: after term extraction

We get a relation containing 13833 binary attributes. The histogram shows the
distribution of the term I among the documents.
The last preprocessing operation is the attribute selection. Eliminating the poorly
characterizing attributes can be useful to get a better classification accuracy. For this
task,
WEKA
provides
the AttributeSelection filter
from
the weka.filters.supervised.attribute package. The filter allows to choose an attribute
evaluation method and a search strategy (fig. 4).

Fig. 4: AttributeSelection filter parameters

The default evaluation method is CfsSubsetEval (Correlation-based feature subset
selection). This method works by choosing attributes that are highly correlated with the
class attribute while having a low correlation with other attributes.
After applying the AttributeSelection filter, we obtain the result show in figure 5.

Fig. 5: after applying the AttributeSelection filter

As you can see, the number of attributes has greatly decreased, passing from more
than 5574 to just 64.

Classification
Naive bayes classifier
In WEKA, the Naive Bayes classifier is implemented in the NaiveBayes component from
theweka.classifiers.bayes package. The best result achieved with this classifier has
shown a correctness percentage of 96.2684% (fig. 6), using a dataset.

Fig. 6: best classification result with Naive Bayes

K-nearest neighbors classifier

In WEKA, the k-NN classifier is implemented in the weka.classifiers.lazy.IBk component.
The best result achieved with this kind of classifiers has shown a correctness
percentage of 96.3581% (fig. 7), using the 1-nearest neighbors classifier on a dataset .

Fig. 7: best classification result with k-nearest neighbors (1-NN)

Classification algorithm
Correctness Percentage
Nave Bayes
96.26%
KNN (K=1)
96.35%
Table 1: Comparison

S-ar putea să vă placă și

Practical 9 - Text Mining
Document22 pagini
Practical 9 - Text Mining
nangayebokham
Încă nu există evaluări
On Meta-Learning For Dynamic Ensemble Selection: Rafael M. O. Cruz and Robert Sabourin George D. C. Cavalcanti
Document6 pagini
On Meta-Learning For Dynamic Ensemble Selection: Rafael M. O. Cruz and Robert Sabourin George D. C. Cavalcanti
Robercy Alves
Încă nu există evaluări
Analysis and Optimization of Parameters Used in Training A Cascade Classifier
Document24 pagini
Analysis and Optimization of Parameters Used in Training A Cascade Classifier
Rohit Jangid
Încă nu există evaluări
National Institute of Technology Karnataka, Surathkal: A Project Report On
Document9 pagini
National Institute of Technology Karnataka, Surathkal: A Project Report On
Buddharaj Ambhore
Încă nu există evaluări
Interplay Between Probabilistic Classifiers and Boosting Algorithms For Detecting Complex Unsolicited Emails
Document5 pagini
Interplay Between Probabilistic Classifiers and Boosting Algorithms For Detecting Complex Unsolicited Emails
Shrawan Trivedi
100% (1)
BayesianNetClassifiers 3.5.5
Document35 pagini
BayesianNetClassifiers 3.5.5
sirajul hadi
Încă nu există evaluări
A New Component Selection Algorithm Based On Metrics and Fuzzy Clustering Analysis
Document9 pagini
A New Component Selection Algorithm Based On Metrics and Fuzzy Clustering Analysis
Camelia Serban
Încă nu există evaluări
Performance Comparison Between Naïve Bayes, Decision Tree and K-Nearest Neighbor in Searching Alternative Design in An Energy Simulation Tool
Document7 pagini
Performance Comparison Between Naïve Bayes, Decision Tree and K-Nearest Neighbor in Searching Alternative Design in An Energy Simulation Tool
Akon Akki
Încă nu există evaluări
Cruz Ijcnn 2015
Document8 pagini
Cruz Ijcnn 2015
kakarotto
Încă nu există evaluări
DMBI Exp1: Introduction To WEKA Tool
Document6 pagini
DMBI Exp1: Introduction To WEKA Tool
Ankit
Încă nu există evaluări
B.1 Input and Output:: Part B (Part B: To Be Completed by Students)
Document6 pagini
B.1 Input and Output:: Part B (Part B: To Be Completed by Students)
Shubham Gupta
Încă nu există evaluări
Classifying Datasets Using Some Different Classification Methods
Document7 pagini
Classifying Datasets Using Some Different Classification Methods
erpublication
Încă nu există evaluări
BayesianNetClassifiers 3 5 8
Document47 pagini
BayesianNetClassifiers 3 5 8
miguel angel López
Încă nu există evaluări
Improving Performance of Classification On Incomplete Data Using Feature Selection and Clustering.
Document18 pagini
Improving Performance of Classification On Incomplete Data Using Feature Selection and Clustering.
habeeb4sa
Încă nu există evaluări
Filter Fs Sdata
Document6 pagini
Filter Fs Sdata
Kannan Senthamarai
Încă nu există evaluări
Graph Regularized Feature Selection With Data Reconstruction
Document10 pagini
Graph Regularized Feature Selection With Data Reconstruction
Technos_Inc
Încă nu există evaluări
Weka Tutorial: 1. Downloading and Installing Weka (Version 3.6)
Document4 pagini
Weka Tutorial: 1. Downloading and Installing Weka (Version 3.6)
aditi1687
Încă nu există evaluări
An Advanced Multi-Matcher Method For On-Line Signature Verification Featuring Global Features and Tokenised Random Numbers
Document5 pagini
An Advanced Multi-Matcher Method For On-Line Signature Verification Featuring Global Features and Tokenised Random Numbers
arbassiri
Încă nu există evaluări
Solution HW2
Document6 pagini
Solution HW2
prakshi
Încă nu există evaluări
Algorithm For Classification
Document4 pagini
Algorithm For Classification
Parth Patel
Încă nu există evaluări
CaseStudy ClassificationandEvaluation
Document4 pagini
CaseStudy ClassificationandEvaluation
vettithala
Încă nu există evaluări
DWM Exp 5,219
Document12 pagini
DWM Exp 5,219
Mayur Pawade
Încă nu există evaluări
Tut2 Weka
Document8 pagini
Tut2 Weka
borjaunda
Încă nu există evaluări
Gomez Jorge Project
Document9 pagini
Gomez Jorge Project
Jorge Luis Gomez Ponce
Încă nu există evaluări
Report Digit Recognition
Document11 pagini
Report Digit Recognition
Aristofanio Meyrele
Încă nu există evaluări
Final Manuscript Paper ID237 237
Document4 pagini
Final Manuscript Paper ID237 237
Usman Tariq
Încă nu există evaluări
Weka Sample
Document21 pagini
Weka Sample
LoveAstro
Încă nu există evaluări
Electrical Engineering Technical Seminar Report
Document19 pagini
Electrical Engineering Technical Seminar Report
dastagir shah
Încă nu există evaluări
Report
Document7 pagini
Report
api-365966798
Încă nu există evaluări
Data-Mining-Lab-Manual Cs 703b
Document41 pagini
Data-Mining-Lab-Manual Cs 703b
Amit Kumar Sahu
Încă nu există evaluări
Its665 Isp565 Group Project March 2023
Document10 pagini
Its665 Isp565 Group Project March 2023
2021826386
Încă nu există evaluări
Module 4
Document41 pagini
Module 4
Sneha
Încă nu există evaluări
Data Mining and Warehousing Concepts Lab: (ITPC - 228)
Document6 pagini
Data Mining and Warehousing Concepts Lab: (ITPC - 228)
Angelina Tutu
Încă nu există evaluări
Bayesian Network Classifiers in Weka
Document23 pagini
Bayesian Network Classifiers in Weka
Joao
Încă nu există evaluări
Exp 6
Document9 pagini
Exp 6
ansari amman
Încă nu există evaluări
Data Mining - Lab - Manual
Document20 pagini
Data Mining - Lab - Manual
varmam
Încă nu există evaluări
Clustering Before Classification
Document3 pagini
Clustering Before Classification
mc awarty
Încă nu există evaluări
Classification of Iris Data Set: Mentor: Assist. Prof. Primož Potočnik Student: Vitaly Borovinskiy
Document21 pagini
Classification of Iris Data Set: Mentor: Assist. Prof. Primož Potočnik Student: Vitaly Borovinskiy
rajendra
Încă nu există evaluări
Journal Bahasa Inggris
Document18 pagini
Journal Bahasa Inggris
novi ayu irhami
Încă nu există evaluări
Individual Assignment 2
Document4 pagini
Individual Assignment 2
jemal yahyaa
Încă nu există evaluări
Gender Classification Using Convolutional Neural Networks: J Component - Project Report
Document36 pagini
Gender Classification Using Convolutional Neural Networks: J Component - Project Report
Sanjay Nithin
Încă nu există evaluări
Incorporating Stability and Error Based Constraints For A Novel Partitional Clustering Algorithm
Document10 pagini
Incorporating Stability and Error Based Constraints For A Novel Partitional Clustering Algorithm
septian maulana
Încă nu există evaluări
GAIN RATIO and Correlation
Document7 pagini
GAIN RATIO and Correlation
Qasim Raza
Încă nu există evaluări
Data Mining Lab Manual
Document44 pagini
Data Mining Lab Manual
Amanpreet Kaur
33% (3)
BCI Challenge: Error Potential Detection With Cross-Subject Generalisation
Document5 pagini
BCI Challenge: Error Potential Detection With Cross-Subject Generalisation
meagmohit
Încă nu există evaluări
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
De la Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
Încă nu există evaluări
Dimensionality Reduction of High Dimensional Data: Summer Internship Project Summary
Document20 pagini
Dimensionality Reduction of High Dimensional Data: Summer Internship Project Summary
R.Gangaadharan Gangaa
Încă nu există evaluări
CS-703 (B) Data Warehousing and Data Mining Lab
Document50 pagini
CS-703 (B) Data Warehousing and Data Mining Lab
garima bh
Încă nu există evaluări
Machine Learning Project Car Price Prediction Algorithm
Document4 pagini
Machine Learning Project Car Price Prediction Algorithm
Ruqaiya Ali
Încă nu există evaluări
Matlab
Document7 pagini
Matlab
shylaja_p
Încă nu există evaluări
Compare and Improve Classification Models
Document2 pagini
Compare and Improve Classification Models
BryanAndujarVlogs
Încă nu există evaluări
Feature Extraction Techniques Using Support Vector Machines in Disease Prediction
Document8 pagini
Feature Extraction Techniques Using Support Vector Machines in Disease Prediction
Latta Sakthyy
Încă nu există evaluări
Conference SVM Classifier
Document6 pagini
Conference SVM Classifier
Adhiyaman Pownraj
Încă nu există evaluări
Literature Review On Feature Subset Selection Techniques
Document3 pagini
Literature Review On Feature Subset Selection Techniques
International Journal of Application or Innovation in Engineering & Management
Încă nu există evaluări
Data Mining Lab File
Document20 pagini
Data Mining Lab File
DanishKhan
Încă nu există evaluări
ML pr5
Document3 pagini
ML pr5
shekh dhrupal
Încă nu există evaluări
Data Mining 2
Document40 pagini
Data Mining 2
Piyush Rajput
Încă nu există evaluări
Data Mining Lab Manual: Aurora's PG College Moosarambagh Mca Department
Document42 pagini
Data Mining Lab Manual: Aurora's PG College Moosarambagh Mca Department
ladooroy
Încă nu există evaluări
قواعد عملي 4
Document4 pagini
قواعد عملي 4
mageedarbe
Încă nu există evaluări
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
De la Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
Încă nu există evaluări
Seed of Rice Plant Classification Using Coarse Tree Classifier
Document9 pagini
Seed of Rice Plant Classification Using Coarse Tree Classifier
IAES IJAI
Încă nu există evaluări
Summer Training Report
Document36 pagini
Summer Training Report
RAJIV SINGH
Încă nu există evaluări
Part V P300-Based Brain Computer Interfaces
Document111 pagini
Part V P300-Based Brain Computer Interfaces
Phu Tran
Încă nu există evaluări
7 - Classification
Document71 pagini
7 - Classification
jayraj dave
Încă nu există evaluări
Surfer PDF
Document9 pagini
Surfer PDF
Robby Zafnia
Încă nu există evaluări
A Review On Artificial Intelligence in Stock Market
Document5 pagini
A Review On Artificial Intelligence in Stock Market
IJRASETPublications
100% (1)
Neighbourhood Component Analysis: Objective Function
Document2 pagini
Neighbourhood Component Analysis: Objective Function
Shahrzad Ghasemi
Încă nu există evaluări
Unit 4 Basics of Feature Engineering
Document33 pagini
Unit 4 Basics of Feature Engineering
Yash Desai
Încă nu există evaluări
Digits Recognition Dataset
Document4 pagini
Digits Recognition Dataset
Joe1
Încă nu există evaluări
An Intelligent Sleep Apnea Classification System Based On EEG Signals
Document9 pagini
An Intelligent Sleep Apnea Classification System Based On EEG Signals
Yasrub Siddiqui
Încă nu există evaluări
Wikipedia K Nearest Neighbor Algorithm
Document4 pagini
Wikipedia K Nearest Neighbor Algorithm
Radu Cimpeanu
Încă nu există evaluări
A Datamining Model For Detection of Fraudulent Behaviour in Water
Document36 pagini
A Datamining Model For Detection of Fraudulent Behaviour in Water
Saikiran Mamidi
Încă nu există evaluări
Stock Price Prediction Using K-Nearest Neighbor (KNN) Algorithm
Document14 pagini
Stock Price Prediction Using K-Nearest Neighbor (KNN) Algorithm
Mahendra Varman
Încă nu există evaluări
REVIEW
Document27 pagini
REVIEW
18IT030 Manoj G
Încă nu există evaluări
Pancreatic Cancer Prediction
Document56 pagini
Pancreatic Cancer Prediction
sreelaya
Încă nu există evaluări
Flood Detection and Susceptibility Mapping
Document2 pagini
Flood Detection and Susceptibility Mapping
Kha Dija
Încă nu există evaluări
Career Track Brochure - Data Science
Document39 pagini
Career Track Brochure - Data Science
prudvi
Încă nu există evaluări
Artificial Intelligence-Based Power Transformer He-1
Document13 pagini
Artificial Intelligence-Based Power Transformer He-1
Diogo do Espírito Santo
Încă nu există evaluări
K-Nearest Neighbours Algorithm: KNN-Visualization
Document2 pagini
K-Nearest Neighbours Algorithm: KNN-Visualization
Onkar kunjir
Încă nu există evaluări
Assignment On DWDM
Document8 pagini
Assignment On DWDM
Venkat Nani
Încă nu există evaluări
Lecture#2. K Nearest Neighbors
Document10 pagini
Lecture#2. K Nearest Neighbors
Muhammad Waseem Anwar
Încă nu există evaluări
Text Analytics Methods For Sentence-Level Sentiment Analysis
Document79 pagini
Text Analytics Methods For Sentence-Level Sentiment Analysis
Soumya Das
Încă nu există evaluări
K - Nearest Neighbours Classifier / Regressor
Document35 pagini
K - Nearest Neighbours Classifier / Regressor
Smit
Încă nu există evaluări
CV Lecture 11
Document147 pagini
CV Lecture 11
Lovely doll
Încă nu există evaluări
ML - Business Report - Priyanka Sharma
Document117 pagini
ML - Business Report - Priyanka Sharma
Priyanka Sharma
Încă nu există evaluări
Rule Based Classification
Document42 pagini
Rule Based Classification
Allison Collier
Încă nu există evaluări
12 Classification
Document16 pagini
12 Classification
déborah_rosales
Încă nu există evaluări
30 Hrs Deep Learning CV Images Video
Document6 pagini
30 Hrs Deep Learning CV Images Video
Raghavendra Shetty
Încă nu există evaluări
Credit Card Customer Analysis
Document18 pagini
Credit Card Customer Analysis
Betka Ab
Încă nu există evaluări
Diagnosis and Prediction of Heart Disease Using Machine Learning Techniques
Document11 pagini
Diagnosis and Prediction of Heart Disease Using Machine Learning Techniques
Ananya Dhuria
Încă nu există evaluări