Bine ați venit la Scribd!

Săriți peste schemele de tip carusel

Course - Data Science Foundations - Data Mining

Încărcat de

Imtiaz N

0% au considerat acest document util (0 voturi)

2K vizualizări3 pagini

Drepturi de autor

Formate disponibile

DOCX, PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

Course - Data Science Foundations - Data Mining

Drepturi de autor:

Formate disponibile

Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

2K vizualizări3 pagini

Course - Data Science Foundations - Data Mining

Încărcat de

Imtiaz N

Course - Data Science Foundations - Data Mining

Drepturi de autor:

Formate disponibile

Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 3

Căutați în document

Data Reduction:

Simplify the dataset to focus on variables or constructs that carry more meaning and separate it from
noise. Here we generally are talking about reduction of variables or fields (as opposed to observations).
Possible reasons:

- Storage (Hard drive)

- Memory (RAM)
- Time
- Reduce noise / distractions
- Focus on patterns
- Easier to interpret

Analogy is of projecting a shadow, taking data from a high dimensional space (each variable from the
dataset is a dimension) and projecting a shadow to a lower dimensional space. Think of taking a three
dimensional object and projecting a shadow on a two dimensional space and still be able to tell what it
is. One of the ways of doing it is PCA (Principal Component Analysis). Tools used may be:

- R
- Python
- Orange
- Rapid Miner

Clustering:

Idea is to put the entire set of observations or cases so that “like goes with like”. This is a grouping of
convenience rather than some sort of natural/universal grouping. We group the cases so that it
accomplishes a specific purpose. For example, in marketing similar customers are grouped together for
offers. Clusters are pragmatic groupings to serve a particular purpose.

Algorithms used for clustering can be:

- Distance between points:

o Measure distance from every point to every point
o Cons: Applicable only on convex clusters, very slow for big data
- Distance from a centroid
o K-means
- Density of data
- Distribution models

Classification:

Choosing the right bucket for data. Examples:

- Spam filters
- Fraud detection
- Genetic testing

Classification complements clustering. Clustering creates buckets and classification puts new cases into
them. Algorithms used for classification:

- K-nearest neighbors (k-NN)

- Naïve Bayes
- Decision trees
- Random forests
- Support vector machines (SVM)
- Artificial neural networks (ANN)
- K-means
- Logistic regression

Anomaly Detection:

Anomalies distort the statistics, correlations, etc. We have a few ways around it:

- Deleting them, but making sure this does not nullify analysis
- Transform (log, squares, etc., to make distribution symmetrical)
- Robust (use methods that are not strongly influenced by anomalies like median over mean, etc.)

Association Analysis:

- Powerful method of finding associations (items that go together)

- Able to get probability of an item (or set of items) based on the presence of another item (or set
of items)

This may be used on a purchasing website where associated items may be shown to customers.
Packages in R: arules, arulesViz.

Regression Analysis:

Use many variables to predict one. Example is of least squares regression (the assumption here is that
the data is following normal distribution).

Correlated predictors: Multicollinearity when the predicted variables are associated with each other:
Sequence Mining:

Sequence mining is like association analysis but the sequence/order of events matters here. Examples
are recommendation engines (if a person does a and b, then he is likely to do c…)

Text Mining:

Unlike other types this is unstructured data (instead of rows and columns of numeric data); here we
have a blob of text. E.g.,

- accessing authorship and voice

- Sentiment analysis for social media (figuring if people are saying good or bad about something
without actually reading)

S-ar putea să vă placă și

Major Issues in Data Mining
Document9 pagini
Major Issues in Data Mining
Gaurav Jaiswal
Încă nu există evaluări
Exp1 Data Visualization: 1.line Chart 2.area Chart 3.bar Chart 4.histogram
Document6 pagini
Exp1 Data Visualization: 1.line Chart 2.area Chart 3.bar Chart 4.histogram
Nihar Chalke
Încă nu există evaluări
Data Mining - UNIT-IV
Document24 pagini
Data Mining - UNIT-IV
bkharthik1
Încă nu există evaluări
Machine Learning Theory
Document12 pagini
Machine Learning Theory
airplaneunderwater
Încă nu există evaluări
Data Mining - Data Reduction
Document6 pagini
Data Mining - Data Reduction
Raj Endran
Încă nu există evaluări
Cluster Analysis Introduction
Document23 pagini
Cluster Analysis Introduction
MUKTAR REZVI
Încă nu există evaluări
Lecture 1 PDF
Document23 pagini
Lecture 1 PDF
MUKTAR REZVI
Încă nu există evaluări
Iv Unit DM
Document26 pagini
Iv Unit DM
Vishwanth Bavireddy
Încă nu există evaluări
Major Issues in Data Mining Research
Document5 pagini
Major Issues in Data Mining Research
Gaurav Jaiswal
Încă nu există evaluări
Data-Analytic Thinking: Key Concepts
Document10 pagini
Data-Analytic Thinking: Key Concepts
SEKAR SAHID
Încă nu există evaluări
INT 354 CA1 Mokshagna
Document8 pagini
INT 354 CA1 Mokshagna
Praveen Kumar Ummidi
Încă nu există evaluări
M.L. 3,5,6 Unit 3
Document6 pagini
M.L. 3,5,6 Unit 3
atharv more
Încă nu există evaluări
ML - Machine Learning PDF
Document13 pagini
ML - Machine Learning PDF
David Esteban Meneses Rendic
Încă nu există evaluări
DM Lecture 06
Document32 pagini
DM Lecture 06
Sameer Ahmad
Încă nu există evaluări
Modeling predictive, classification, clustering & association algorithms
Document5 pagini
Modeling predictive, classification, clustering & association algorithms
Banujan Kuhaneswaran
Încă nu există evaluări
Ambo University: Inistitute of Technology
Document15 pagini
Ambo University: Inistitute of Technology
abay
Încă nu există evaluări
Data Mining Overview: Techniques and Applications
Document30 pagini
Data Mining Overview: Techniques and Applications
Ashish Sakpal
Încă nu există evaluări
Data Warehousing and Mining: Ii Unit: Data Preprocessing, Language Architecture Concept Description
Document7 pagini
Data Warehousing and Mining: Ii Unit: Data Preprocessing, Language Architecture Concept Description
ravi3754
Încă nu există evaluări
MLDM Notes
Document12 pagini
MLDM Notes
Hridhi Sethi
Încă nu există evaluări
Decision Trees. These Models Use Observations About Certain
Document6 pagini
Decision Trees. These Models Use Observations About Certain
ashking
Încă nu există evaluări
UNIT-III Data Warehouse and Minig Notes MDU
Document42 pagini
UNIT-III Data Warehouse and Minig Notes MDU
neha srivastava
Încă nu există evaluări
Application of Cluster Analysis 1
Document4 pagini
Application of Cluster Analysis 1
Naga Venkata Sai Suraj Maheswaram
Încă nu există evaluări
UNIT 3 DWDM Notes
Document32 pagini
UNIT 3 DWDM Notes
Divyansh
Încă nu există evaluări
DWH Final Prep
Document17 pagini
DWH Final Prep
Shamila Saleem
Încă nu există evaluări
Unit 4
Document20 pagini
Unit 4
aknumsn7724
Încă nu există evaluări
Clustering: Clustering Is One of The Most Common Exploratory Data Analysis
Document5 pagini
Clustering: Clustering Is One of The Most Common Exploratory Data Analysis
Mada
Încă nu există evaluări
Unit-3 DWDM 7TH Sem Cse
Document54 pagini
Unit-3 DWDM 7TH Sem Cse
Navdeep Khubber
Încă nu există evaluări
Decision Tree
Document18 pagini
Decision Tree
Mo Shah
Încă nu există evaluări
Data Science Crash Course
Document32 pagini
Data Science Crash Course
Abhinandan Chatterjee
Încă nu există evaluări
Data Mining Notes: 7 Semester. CS 1435: Syllabus
Document4 pagini
Data Mining Notes: 7 Semester. CS 1435: Syllabus
exe37 eatler
Încă nu există evaluări
Machine Learning and Data Science Laboratory
Document2 pagini
Machine Learning and Data Science Laboratory
Vaishnavi Gurav
Încă nu există evaluări
ML Assignment 2 PDF
Document9 pagini
ML Assignment 2 PDF
Anubhav Monga
Încă nu există evaluări
Advanced Data Analytics Assignment
Document6 pagini
Advanced Data Analytics Assignment
Olwethu N Mahlathini (Lethu)
Încă nu există evaluări
Interview Preparing - ML Draft
Document12 pagini
Interview Preparing - ML Draft
الريس حمادة
Încă nu există evaluări
Unit 1
Document15 pagini
Unit 1
Lavanya Venkata
Încă nu există evaluări
Business Analytics.
Document18 pagini
Business Analytics.
bhavya
Încă nu există evaluări
Data Structures & Algorithms: A Complete Guide
Document3 pagini
Data Structures & Algorithms: A Complete Guide
Sabeeh Hasnain
100% (1)
Steps of Implementation of A GLM
Document8 pagini
Steps of Implementation of A GLM
Paul Wattellier
Încă nu există evaluări
Data Mining Technique
Document7 pagini
Data Mining Technique
Hiên Phùng
Încă nu există evaluări
Clustering Introduction
Document5 pagini
Clustering Introduction
neha
Încă nu există evaluări
Machine Learning QNA
Document1 pagină
Machine Learning QNA
pratikmovie999
Încă nu există evaluări
K Means Clustering
Document6 pagini
K Means Clustering
Alina Corina Bala
Încă nu există evaluări
Data Mining: Exploring Data: Lecture Notes For Chapter 3
Document21 pagini
Data Mining: Exploring Data: Lecture Notes For Chapter 3
rashfia
Încă nu există evaluări
Data Science Notes
Document37 pagini
Data Science Notes
Balvinder Dhillon
Încă nu există evaluări
(IJCST-V3I1P21) : S. Padmapriya
Document5 pagini
(IJCST-V3I1P21) : S. Padmapriya
EighthSenseGroup
Încă nu există evaluări
Chapter5 - Machine Learning
Document37 pagini
Chapter5 - Machine Learning
uttkarsh singh
Încă nu există evaluări
DM - 01 - 02 - Data Mining Functionalities PDF
Document63 pagini
DM - 01 - 02 - Data Mining Functionalities PDF
shouryaraj batra
Încă nu există evaluări
ASSIGNMEnt 3
Document26 pagini
ASSIGNMEnt 3
amandeep651
Încă nu există evaluări
Data Science Interview Questions
Document31 pagini
Data Science Interview Questions
Alok Thakur
Încă nu există evaluări
Summary
Document7 pagini
Summary
Jaja Nie Si Yao
Încă nu există evaluări
U02Lecture08 Statistical Machine Learning
Document41 pagini
U02Lecture08 Statistical Machine Learning
tunio.bscsf21
Încă nu există evaluări
Clustering in R
Document12 pagini
Clustering in R
Renuka
Încă nu există evaluări
Data Mining Unit-4
Document27 pagini
Data Mining Unit-4
19Q91A1231 NALDEEGA SAKETHA CHARY
Încă nu există evaluări
Data Mining - Cluster Analysis: What Is Clustering?
Document4 pagini
Data Mining - Cluster Analysis: What Is Clustering?
Sourav Das
Încă nu există evaluări
4 Clustering
Document9 pagini
4 Clustering
Bibek Neupane
Încă nu există evaluări
Dmbi Unit-4
Document18 pagini
Dmbi Unit-4
Paras Sharma
Încă nu există evaluări
Data Science Cat - 1
Document14 pagini
Data Science Cat - 1
DHEEVIKA SURESH
Încă nu există evaluări
Data Mining Tasks and Issues in 40 Characters
Document22 pagini
Data Mining Tasks and Issues in 40 Characters
vrkatevarapu
Încă nu există evaluări
Statistical Classification: Fundamentals and Applications
De la Everand
Statistical Classification: Fundamentals and Applications
Fouad Sabry
Încă nu există evaluări
Support Vector Machine: Fundamentals and Applications
De la Everand
Support Vector Machine: Fundamentals and Applications
Fouad Sabry
Încă nu există evaluări
Drawing Between Viewports: grid.move.to and grid.line.to
Document2 pagini
Drawing Between Viewports: grid.move.to and grid.line.to
Imtiaz N
Încă nu există evaluări
Long Intro
Document62 pagini
Long Intro
Imtiaz N
Încă nu există evaluări
The Difference Between Locations and Dimensions in Grid: Paul Murrell September 28, 2017
Document3 pagini
The Difference Between Locations and Dimensions in Grid: Paul Murrell September 28, 2017
Imtiaz N
Încă nu există evaluări
Table2: Combocnt
Document4 pagini
Table2: Combocnt
Imtiaz N
Încă nu există evaluări
Analytical Reasoning Sample Test
Document7 pagini
Analytical Reasoning Sample Test
haseeb
Încă nu există evaluări
2nd Introduction To The Matrix Package
Document9 pagini
2nd Introduction To The Matrix Package
Pepito Doe JuanNadie
Încă nu există evaluări
Standard Stamps PDF
Document12 pagini
Standard Stamps PDF
Imtiaz N
Încă nu există evaluări
Shareholder Value: (Formerly Karachi Stock Exchange Limited)
Document43 pagini
Shareholder Value: (Formerly Karachi Stock Exchange Limited)
Imtiaz N
Încă nu există evaluări
Top25Cmp 14-15 Stocks
Document1 pagină
Top25Cmp 14-15 Stocks
Imtiaz N
Încă nu există evaluări
GoodWE Product Page - DNS - All
Document2 pagini
GoodWE Product Page - DNS - All
Imtiaz N
Încă nu există evaluări
GoodWE Product Page - DNS - All
Document2 pagini
GoodWE Product Page - DNS - All
Imtiaz N
Încă nu există evaluări
Where the sun shines, there is GoodWe
Document24 pagini
Where the sun shines, there is GoodWe
Imtiaz N
Încă nu există evaluări
Handover Control
Document337 pagini
Handover Control
Imtiaz N
Încă nu există evaluări
Course - Statistics Foundations - 1
Document4 pagini
Course - Statistics Foundations - 1
Imtiaz N
Încă nu există evaluări
LTE App Notes Rohde-Schwarz
Document40 pagini
LTE App Notes Rohde-Schwarz
vladanje
0% (1)
Discrimination of Cu-Ni Gossans
Document10 pagini
Discrimination of Cu-Ni Gossans
esandovala
Încă nu există evaluări
CORRELATION AND REGRESSION ANALYSIS
Document14 pagini
CORRELATION AND REGRESSION ANALYSIS
Wan Tamad
Încă nu există evaluări
MIS in Marketing
Document53 pagini
MIS in Marketing
rachitganatra
85% (20)
Module 4 Production System - Forecasting
Document9 pagini
Module 4 Production System - Forecasting
Trisha Sargento Encinares
Încă nu există evaluări
Action Research A Tool For Improving Teacher Quali
Document15 pagini
Action Research A Tool For Improving Teacher Quali
Anggy Silfiani
Încă nu există evaluări
Resume 2019
Document1 pagină
Resume 2019
api-284589809
Încă nu există evaluări
Ratio Analysis of Vijai Electricals Ltd.
Document86 pagini
Ratio Analysis of Vijai Electricals Ltd.
Shraddha
100% (2)
Business Analytics
Document21 pagini
Business Analytics
sharath_rakki
Încă nu există evaluări
BA2 7 Cluster
Document33 pagini
BA2 7 Cluster
034AJINKYA KULKARNI
Încă nu există evaluări
Heteros Kedas T I City
Document23 pagini
Heteros Kedas T I City
MUHAMMAD IFTIKHAR UD DIN
Încă nu există evaluări
Report Project Paper
Document22 pagini
Report Project Paper
Asraihan Raihan
100% (1)
The Directed Marketing of Proportional Cookies
Document8 pagini
The Directed Marketing of Proportional Cookies
HUGO AGUILAR FLORES
Încă nu există evaluări
Data Mining-Applications, Issues
Document9 pagini
Data Mining-Applications, Issues
Raj Endran
Încă nu există evaluări
FinQuiz - Curriculum Note, Study Session 2, Reading 4
Document5 pagini
FinQuiz - Curriculum Note, Study Session 2, Reading 4
Daniel López
Încă nu există evaluări
Hands-On Activity: Create A Scope of Work
Document9 pagini
Hands-On Activity: Create A Scope of Work
Kiel Rodelas
Încă nu există evaluări
Measures of Variability: Range
Document5 pagini
Measures of Variability: Range
gladysann church
Încă nu există evaluări
7 - 8. Hanke, John E. - Wichern, Dean W. - Business Forecasting
Document60 pagini
7 - 8. Hanke, John E. - Wichern, Dean W. - Business Forecasting
Faradilla Ardiyani
Încă nu există evaluări
FIN236 Topic03
Document48 pagini
FIN236 Topic03
Troy_Valiant
Încă nu există evaluări
Cappstone
Document2 pagini
Cappstone
Ankita Mishra
Încă nu există evaluări
Assignment 2, Quiz 2 & Quiz 3 PDF
Document2 pagini
Assignment 2, Quiz 2 & Quiz 3 PDF
Saif Ali Khan
Încă nu există evaluări
Hypothesis Testing Guide
Document60 pagini
Hypothesis Testing Guide
Hiu Yin Yuen
Încă nu există evaluări
International Nursing Review - 2022 - G L - The Effect of Talent Management On The Job Satisfaction and Organizational
Document9 pagini
International Nursing Review - 2022 - G L - The Effect of Talent Management On The Job Satisfaction and Organizational
Zakariyya Vakilov
Încă nu există evaluări
Bayesian Data Analysis: Introduction
Document13 pagini
Bayesian Data Analysis: Introduction
Sohail Tarar
Încă nu există evaluări
Reservoir Production Engineering PDF
Document40 pagini
Reservoir Production Engineering PDF
EzioSilvestre
Încă nu există evaluări
PySD Documentation: Simulate System Dynamics Models in Python
Document27 pagini
PySD Documentation: Simulate System Dynamics Models in Python
Suryo Kusumo
Încă nu există evaluări
Demand Estimation Using Regression
Document7 pagini
Demand Estimation Using Regression
Moidin Afsan
Încă nu există evaluări
D7bc1home Assignment 1
Document5 pagini
D7bc1home Assignment 1
Mayank Mittal
Încă nu există evaluări
Spearman Rho Correlation
Document5 pagini
Spearman Rho Correlation
Nava Ratnam
Încă nu există evaluări
Guidelines For Economics Project Work: Class: XI Only ONE Project Is To Be Done Throughout The Session. Steps For The Project
Document2 pagini
Guidelines For Economics Project Work: Class: XI Only ONE Project Is To Be Done Throughout The Session. Steps For The Project
Niyorkona Saikia
Încă nu există evaluări
Capstone Project Format - Data Driven Research: Dalubhasaan NG Lungsod NG Lucena
Document5 pagini
Capstone Project Format - Data Driven Research: Dalubhasaan NG Lungsod NG Lucena
Rimuel
Încă nu există evaluări