Bine ați venit la Scribd!

Data Quality

Încărcat de

0% au considerat acest document util (0 voturi)

86 vizualizări7 pagini

Data mining focuses on:1. The detection and correction of data quality problem. 2. Use of algorithm that can tolerate poor data quality. Data quality issue involves both measurement and data collection problem: outliers, missing and inconsistent values and duplicate dat.

Descriere originală:

Drepturi de autor

Formate disponibile

PPTX, PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

Drepturi de autor:

Formate disponibile

Descărcați ca PPTX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

86 vizualizări7 pagini

Data Quality

Încărcat de

Aaruni Giriraj

Drepturi de autor:

Formate disponibile

Descărcați ca PPTX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 7

Căutați în document

Data Quality

Data Mining : it is a process of analysing data from different

perspective and summarizing it into useful information..
Data mining is an analytical tool for analysing data.
So data mining is applied to data that are collected for another purpose
and future use. So data mining cannot take advantage of data quality
at its source. As data mining focuses on:-
1. The detection and correction of data quality problem.
2. Use of algorithm that can tolerate poor data quality.

Aspects of data quality :-
1. Measurement and data collection issues ----
It is unrealistic to expect data will be perfect. There will be problem due
to human error

Limitation of measuring devices
Flaws in data collection object
Spurious or duplicate object ie multiple data object that all corresponds to
single real object.
Various problem that involve measurement error are:
noise, artifacts, bias, accuracy, precision.
We conclude Data quality issue involves both measurement and data collection
problem: outliers, missing and inconsistent values and duplicate dat

Measurement and data collection errors :-
Measurement errors refers to any problem occuring from measurement
process.
Common problem is that the value recorded differs from true value to some
extent.
> Data collection error refers to omitting data objects and attribute value or
inappropriately including a data object. Eg study of animal of certain species
that are similar in aspects.
Noise and artifacts
Noise is a random component of measuring error. It may involve distortion
of value or addition of spurious object.
Noise is used in connection which has spatial or temporal component.
techniques from signal and image processing can frequently be used to
reduce noise .
So a robust algorithm is developed that accept result when noise is
present.
OUTLIERS
Outliers are (1) data object that in some sense have characteristics that are
different from most of the other data object in the data set.
(2) values of an attribute that are unusual wrt to typical attribute value.
It is imp to distinguish between the notion of noise and outliers.
Missing values
It is not unusual for an object to be missing one or more attribute value.
In some cases info is nt able to be collected , eg some people decline to
give their age and weight.
Another eg form has conditional part which is to be filled when person
answer previous question.
Missing value should be taken in account during the data analysis.
Strategy to deal with missing value
Eliminate data object or attribute:-
If data set has only few object that has missing value then it can be omited.
Eliminate attribute that has missing value.
Estimate missing values :-
Reliably estimate a smooth fashion that changes in a reasonable time but has
few widely scattered missing values :- in this case missing value can be
estimated by using remaining values.
Ignore the missing value during analysis
In data mining approach we need to ignore as the objects are clustered ans
similarity between pair of object need to be calculated, if both the pair have
missing value then similarity can be calculated by the pair that do not have
missing value.
Inconsistant values:-
Data can contain inconsistent values. Eg consider a address field where both
zip code and city.
Issues related to applications
Data is of high quality if it is suitable for its intended use. This approach is
proven and quite useful in business and industry. Rather than measurement and
data collection issue some general issues are :
1. Timeliness: some data starts to age as soon as it is collected .
2. Relevance : the available data must contain info necessary for application.
3. Knowledge about the data : data sets are accompanished by
documentation.

S-ar putea să vă placă și

Data Science for Beginners
De la Everand
Data Science for Beginners
Tom Lesley
Încă nu există evaluări
Python Machine Learning for Beginners: Unsupervised Learning, Clustering, and Dimensionality Reduction. Part 1
De la Everand
Python Machine Learning for Beginners: Unsupervised Learning, Clustering, and Dimensionality Reduction. Part 1
Tom Lesley
Încă nu există evaluări
U2 04 Data Quality
Document17 pagini
U2 04 Data Quality
Charan Kumar
Încă nu există evaluări
3 Ravi
Document82 pagini
3 Ravi
Krishna Chauhan
Încă nu există evaluări
Dat Collection Foundation
Document24 pagini
Dat Collection Foundation
LOICE HAZVINEI KUMIRE
Încă nu există evaluări
Data Quality and Data Cleaning: An Overview
Document132 pagini
Data Quality and Data Cleaning: An Overview
payalpatil
0% (1)
MODULE 2 - Bussines Analytics
Document82 pagini
MODULE 2 - Bussines Analytics
Sree Lakshmi
Încă nu există evaluări
Data Preprocessing
Document33 pagini
Data Preprocessing
Stephen Paul
Încă nu există evaluări
Data Quality and Data Cleaning: An Overview
Document27 pagini
Data Quality and Data Cleaning: An Overview
SohaibNasir
Încă nu există evaluări
Datamining Unit 2 Part2
Document11 pagini
Datamining Unit 2 Part2
Bhasutkar Mahesh
Încă nu există evaluări
KMBN IT01 LM Consolidated
Document123 pagini
KMBN IT01 LM Consolidated
sparsh sharma
Încă nu există evaluări
Unit1-Data Science Fundamentals
Document35 pagini
Unit1-Data Science Fundamentals
vedantbailmare22
Încă nu există evaluări
3 Persiapan Data Mining
Document83 pagini
3 Persiapan Data Mining
icobes ur
Încă nu există evaluări
DMW Mod2, AJS
Document63 pagini
DMW Mod2, AJS
Rahul S.Kumar
Încă nu există evaluări
Unit 3 Data Warehouse
Document17 pagini
Unit 3 Data Warehouse
Vanshika Chauhan
Încă nu există evaluări
Bi 20soeit11002 Antala Krishnaa
Document5 pagini
Bi 20soeit11002 Antala Krishnaa
Krishna Antala
Încă nu există evaluări
Unit - 1 Notes - Introduction To Data-Analytics PDF
Document106 pagini
Unit - 1 Notes - Introduction To Data-Analytics PDF
Kanav Kesar
Încă nu există evaluări
Unit 1 - Exploratory Data Analysis Fundamentals
Document47 pagini
Unit 1 - Exploratory Data Analysis Fundamentals
patilamrutak2003
Încă nu există evaluări
4-Data Preprocessing (Cleaning) and Exploration
Document54 pagini
4-Data Preprocessing (Cleaning) and Exploration
Menna Saed
Încă nu există evaluări
Chap 1 Data Preprocessing
Document17 pagini
Chap 1 Data Preprocessing
Ma. Jessabel Azurin
Încă nu există evaluări
Pre Processing
Document60 pagini
Pre Processing
vani_V_prakash
Încă nu există evaluări
DATA MINING Notes
Document37 pagini
DATA MINING Notes
black smith
Încă nu există evaluări
Romi DM 03 Persiapan Mar2016
Document82 pagini
Romi DM 03 Persiapan Mar2016
Tri Indah Sari
Încă nu există evaluări
02.data Preprocessing PDF
Document31 pagini
02.data Preprocessing PDF
sunil
100% (1)
COS10022 - Lecture 03 - Data Preparation PDF
Document61 pagini
COS10022 - Lecture 03 - Data Preparation PDF
Papersdock Taha
Încă nu există evaluări
Dwina DM 03 Persiapan 2018
Document82 pagini
Dwina DM 03 Persiapan 2018
Hanny Febrii Elizabeth
Încă nu există evaluări
Unit - 2 Machine Learning
Document42 pagini
Unit - 2 Machine Learning
Nishtha Singh
Încă nu există evaluări
Down 2
Document61 pagini
Down 2
pavunkumar
Încă nu există evaluări
Data Mining
Document40 pagini
Data Mining
Abiali Bohari
Încă nu există evaluări
2 DM Datapreprocessing
Document41 pagini
2 DM Datapreprocessing
dawit gebreyohans
Încă nu există evaluări
DATA MINING Notes (Upate)
Document25 pagini
DATA MINING Notes (Upate)
black smith
Încă nu există evaluări
20210913115526D3708 - Session 02-04 Getting To Know Your Data Data Pre-Processing
Document64 pagini
20210913115526D3708 - Session 02-04 Getting To Know Your Data Data Pre-Processing
Anthony Harjanto
Încă nu există evaluări
3 Data Preprocessing
Document33 pagini
3 Data Preprocessing
Marco
Încă nu există evaluări
Notes - Unit01 - Data Science and Big Data Analytics
Document7 pagini
Notes - Unit01 - Data Science and Big Data Analytics
Atharva Gokhare
Încă nu există evaluări
Data Prep Roc Es
Document31 pagini
Data Prep Roc Es
M sindhu
Încă nu există evaluări
Data Mining-L3
Document22 pagini
Data Mining-L3
Shanza Rehman
Încă nu există evaluări
Data Mining and Warehousing-1
Document43 pagini
Data Mining and Warehousing-1
Vijay Kumar Saini
Încă nu există evaluări
CIS664-Knowledge Discovery and Data Mining
Document52 pagini
CIS664-Knowledge Discovery and Data Mining
Akbar Kushanoor
Încă nu există evaluări
Bda Unit 1
Document24 pagini
Bda Unit 1
balamurugan.170202
Încă nu există evaluări
Data and DW Lab Manual Updated
Document44 pagini
Data and DW Lab Manual Updated
Vineet Aggarwal
Încă nu există evaluări
BDA Class1
Document33 pagini
BDA Class1
Neeraj Sivadas K
Încă nu există evaluări
DataPreprocessing 2
Document68 pagini
DataPreprocessing 2
Rehan Khalid
Încă nu există evaluări
Business Analytics
Document21 pagini
Business Analytics
Dakshkohli31 Kohli
Încă nu există evaluări
Lecture 05: Feature Engineering: Ms. Mehroz Sadiq
Document69 pagini
Lecture 05: Feature Engineering: Ms. Mehroz Sadiq
uxama
Încă nu există evaluări
Data Warehousing & Data Mining - Study Material
Document27 pagini
Data Warehousing & Data Mining - Study Material
kavitha Ravichandran
Încă nu există evaluări
Data Science PDF
Document11 pagini
Data Science PDF
sredhar s
Încă nu există evaluări
# Understanding DM Issues
Document34 pagini
# Understanding DM Issues
Dan Masanga
Încă nu există evaluări
Data Mining and Predictive Modelling: Lecture 4: Data Pre-Processing
Document19 pagini
Data Mining and Predictive Modelling: Lecture 4: Data Pre-Processing
Mohit
Încă nu există evaluări
Unit I - Part I Notes
Document33 pagini
Unit I - Part I Notes
Manju Ancy John Immanuel
100% (6)
Data Preprocessing Part 1
Document14 pagini
Data Preprocessing Part 1
new acc jeet
Încă nu există evaluări
1.data Mining Functionalities
Document14 pagini
1.data Mining Functionalities
Sai Deekshith
Încă nu există evaluări
Data Mining Notes1
Document56 pagini
Data Mining Notes1
SOORAJ CHANDRAN
Încă nu există evaluări
DM 2
Document41 pagini
DM 2
Aditya Srivastava
Încă nu există evaluări
Data Warehousing and Data Mining: DR Seema Agarwal
Document72 pagini
Data Warehousing and Data Mining: DR Seema Agarwal
Prakash giri
Încă nu există evaluări
03 Preprocessing
Document42 pagini
03 Preprocessing
hawariya abel
Încă nu există evaluări
Unit 2
Document30 pagini
Unit 2
Dakshkohli31 Kohli
Încă nu există evaluări
UNIT 1 Exploratory Data Analysis
Document21 pagini
UNIT 1 Exploratory Data Analysis
divyar674
Încă nu există evaluări
CH 1 Data, Information, Knowledge and Processing New Syllabus
Document71 pagini
CH 1 Data, Information, Knowledge and Processing New Syllabus
Ross Derbyshire
Încă nu există evaluări
03-Data Preprocessing 2021
Document33 pagini
03-Data Preprocessing 2021
Lakshmi Priya B
Încă nu există evaluări
Data Pre-Processing Data Cleaning
Document13 pagini
Data Pre-Processing Data Cleaning
Tanish Saajan
Încă nu există evaluări
IBPS PO Solved Paper 2012
Document39 pagini
IBPS PO Solved Paper 2012
Peter Sen Gupta
Încă nu există evaluări
ONGC Academy: Oil and Natural Gas Corporation Limited Inviting Nomination For On-Line Training Program
Document2 pagini
ONGC Academy: Oil and Natural Gas Corporation Limited Inviting Nomination For On-Line Training Program
nhari
Încă nu există evaluări
Ansible PDF
Document11 pagini
Ansible PDF
bhlkumar
Încă nu există evaluări
SQL Lab
Document68 pagini
SQL Lab
atul
Încă nu există evaluări
E-Commerce MCQ
Document24 pagini
E-Commerce MCQ
nandiny 97
Încă nu există evaluări
17.2.6 Lab - Attacking A mySQL Database
Document7 pagini
17.2.6 Lab - Attacking A mySQL Database
Broe Mello
Încă nu există evaluări
ROS Cheat Sheet Indigo
Document1 pagină
ROS Cheat Sheet Indigo
Ronnie Kisor
Încă nu există evaluări
Multiplexer Opt-5107c
Document2 pagini
Multiplexer Opt-5107c
Hubert Reynaldo Chang Escalante
Încă nu există evaluări
FTP Server in Linux
Document22 pagini
FTP Server in Linux
muitnep4
100% (1)
Aquaread BlackBox Instruction Manual Revision N
Document69 pagini
Aquaread BlackBox Instruction Manual Revision N
nguyen thuan
Încă nu există evaluări
CRBT Subscriber Lucky Winners-Round 1
Document25 pagini
CRBT Subscriber Lucky Winners-Round 1
Yonas D. Ebren
Încă nu există evaluări
N61 3130 000 000 AeroWave X v6
Document2 pagini
N61 3130 000 000 AeroWave X v6
Marcus Drago
Încă nu există evaluări
Tessent Boundaryscan User'S Manual: For Use With Tessent Shell
Document102 pagini
Tessent Boundaryscan User'S Manual: For Use With Tessent Shell
anu
0% (1)
Gotoxy Statement in Dev C Tutorial PDF
Document2 pagini
Gotoxy Statement in Dev C Tutorial PDF
Robert
Încă nu există evaluări
Outline of Science
Document43 pagini
Outline of Science
Helmi
Încă nu există evaluări
Chapter 1
Document37 pagini
Chapter 1
Aarthi Muthuswamy
Încă nu există evaluări
PHP Runner Manual 9.6
Document795 pagini
PHP Runner Manual 9.6
DiegoKodner
75% (4)
Wilson, P. - Lbrary Web Sites PDF
Document161 pagini
Wilson, P. - Lbrary Web Sites PDF
natalia garcia
Încă nu există evaluări
Heroin
Document24 pagini
Heroin
Lina Linux
Încă nu există evaluări
Facades - Laravel 10.x - The PHP Framework For Web Artisans
Document13 pagini
Facades - Laravel 10.x - The PHP Framework For Web Artisans
Sam As End
Încă nu există evaluări
PCA 6143man PDF
Document102 pagini
PCA 6143man PDF
Luis Alberto Díaz Olmedo
Încă nu există evaluări
Verilog HDL A Guide To Digital Design and Synthesis Samir Palnitkar Sunsoft Press 1996
Document3 pagini
Verilog HDL A Guide To Digital Design and Synthesis Samir Palnitkar Sunsoft Press 1996
Pramod Reddy R
Încă nu există evaluări
Rapport PFE
Document80 pagini
Rapport PFE
science path
Încă nu există evaluări
Nss Pro
Document12 pagini
Nss Pro
Rajesh Perumal
Încă nu există evaluări
Voice Over Wi-Fi For Dummies Mitel Special Edition
Document53 pagini
Voice Over Wi-Fi For Dummies Mitel Special Edition
ameenC
Încă nu există evaluări
Ch4-Multiple Radio Access
Document60 pagini
Ch4-Multiple Radio Access
Amal Alhamad
Încă nu există evaluări
SAP Note - Change Cost Element 43
Document3 pagini
SAP Note - Change Cost Element 43
Liviu
Încă nu există evaluări
SK Project
Document3 pagini
SK Project
Billy Joe Taylan Yoro
Încă nu există evaluări
R2F: Request To Fulfill: Manage Catalog, Subscriptions, and Fulfillment Across Multiple Providers
Document1 pagină
R2F: Request To Fulfill: Manage Catalog, Subscriptions, and Fulfillment Across Multiple Providers
GuillermoVillalon
Încă nu există evaluări
Audiolab Mdac HFC
Document3 pagini
Audiolab Mdac HFC
dgtdejan
Încă nu există evaluări