Bine ați venit la Scribd!

Ignore The Tuple

Încărcat de

0% au considerat acest document util (0 voturi)

154 vizualizări2 pagini

This document discusses several techniques for handling missing data values and transforming data during integration: 1) ignore tuples with missing values, 2) manually fill in missing values for small datasets, 3) replace missing distinct values with global constants or mean values. It also discusses several data transformation techniques used in data integration: smoothing, aggregation, generalization, normalization, and attribute construction.

Descriere originală:

Titlu original

Ignore the tuple.docx

Drepturi de autor

Formate disponibile

DOCX, PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

Drepturi de autor:

Formate disponibile

Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

154 vizualizări2 pagini

Ignore The Tuple

Încărcat de

SadeGreene

Drepturi de autor:

Formate disponibile

Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 2

Căutați în document

 Ignore the tuple: This is done when the class label is not found.

This method is not very

productive unless the tuple contains several allocations with missing values
 Fill in the missing values manually: This technique is effective on limited data set with
some missing values
 Replace missing distinct values with global constants
 Replace missing values with the attribute mean or predictable values

The sources may involve multiple databases, data cubes, or flat files. One of the most customary
implementations of data integration is building an enterprise data warehouse.
TIGHT: In this approach data from different sources are integrated into a single physical location
by the process of ETL – Extraction, Transformation, and Loading.
Loose: data remains in the original source databases. A combination which provides scope to
take queries from the user and transforms them in a format the source database can understand
and then sends the query directly to the source databases to obtain the result.

It is usually done from the composition of a source system into the required composition of a
new destination system. The process fundamentally involves converting documents, but data
conversions sometimes involve the transformation of a program from one computer language to
another to authorise the program to run on a different platform. The purpose of this data passage
is the adoption of a new system that’s totally different from the previous one.

 Smoothing: The noise is removed from the data

 Aggregation: Summary or aggregate values are applied to the data
 Generalisation: Low-level data is replaced with high-level data using a notion
known as hierarchies climbing.
 Normalisation: Attributes are scaled to make sure that they come under a small
specified range, such as 0.0 to 1.0
 Attribute Construction: New attributes are created from the given set of attributes.

Data discretization is defined as a process of converting continuous data attribute values into a
finite set of intervals and associating with each interval some specific data value.

Top-down discretisation: In the top-down discretisation process, one or a few points found first
and are used (called split points or cut points) to split the entire attribute range and then repeats
this loop on the resulting intervals.
Bottom-up discretisation: In the bottom-up discretisation, the process starts by acknowledging all
of the continuous values as possible split-points, removes some by merging neighbourhood
values to form intervals.

In a multidimensional model, data is systematically arranged into multiple dimensions, and each
dimension has multiple levels of abstraction defined by concept hierarchies. This provides users
with the adaptability to observe data from different perspectives.

 Binning: It is a top-down unsupervised discretization splitting technique based on a

specified number of bins.

 Histogram Analysis: it is an unsupervised discretization technique which separates the

values for an attribute into disjoint ranges called buckets.
 Cluster Analysis: It is a well-known data discretization method which uses an algorithm
to separate a numerical attribute of data set by partitioning the values of data set into
clusters or groups.

S-ar putea să vă placă și

Vaibhav Kumar MRA Project Milestone 2
Document18 pagini
Vaibhav Kumar MRA Project Milestone 2
Ravindra Singh
Încă nu există evaluări
ETL Process in Data Warehouse
Document40 pagini
ETL Process in Data Warehouse
anamik2100
100% (2)
Data Science - Hierarchy of Needs
Document20 pagini
Data Science - Hierarchy of Needs
Lamis Ahmad
Încă nu există evaluări
Architecting Data Lakes Zaloni PDF
Document63 pagini
Architecting Data Lakes Zaloni PDF
Saurabh Nolakha
Încă nu există evaluări
Homework Chapter 7
Document5 pagini
Homework Chapter 7
Angela Pinto
0% (2)
Data Mapping for Data Warehouse Design
De la Everand
Data Mapping for Data Warehouse Design
Qamar Shahbaz
Evaluare: 4.5 din 5 stele
4.5/5 (4)
ETL Power Point Presentation
Document40 pagini
ETL Power Point Presentation
shariqatariq
Încă nu există evaluări
Alternating Decision Tree: Fundamentals and Applications
De la Everand
Alternating Decision Tree: Fundamentals and Applications
Fouad Sabry
Încă nu există evaluări
Statistical Classification: Fundamentals and Applications
De la Everand
Statistical Classification: Fundamentals and Applications
Fouad Sabry
Încă nu există evaluări
Required.: What Is The Curse of Dimensionality?
Document16 pagini
Required.: What Is The Curse of Dimensionality?
Sandeepan Kalita
Încă nu există evaluări
Unit 2 DWDM
Document14 pagini
Unit 2 DWDM
brijendersinghkhalsa
Încă nu există evaluări
Mapping
Document1 pagină
Mapping
nandy39
Încă nu există evaluări
Data Preprocessing in Data Mining
Document4 pagini
Data Preprocessing in Data Mining
Dhananjai Saini
Încă nu există evaluări
Normalization
Document35 pagini
Normalization
Hrithik Reigns
Încă nu există evaluări
Unit 2: Big Data Analytics
Document45 pagini
Unit 2: Big Data Analytics
Prabha Joshi
Încă nu există evaluări
Discovering Knowledge in Data: Lecture Review of
Document20 pagini
Discovering Knowledge in Data: Lecture Review of
mofoel
Încă nu există evaluări
DWDM Unit-5
Document52 pagini
DWDM Unit-5
Arun kumar Soma
Încă nu există evaluări
Integrasi Data Dan ETL
Document45 pagini
Integrasi Data Dan ETL
Niken Sylvia Puspitasari
Încă nu există evaluări
Outline: ETL Extraction Transformation Loading
Document38 pagini
Outline: ETL Extraction Transformation Loading
hiprabu123
Încă nu există evaluări
Data Preprocessing
Document66 pagini
Data Preprocessing
TuLbig E. Winnower
Încă nu există evaluări
Major Issues in Data Mining
Document5 pagini
Major Issues in Data Mining
Gaurav Jaiswal
Încă nu există evaluări
DWDM
Document9 pagini
DWDM
ph2in3856
Încă nu există evaluări
INTRODUCTION
Document9 pagini
INTRODUCTION
Ashitha Ashi
Încă nu există evaluări
Ques 1.give Some Examples of Data Preprocessing Techniques?: Assignment - DWDM Submitted By-Tanya Sikka 1719210284
Document7 pagini
Ques 1.give Some Examples of Data Preprocessing Techniques?: Assignment - DWDM Submitted By-Tanya Sikka 1719210284
Sachin Chauhan
Încă nu există evaluări
ETL Process in Data Warehouse: Chirayu Poundarik
Document40 pagini
ETL Process in Data Warehouse: Chirayu Poundarik
Karthik Raparthy
Încă nu există evaluări
UNIT-III Data Warehouse and Minig Notes MDU
Document42 pagini
UNIT-III Data Warehouse and Minig Notes MDU
neha srivastava
Încă nu există evaluări
Lab 1: Preprocessing Using Python
Document5 pagini
Lab 1: Preprocessing Using Python
PF 21 Disha Gidwani
Încă nu există evaluări
Assignment 1: Aim: Preprocess Data Using Python. Objective
Document7 pagini
Assignment 1: Aim: Preprocess Data Using Python. Objective
Abhinay Surve
Încă nu există evaluări
Big Data
Document10 pagini
Big Data
Jorge Grube
Încă nu există evaluări
Unit Iii
Document43 pagini
Unit Iii
42. Nikita Singh
Încă nu există evaluări
DuongToGiangSon 517H0162 HW2 Nov-26
Document17 pagini
DuongToGiangSon 517H0162 HW2 Nov-26
Son Tran
Încă nu există evaluări
Discretization - and - Concept - Hierarchy - Generation Word
Document4 pagini
Discretization - and - Concept - Hierarchy - Generation Word
Sahu Sahu Subham
Încă nu există evaluări
Week 3
Document23 pagini
Week 3
Muneeba Mehmood
Încă nu există evaluări
Data Mining Assignment
Document11 pagini
Data Mining Assignment
PargatSidhu
Încă nu există evaluări
DSBDL Asg 2 Write Up
Document4 pagini
DSBDL Asg 2 Write Up
sdaradeyt
Încă nu există evaluări
Unit 4
Document4 pagini
Unit 4
adityapawar1865
Încă nu există evaluări
Neuro Data Engineering
Document11 pagini
Neuro Data Engineering
Noob master
Încă nu există evaluări
ETL Process in Data Warehouse: Click To Add Text Chirayu Poundarik
Document37 pagini
ETL Process in Data Warehouse: Click To Add Text Chirayu Poundarik
Muhammad Rifqi Ma'arif
Încă nu există evaluări
IV-cse DM Viva Questions
Document10 pagini
IV-cse DM Viva Questions
Imtiyaz Ali
Încă nu există evaluări
Data Mining Unit-1 Lect-4
Document49 pagini
Data Mining Unit-1 Lect-4
Pooja Reddy
Încă nu există evaluări
Lec 2 Preparing The Data
Document4 pagini
Lec 2 Preparing The Data
Alia butt
Încă nu există evaluări
DM&W File
Document18 pagini
DM&W File
Prerna Rawal
Încă nu există evaluări
Term Paper
Document5 pagini
Term Paper
Akash Sudan
Încă nu există evaluări
Data Mining
Document5 pagini
Data Mining
Namra Sarfraz
Încă nu există evaluări
ETL Interview 2
Document8 pagini
ETL Interview 2
suman duggi
Încă nu există evaluări
M-Unit-2 R16
Document21 pagini
M-Unit-2 R16
JAGADISH M
Încă nu există evaluări
Research Citation Notes
Document35 pagini
Research Citation Notes
Web Best Wabii
Încă nu există evaluări
Ads Mse
Document22 pagini
Ads Mse
Shreya Jadhav
Încă nu există evaluări
Advanced Data Analytics Certificate Glossary
Document35 pagini
Advanced Data Analytics Certificate Glossary
mshariq
Încă nu există evaluări
Bab 1: Introduction To Big Data
Document8 pagini
Bab 1: Introduction To Big Data
Nashi M.A
Încă nu există evaluări
Unit 2
Document6 pagini
Unit 2
Dakshkohli31 Kohli
Încă nu există evaluări
Sharanya Thandra
Document41 pagini
Sharanya Thandra
leonardopereiramorais
Încă nu există evaluări
7 1590 PDF
Document7 pagini
7 1590 PDF
avc
Încă nu există evaluări
Exp1 Data Visualization: 1.line Chart 2.area Chart 3.bar Chart 4.histogram
Document6 pagini
Exp1 Data Visualization: 1.line Chart 2.area Chart 3.bar Chart 4.histogram
Nihar Chalke
Încă nu există evaluări
Unit 3 Data Warehouse
Document17 pagini
Unit 3 Data Warehouse
Vanshika Chauhan
Încă nu există evaluări
Database
Document46 pagini
Database
Gashaw Getaneh
Încă nu există evaluări
DM Lecture 06
Document32 pagini
DM Lecture 06
Sameer Ahmad
Încă nu există evaluări
Course 6 Week 1 Glossary DA Terms and Definitions
Document18 pagini
Course 6 Week 1 Glossary DA Terms and Definitions
Badreddine Bencharra
Încă nu există evaluări
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
Document12 pagini
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
Ali Khan
Încă nu există evaluări
Distributed Database
Document22 pagini
Distributed Database
Rosemelyne Wartde
Încă nu există evaluări
DM Unit V
Document20 pagini
DM Unit V
Vishwanth Bavireddy
Încă nu există evaluări
Python Machine Learning for Beginners: Unsupervised Learning, Clustering, and Dimensionality Reduction. Part 1
De la Everand
Python Machine Learning for Beginners: Unsupervised Learning, Clustering, and Dimensionality Reduction. Part 1
Tom Lesley
Încă nu există evaluări
Tree Searching
Document16 pagini
Tree Searching
Nitesh Mishra
Încă nu există evaluări
Dblog: A Watermark Based Change-Data-Capture Framework: Andreas Andreakis Ioannis Papapanagiotou
Document6 pagini
Dblog: A Watermark Based Change-Data-Capture Framework: Andreas Andreakis Ioannis Papapanagiotou
Suraj Patil
Încă nu există evaluări
And-Mode: Qlikview Technical Brief
Document10 pagini
And-Mode: Qlikview Technical Brief
Arun Kumar
Încă nu există evaluări
JKBMS Tutorial Setup
Document7 pagini
JKBMS Tutorial Setup
Fabricio Varovsky Muñiz Arteaga
Încă nu există evaluări
Securing Sensitive Data - Vertica
Document2 pagini
Securing Sensitive Data - Vertica
WLS
Încă nu există evaluări
Teradata Database 12 (1) .0
Document3 pagini
Teradata Database 12 (1) .0
Meonline7
Încă nu există evaluări
Dbms Course Report
Document35 pagini
Dbms Course Report
James william
Încă nu există evaluări
1.8 Database and Data Modelling
Document137 pagini
1.8 Database and Data Modelling
Maaz Bin Ali
Încă nu există evaluări
Concurrency Control: R&G - Chapter 17
Document24 pagini
Concurrency Control: R&G - Chapter 17
raw.junk
Încă nu există evaluări
Mongodb Cheat Sheet: by Via
Document1 pagină
Mongodb Cheat Sheet: by Via
sttrolage
Încă nu există evaluări
Manage Data Access With Unity Catalog
Document17 pagini
Manage Data Access With Unity Catalog
dvd.cmp.masterbip
Încă nu există evaluări
Faq'S On Datawarehouse: What Is Surrogate Key ? Where We Use It Expalin With Examples
Document7 pagini
Faq'S On Datawarehouse: What Is Surrogate Key ? Where We Use It Expalin With Examples
Uttam Singh Rana
Încă nu există evaluări
ANL312 SU1 v2
Document44 pagini
ANL312 SU1 v2
Google User
Încă nu există evaluări
ECEG-4191 Database Systems
Document28 pagini
ECEG-4191 Database Systems
Misgana Shewangizaw
Încă nu există evaluări
Critical Capabilitie 768369 NDX
Document40 pagini
Critical Capabilitie 768369 NDX
Lê Công Bình
Încă nu există evaluări
Exam Notes COA
Document36 pagini
Exam Notes COA
Nini P Suresh
Încă nu există evaluări
MSBI Interview Question
Document79 pagini
MSBI Interview Question
Ganesh Kamthe
Încă nu există evaluări
Point of Sale System
Document51 pagini
Point of Sale System
sumayangiresh
Încă nu există evaluări
Cosmos DB Interview Questions
Document8 pagini
Cosmos DB Interview Questions
Reema Philips
Încă nu există evaluări
WinForm Database App
Document18 pagini
WinForm Database App
miroljub
Încă nu există evaluări
MS Acess
Document14 pagini
MS Acess
Mridul Vashisth
Încă nu există evaluări
Integrating Search Interface To SAS Content 3.6: Rebuikld
Document24 pagini
Integrating Search Interface To SAS Content 3.6: Rebuikld
cisatom612
Încă nu există evaluări
Archive and Active Log Directories Are Full and Server Will Not Start
Document3 pagini
Archive and Active Log Directories Are Full and Server Will Not Start
venkat
Încă nu există evaluări
Storage Lab
Document4 pagini
Storage Lab
Vaibhavi Singhania
Încă nu există evaluări
Diff Between Delete, Drop and Truncate SQL
Document6 pagini
Diff Between Delete, Drop and Truncate SQL
Mohd Ashfaq
Încă nu există evaluări
SAP BW 7.3 Learning Material-Basics: - Kiran Kumar Chikati Emp Id: 285671
Document54 pagini
SAP BW 7.3 Learning Material-Basics: - Kiran Kumar Chikati Emp Id: 285671
ckiran1983
Încă nu există evaluări
Database Management System KCS 501
Document2 pagini
Database Management System KCS 501
Sparsh Saxena
Încă nu există evaluări
Exam3 REVIEW CSCI1302
Document16 pagini
Exam3 REVIEW CSCI1302
Erwin Gunawan
Încă nu există evaluări