Bine ați venit la Scribd!

Săriți peste schemele de tip carusel

Machine Learning Project: Team Members: Jack, Harry & Abhishek

Încărcat de

poornima

0% au considerat acest document util (0 voturi)

11 vizualizări11 pagini

mini

Titlu original

bus management

Drepturi de autor

Formate disponibile

PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

mini

Drepturi de autor:

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

11 vizualizări11 pagini

Machine Learning Project: Team Members: Jack, Harry & Abhishek

Încărcat de

poornima

mini

Drepturi de autor:

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 11

Căutați în document

Machine Learning project

Team members: Jack, Harry & Abhishek

Homesite problem:
Predicting Quote conversion

- Homesite sells Home-insurance to home buyers in United States

- Insurance quotes are offered to customers based on several factors

What Homesite knows

- Customer’s geographical,
Enter
personal, Financial Information &
HomeOwnership details What Homesite Doesn’t know:
- Quote for every customer
Customer’s likelihood of buying
that Insurance contract
Data shared: Training & Test
Task:
Binary classification
Training set:
261k rows, 298 predictors, 1 Binary response
Test set:
200k rows, 298 columns
Predictors:
Customer Activity, Geography, Personal, property & Coverage
Response:
Customer Conversion

What’s good about Homesite data:

- 296 variables don’t have NA’s or bad data entry points
- Not many Levels in Nominal variables
- Plenty of binary variables
- Plenty of ordinal variables
- No unbalanced variables
- No missing values
- No Textual columns
Data cleaning steps

Categorical to dummy 7
Treating false categorical 6
Treating bad levels (-1) 5
Treating NA variables 4
Synthesizing Date column 3
Removing Identifier rows 2
Removing Constants 1
Gradient Boosting (Iterative corrections)
Learning from past mistakes

Could get nearly 0 training error

Weighted scoring of multiple

trees

Hard to tune, as there are too

many parameters to adjust

Often overfit and hard to decide

the stopping point
Random Forests (Majority wins)
Handles missing data

Handles redundancy easily

Reduces variations in results

Produces Out of Bag error rate

Produces De-correlated trees

Random subspace & split

Bias sometimes Increases as

Trees are shallower
Gradient Boosting + Random Forest
Handles missing data
Our Score
AUC = .95
Handles redundancy easily

Reduces variations in results

Produces Out of Bag error rate

Produces De-correlated trees

Random subspace & split

Does not overfit

Quite slow & Computational expensive,
Little bias, due to correction optimizing these constraints could be an
excellent area for research
Easy to tune
Calculating AUC
- Randomly decide a threshold
ID True class Predicted probability - Calculate True Positive Rate (y) & False Positive
Rate (x)
1 1 .8612 - Based on (x,y) plot the point
- Repeat steps for each value of threshold [0,1]
- We now have a curve and we call it ROC
2 0 .2134 - Area under this curve becomes AUC

3 0 .1791
AUC
4 0 .1134

5 1 .7898

6 0 .0612
War for the highest AUC
What we have already What we look
employed forward to use
- Imputation for NA’s
- Categorical to Continuous
conversion
- Model tuning
- Continuous to Ordinal conversion
- Variable bucketing - Variable transformation
- SVM / Logistic Regression
- Random Forest/ Trees
- Lasso / Ridge / Elastic Net Your
- Most importantly,
- Gradient Boosting
- Multicollinearity elimination Suggestions
- Outlier treatment
- K-Fold Cross validation
THANK YOU

S-ar putea să vă placă și

Machine Learning - Overview
Document5 pagini
Machine Learning - Overview
Alexandra Feldman
Încă nu există evaluări
Lecture 09 DM
Document14 pagini
Lecture 09 DM
Shakeel Ahmed Kashmiri
Încă nu există evaluări
Data Mining Classification Algorithms: Credits: Padhraic Smyth
Document54 pagini
Data Mining Classification Algorithms: Credits: Padhraic Smyth
Om Prakash Sharma
Încă nu există evaluări
EDA Cat2
Document54 pagini
EDA Cat2
Sri Karthik Avala
Încă nu există evaluări
4 - Finding and Fixing Data Quality Issues
Document48 pagini
4 - Finding and Fixing Data Quality Issues
mkz01041
Încă nu există evaluări
KNN and Bias Variance Tradeoff
Document21 pagini
KNN and Bias Variance Tradeoff
21110289
Încă nu există evaluări
CSE 185 Introduction To Computer Vision: Feature Matching
Document48 pagini
CSE 185 Introduction To Computer Vision: Feature Matching
DUDEKULA VIDYASAGAR
Încă nu există evaluări
Assessment of Probability Distributions: Analytica User Group Webinar Lonnie Chrisman Lumina Decision Systems 6 Mar 2008
Document24 pagini
Assessment of Probability Distributions: Analytica User Group Webinar Lonnie Chrisman Lumina Decision Systems 6 Mar 2008
Ana Luna Yapana
Încă nu există evaluări
Machine Learning: Mona Leeza Email: Monaleeza - Bukc@bahria - Edu.pk
Document60 pagini
Machine Learning: Mona Leeza Email: Monaleeza - Bukc@bahria - Edu.pk
zombiee hook
Încă nu există evaluări
Feature Selection For SVMS: by J. Weston, S. Mukherjee, O. Chapelle, M. Pontil, T. Poggio, V. Vapnik
Document19 pagini
Feature Selection For SVMS: by J. Weston, S. Mukherjee, O. Chapelle, M. Pontil, T. Poggio, V. Vapnik
Joseph Jose
Încă nu există evaluări
BDA-PPT Final
Document28 pagini
BDA-PPT Final
Lohith Kumar
Încă nu există evaluări
Knowledge Discovery and Data Mining
Document55 pagini
Knowledge Discovery and Data Mining
Rupesh V
Încă nu există evaluări
Data Analytic Unit IV
Document35 pagini
Data Analytic Unit IV
Vrushali Vilas Borle
Încă nu există evaluări
CSO504 Machine Learning: Evaluation and Error Analysis Regularization Koustav Rudra 24/08/2022
Document36 pagini
CSO504 Machine Learning: Evaluation and Error Analysis Regularization Koustav Rudra 24/08/2022
Being IITian
Încă nu există evaluări
Lecture 9&10
Document49 pagini
Lecture 9&10
Steffen Cole
Încă nu există evaluări
Gradient Descent Regression Logistic Regression
Document14 pagini
Gradient Descent Regression Logistic Regression
Patrick O'Rourke
Încă nu există evaluări
CSO504 Machine Learning: Evaluation and Error Analysis Validation and Regularization Koustav Rudra 22/08/2022
Document28 pagini
CSO504 Machine Learning: Evaluation and Error Analysis Validation and Regularization Koustav Rudra 22/08/2022
Being IITian
Încă nu există evaluări
Agenda: - Why Data Preprocessing?
Document51 pagini
Agenda: - Why Data Preprocessing?
Lakshmi Prashanth
Încă nu există evaluări
DetailsofML 1
Document22 pagini
DetailsofML 1
林祐任
Încă nu există evaluări
Data Mining CS4168 Lecture 5 Basics of Classification 1
Document25 pagini
Data Mining CS4168 Lecture 5 Basics of Classification 1
alina sheikh
Încă nu există evaluări
Duke Genetic Algorithm Linking
Document62 pagini
Duke Genetic Algorithm Linking
Elwin Huaman
Încă nu există evaluări
Spatial and Temporal Data Mining
Document52 pagini
Spatial and Temporal Data Mining
amanpcte07
Încă nu există evaluări
Cell2Cell Churn Modeling and Analysis: Group 8
Document13 pagini
Cell2Cell Churn Modeling and Analysis: Group 8
Yiyang Wang
Încă nu există evaluări
Data Analysis Process My Notes
Document7 pagini
Data Analysis Process My Notes
Shameel Lamba
Încă nu există evaluări
Handwritten Digit Recognition: Jitendra Malik
Document55 pagini
Handwritten Digit Recognition: Jitendra Malik
SUMIT DATTA
Încă nu există evaluări
Data Pre-Processing: - Data Cleaning - Data Integration - Data Transformation - Data Reduction - Data Discretization
Document55 pagini
Data Pre-Processing: - Data Cleaning - Data Integration - Data Transformation - Data Reduction - Data Discretization
Chanda Test
Încă nu există evaluări
Project Astroid
Document13 pagini
Project Astroid
Eknath Dake
Încă nu există evaluări
Insy662 - f23 - Week 1
Document21 pagini
Insy662 - f23 - Week 1
lakshyaagrwl
Încă nu există evaluări
On Unit-3
Document30 pagini
On Unit-3
Nihar Ranjan Prusty 92
Încă nu există evaluări
Supervised Learning 1 PDF
Document162 pagini
Supervised Learning 1 PDF
Alexander
Încă nu există evaluări
Preprocessing
Document62 pagini
Preprocessing
poi.tamrakar
Încă nu există evaluări
Clustering NG
Document83 pagini
Clustering NG
Chaitanya Balani
Încă nu există evaluări
C 16 - Papush - Approximating Aggregate Loss Distribution
Document10 pagini
C 16 - Papush - Approximating Aggregate Loss Distribution
Stanley Wang
Încă nu există evaluări
CIS664-Knowledge Discovery and Data Mining
Document52 pagini
CIS664-Knowledge Discovery and Data Mining
Akbar Kushanoor
Încă nu există evaluări
DM Witten 03
Document56 pagini
DM Witten 03
Ayesha Waris
Încă nu există evaluări
Duke - Genetic Algorithm
Document20 pagini
Duke - Genetic Algorithm
Elwin Huaman
Încă nu există evaluări
Chapter 2 Slides
Document83 pagini
Chapter 2 Slides
Milim Nava
Încă nu există evaluări
Regression: Notes
Document8 pagini
Regression: Notes
vinny alfionita Damanik
Încă nu există evaluări
Course: MVDA (Assignment 3) Submitted To: Sir Qalandar Hayat Submitted By: Asif Akbar Roll No: 13254 Class: MBA 6 (Afternoon)
Document26 pagini
Course: MVDA (Assignment 3) Submitted To: Sir Qalandar Hayat Submitted By: Asif Akbar Roll No: 13254 Class: MBA 6 (Afternoon)
Assi Asif
Încă nu există evaluări
Lecture8 Model Assessment Students
Document37 pagini
Lecture8 Model Assessment Students
翁江靖
Încă nu există evaluări
Statistical Process Control QPSP
Document166 pagini
Statistical Process Control QPSP
RAVISSAGAR
Încă nu există evaluări
L2 A Short Preproc
Document42 pagini
L2 A Short Preproc
Shame Bope
Încă nu există evaluări
Storytelling With Data To Executives 09212016
Document33 pagini
Storytelling With Data To Executives 09212016
Oscar Pinillos
Încă nu există evaluări
Lecture 2
Document21 pagini
Lecture 2
Waseem Abbas
Încă nu există evaluări
W02-Measurment Scales and Data Understanding
Document28 pagini
W02-Measurment Scales and Data Understanding
zainebkhan
Încă nu există evaluări
Backpropagation: TA: Yi Wen
Document39 pagini
Backpropagation: TA: Yi Wen
Trần Văn Duy
Încă nu există evaluări
Data Mining Data Transformations: Gergely Lukács
Document51 pagini
Data Mining Data Transformations: Gergely Lukács
Blazs
Încă nu există evaluări
Exam PA Knowledge Based Outline
Document22 pagini
Exam PA Knowledge Based Outline
Trong Nghia Vu
Încă nu există evaluări
Week 4 - 5 - Data Preprocessing
Document67 pagini
Week 4 - 5 - Data Preprocessing
Hussain ASL
Încă nu există evaluări
DS Cheat Sheets
Document18 pagini
DS Cheat Sheets
punmapi
Încă nu există evaluări
Classic Assumption Testing
Document29 pagini
Classic Assumption Testing
Obby Yobilio Hura
Încă nu există evaluări
Decision Trees: Decision Tree Is One of The Most Widely Used and
Document53 pagini
Decision Trees: Decision Tree Is One of The Most Widely Used and
Alka Choudhary
Încă nu există evaluări
House Price Prediction Using Machine Learning Techniques
Document5 pagini
House Price Prediction Using Machine Learning Techniques
Vishal Joshi
Încă nu există evaluări
House Price Prediction Using Machine Learning Techniques
Document5 pagini
House Price Prediction Using Machine Learning Techniques
Vishal Joshi
Încă nu există evaluări
INF6028 Week 2 21-22 (Unsupervised Learning)
Document75 pagini
INF6028 Week 2 21-22 (Unsupervised Learning)
Aryanda Prasetya
Încă nu există evaluări
CS464 Ch9 LinearRegression
Document43 pagini
CS464 Ch9 LinearRegression
Onur Asım İlhan
100% (1)
3 - SupervisedIntro
Document80 pagini
3 - SupervisedIntro
Shivam Verma
Încă nu există evaluări
ICS 2408 - Lecture 2 - Data Preprocessing
Document29 pagini
ICS 2408 - Lecture 2 - Data Preprocessing
petergitagia9781
Încă nu există evaluări
Untitled
Document29 pagini
Untitled
Nikhil
Încă nu există evaluări
Adaptive Tests of Significance Using Permutations of Residuals with R and SAS
De la Everand
Adaptive Tests of Significance Using Permutations of Residuals with R and SAS
Thomas W. O'Gorman
Încă nu există evaluări
Machine Learning: Course Code - B17CS4101
Document37 pagini
Machine Learning: Course Code - B17CS4101
poornima
Încă nu există evaluări
(With Effect From 2017-2018admitted Batch Onwards) : Sagi Rama Krishnam Raju Engineering College (Autonomous)
Document32 pagini
(With Effect From 2017-2018admitted Batch Onwards) : Sagi Rama Krishnam Raju Engineering College (Autonomous)
poornima
Încă nu există evaluări
B.Tech Seminar Report Format
Document9 pagini
B.Tech Seminar Report Format
poornima
Încă nu există evaluări
Tripwire Is An Intrusion Detection System
Document28 pagini
Tripwire Is An Intrusion Detection System
poornima
Încă nu există evaluări
Difference Between Firewall and Intrusion Detection System
Document4 pagini
Difference Between Firewall and Intrusion Detection System
poornima
Încă nu există evaluări
Machine Learning: Course Code - B17CS4101
Document37 pagini
Machine Learning: Course Code - B17CS4101
poornima
Încă nu există evaluări
3D Internet: Department of Computer Science and Engineering
Document16 pagini
3D Internet: Department of Computer Science and Engineering
poornima
100% (1)
Intrusion Detection System IDS Seminar Report
Document18 pagini
Intrusion Detection System IDS Seminar Report
Sahil Sethi
Încă nu există evaluări
3D Internet: Department of Computer Science and Engineering
Document16 pagini
3D Internet: Department of Computer Science and Engineering
poornima
100% (1)
NP Lab Theory:: 1) To Create Thread by Inheriting Thread Class
Document18 pagini
NP Lab Theory:: 1) To Create Thread by Inheriting Thread Class
poornima
Încă nu există evaluări
Intrusion Detection System IDS Seminar Report
Document18 pagini
Intrusion Detection System IDS Seminar Report
Sahil Sethi
Încă nu există evaluări
Velagaleti Poornima
Document2 pagini
Velagaleti Poornima
poornima
Încă nu există evaluări
Online Hotel Management System: Mini Project Report On
Document56 pagini
Online Hotel Management System: Mini Project Report On
poornima
Încă nu există evaluări
Iot Labrecord 541
Document27 pagini
Iot Labrecord 541
poornima
Încă nu există evaluări
Project Lit Final1
Document15 pagini
Project Lit Final1
poornima
Încă nu există evaluări
Flat Unit 2
Document23 pagini
Flat Unit 2
poornima
Încă nu există evaluări
My
Document2 pagini
My
poornima
Încă nu există evaluări
DBMS Project
Document14 pagini
DBMS Project
poornima
Încă nu există evaluări
Bus Management System: A Mini Project Report
Document4 pagini
Bus Management System: A Mini Project Report
poornima
Încă nu există evaluări
Project Lit Final1
Document15 pagini
Project Lit Final1
poornima
Încă nu există evaluări
EPID 620/PUBH 801: Epidemiologic Methods I Take Home Midterm Exam Due Wednesday, October 22, 2019 at 11:59pm Wingila Mpamila Total Points: 20
Document6 pagini
EPID 620/PUBH 801: Epidemiologic Methods I Take Home Midterm Exam Due Wednesday, October 22, 2019 at 11:59pm Wingila Mpamila Total Points: 20
welcome martin
Încă nu există evaluări
MBA Syllabus
Document122 pagini
MBA Syllabus
Geetanjali Khurana
Încă nu există evaluări
Unit 6
Document18 pagini
Unit 6
Waseem
Încă nu există evaluări
An Adaptive Metropolis Algorithm: 1350 7265 # 2001 ISI/BS
Document20 pagini
An Adaptive Metropolis Algorithm: 1350 7265 # 2001 ISI/BS
Sandeep Gogadi
Încă nu există evaluări
Optimal Experimental Design For Non-Linear Models Theory and Applications
Document104 pagini
Optimal Experimental Design For Non-Linear Models Theory and Applications
Raul Velasquez
Încă nu există evaluări
All Dokumen INDRI
Document13 pagini
All Dokumen INDRI
m al fajri
Încă nu există evaluări
Data Analytics Regression UNIT-III
Document26 pagini
Data Analytics Regression UNIT-III
19524 Alekhya
Încă nu există evaluări
Exercises and Activities. Accomplish This Module On - For Online Consultations, Please Refer To The Given Schedule. BEFORE SUBMITTING THE
Document16 pagini
Exercises and Activities. Accomplish This Module On - For Online Consultations, Please Refer To The Given Schedule. BEFORE SUBMITTING THE
Maris Codaste
Încă nu există evaluări
Jurimetrics: The Methodology of Legal Inquiry
Document31 pagini
Jurimetrics: The Methodology of Legal Inquiry
AndréJúnior
100% (1)
Classification-Alternative Techniques: Bayesian Classifiers
Document7 pagini
Classification-Alternative Techniques: Bayesian Classifiers
GODDU NAVVEN BABU
Încă nu există evaluări
Nadya Wahyuningtyas (2013)
Document6 pagini
Nadya Wahyuningtyas (2013)
Gaming Aja
Încă nu există evaluări
Std11 Stat EM WWW - Governmentexams.co - in
Document248 pagini
Std11 Stat EM WWW - Governmentexams.co - in
Diksha Uttam
Încă nu există evaluări
Made To Stick PDF Summary 1
Document24 pagini
Made To Stick PDF Summary 1
api-300172472
100% (1)
Case Study On HRM
Document14 pagini
Case Study On HRM
Prakash Koju
Încă nu există evaluări
10.1007 978 81 322 2514 0
Document335 pagini
10.1007 978 81 322 2514 0
sumasuthan
Încă nu există evaluări
7 Steps of Hypothesis Testing
Document2 pagini
7 Steps of Hypothesis Testing
Ono Masatoshi
Încă nu există evaluări
Business Statistics, Canadian Edition Chapter 1 Test Bank
Document29 pagini
Business Statistics, Canadian Edition Chapter 1 Test Bank
denisehuang94
60% (5)
Artificial Intelligence For Managers: Certificate Programme in
Document12 pagini
Artificial Intelligence For Managers: Certificate Programme in
Satyabala Hariharan
Încă nu există evaluări
Decision Theory
Document21 pagini
Decision Theory
Shaivy Tyagi
100% (1)
Test Bank For Intro Stats 4th Edition by Veaux
Document22 pagini
Test Bank For Intro Stats 4th Edition by Veaux
kinal
Încă nu există evaluări
Banana Chapters 1-5
Document27 pagini
Banana Chapters 1-5
Alona Joy Buena
75% (8)
Identification and Implementation of Quality Indicators For Improvement, Monitoring and Evaluation of Laboratory Quality
Document56 pagini
Identification and Implementation of Quality Indicators For Improvement, Monitoring and Evaluation of Laboratory Quality
florin020
Încă nu există evaluări
MASSter - A STAT 101 Tutorial Handout
Document12 pagini
MASSter - A STAT 101 Tutorial Handout
Dearly Niña Osinsao
Încă nu există evaluări
Practical Research 2 Cs
Document5 pagini
Practical Research 2 Cs
api-339611548
100% (18)
Bayesian Analysis
Document33 pagini
Bayesian Analysis
abarni
Încă nu există evaluări
Alan E. Kazdin - Research Design in Clinical Psychology-Pearson (2016)
Document577 pagini
Alan E. Kazdin - Research Design in Clinical Psychology-Pearson (2016)
Nothing
80% (5)
Modify-Use Bio. IB Book IB Biology Topic 1: Statistical Analysis
Document25 pagini
Modify-Use Bio. IB Book IB Biology Topic 1: Statistical Analysis
sarfaraz
Încă nu există evaluări
Report of Group 2 MBA G233 SUGEST Company
Document28 pagini
Report of Group 2 MBA G233 SUGEST Company
Hazem Amin
Încă nu există evaluări
Analysis of Decision Making Process in Moneyball T
Document7 pagini
Analysis of Decision Making Process in Moneyball T
Shubham Bhasin
Încă nu există evaluări
Data Warehousing and Data Mining Lab
Document53 pagini
Data Warehousing and Data Mining Lab
Aman Jolly
Încă nu există evaluări