Sunteți pe pagina 1din 29

Statistical Learning

Trevor Hastie and Robert Tibshirani

Statistics in the news


How IBM built Watson, its Jeopardy-playing
supercomputer by Dawn Kawamoto DailyFinance
02/08/2011
Learning from its mistakes According to David
Ferrucci (PI of Watson
DeepQA technology for
IBM Research), Watsons
software is wired for more
that handling natural language processing.
Its machine learning allows the computer to become smarter
as it tries to answer questions and to learn as it gets them
right or wrong.
2 / 29

For Todays Graduate, Just One Word: Statistics


By STEVE LOHR
Published: August 5, 2009

Next Article in Technology (1 of 20)

SIGN IN TO
RECOMMEND

MOUNTAIN VIEW, Calif. At Harvard, Carrie Grimes majored in


anthropology and archaeology and ventured to places like Honduras,
where she studied Mayan settlement patterns by mapping where

SIGN IN TO
E-MAIL
PRINT

artifacts were found. But she was drawn to what she calls all the
computer and math stuff that was part of the job.

REPRINTS
SHARE

Enlarge This Image

People think of field archaeology as


Indiana Jones, but much of what you
really do is data analysis, she said.
Now Ms. Grimes does a different kind
of digging. She works at Google,
where she uses statistical analysis of mounds of data to

Thor Swift for The New York Times

Carrie Grimes, senior staff engineer at


Google, uses statistical analysis of
data to help improve the company's
search engine.

come up with ways to improve its search engine.


Ms. Grimes is an Internet-age statistician, one of many
who are changing the image of the profession as a place for
dronish number nerds. They are finding themselves

Multimedia

increasingly in demand and even cool.


I keep saying that the sexy job in the next 10 years will be
statisticians, said Hal Varian, chief economist at Google.
And Im not kidding.

Quote of the Day,


New York Times,
August 5, 2009
I keep saying that the
sexy job in the next 10
years will be statisticians.
And Im not kidding.
HAL VARIAN, chief
economist at Google.

Subscribe to Technology RSS Feeds

3 / 29



4 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
5 / 29

o
o
o oooo
ooo o oo oo
ooo ooo oooo o
ooo oo
ooooooooo
ooo ooooooo o
ooo oooo
ooo
o
o
oooo
o
oo o oooo o
o o
o
o

4
o
o o
o
oo o
o
o ooooooooo oo
oo oooo o
o oooooooo
oooooo
oooo
o
oo
oo
o
o
oooooo ooo
o o
oo
oo
oo oooooo
oo
o
o oo
o
oo oo

lcavol

o o
oo
oo o
ooo o
ooooo
oo
ooooo oo oo
oooo o
oo oooo
oo oooooo
oo
oooooo o
oo o
o oooooooo o o
o ooo
ooooooo
o
oo
o

o
o o o oo
o
oo ooo oo oo oo
o ooo o
oooo ooooo o
ooooo oo
o o o ooooo ooooooo
oo
o
o
o
o
o
o
o
o
oo o oo o o
o
oo
oooo
oo
oo
o

o ooo
o
o
oo o
oo oo
ooo
oooooo
ooooooo oo oo
ooo
oooo o
oooo
ooo
oo
ooooooo
ooooo
o
o
ooo ooo o
o o oo
oo
o
o o
o
o
o
o
o o

ooo
o
o o ooo oo o
o ooo ooo
oo oo o
o
ooooo
o ooo ooo
oo oooo
o
oo
ooo ooo
o
ooooo
oooooo
ooo
oo o ooooooooo o o
o
o
oo o
o
o
o
o
o

o ooo oo
oo ooo
oo oo
o
o ooooooooooo
oo o oo o o
o
o
o o ooo o
o
o
oo
o
o
o
o
oo
o ooooooooooooooooooooooooooooo

o oo ooo
oo o
o oooo ooo o
oo
o
o
o o o oooo o oo
o o o
ooo o o
ooo o
o
o
o
o
oooooo ooooooooo
oooooooooooooo o

ooooooooo
ooooooo

ooooo oo
ooooooooo

40

o
o
o
o o
o o oo o
ooooooo
oooo
oo oo
o oo oo
ooo oo o
oooo
ooo
o
o
o
o
o
o
o ooooo oooooooo
oo
o ooo oo
o oo
o
o
o
oo oo

50

60

70

80

0.4

0.8

6.0

o
o
o
o
o
o
oo
o
o o o oo o oo oo
o
o oooo ooo
o
o
o
oo
o
oo o
o
ooo
oo
o
o
o o
o
ooo oooooooo
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o ooo
ooo
o
o oooo
ooooo ooo o
o ooooooo oo o
oooo oooooooo
o ooo o
oo
oooo oo
o oooooooo o o
o
ooo o o o
oo oooo o o
ooo o

oo
o
o o oo
oo o o
ooo
oooo o oo
oo
oo
oo
oo
ooo
oo
oo
oooo o o
o oooooooooooooo o
oooo oo o
o
o
oo o
o o
o o o o ooo o
o
o o
o

o
o
o
o
o
o
o
o o
o ooo o o
o
o
oooooo
o
o o oooo o o oo oo
o
o
o o o ooo o oo
o
o
oo o
o
oooooo
o
o
o
o o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
oo
o
oo
o
o oo
o
o
o ooo ooooo o
o o
oo
o
o oooooooo
o o
o
ooo
o
o o
oo
o
o
o
o
o ooo
o
o
o oo
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

lweight

o o
oo
o oo o
o
oo o
oo
o o
ooo oo
ooo
oooo
o
oo
oo
o oo
oooo
ooo
o
ooo
o o o ooo
ooooo oo o
o
o
o oo o
o o
o o o oo
oo o
oo
o
o

o
o
o o o
o o
o
o
o oo oo
o
oooo
o
oooo
o ooo
oo oo
o
o
o
o
o
oo ooooo
o
o oo
o
o
o
oo oooooo
o
o o
o
o o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o

age

lbph

o
o
o
o
o
o
o
o
o
o
o
o

o oo
o
oo
o

0.0

o oo
o o
oooooooooo
o oo
oo
o o oo
oo
ooo
ooo
oo
ooo
ooooo oo
oo oooo
oooo
ooo o
oooo o
o oo
o
o
o

o o oo o
ooo o oo oo o
o o
oooo
ooooo o
oooo oooo
ooo
oo
oo oooo o
o oo
oooo
o
oooooo
ooooooo
oooo
oooo o
oo
o oo o
o
o
o
oo

o
o

oooooo o
o
oooooo
oooooooo
o o
o o
oooooo
o
oo
ooooo o o
o
o
o
o
o
o oooooooo
oo
ooooooooooooo o o
oooooooooooo

oo o
ooo
o
o o o
o
o oooo
o
oo
o ooo
ooo
o oo
oo
o o
o
o ooooooo
oo
o
o
o
o
ooo o ooo ooooooo
oo
oooooo oo
o

ooooooooo ooo

o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o

o o o o ooo oo

o oo
o o
o
o
o
o
oooooo oo ooo
o
o o ooo oooo o
o
o
o
o oo
o
o
o
o
o o
o
o
o
oo o o oooo
o
o
oo
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
oo o
o
oo ooooo oooo
o
o
o o oo o oo
oo oo
o oo oo o o
o
o
o o ooooo
o oo o
o
o
o
o o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
oo
o oo
o
oo oooooo oo
o
o
o o ooo
o oo o
o o
o
oo o oo
o
oo oo
o
o
o o oo o o o
o
o
o oo
o
o
o
o
o
o
o
o
o o o o o oo
o
o o
o o
o
o
o
o oo
ooo oooooooo ooo o
oo
o
o
o
o
o
o ooo
o oo o o o
o
o
o
o oo o oo o
o
o
o
o
o
o
o
o
o
o oo o
o
o o
o
o
o
o
o o
o o
oooo
o
o ooo o
o o o
o
o o
o
o o
o
o
o
o
o
o
ooo
o ooo oooo o oooooo
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

oooo oooooooo
ooooo

7.0

8.0

9.0

o
o
o
o
o

o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o

o
o
o
o
o

o
o

o
o
o

o
o
o
o

0.8

40

50

60

70

80

lpsa

o oooo
oo
ooooo
oo
ooooooo
ooooo
oo
o
oo
ooooo
ooooooooooo o

oo oo
o o oooooooooo
ooo
oo
ooooooooo oo

o oo o o o
oooo o
o
ooo o
oo ooooo o o
o o
oo
o oooo
o oo oo
ooooooooooo
o
oo
o oo
oooooooooooooooooooooooo

o
ooooo
oo oo
o ooooooo
ooo o
oo
o oooo
oooooo
o o
o oooo o
oo
ooooooo oooooooo oooooooo o oo

o
o
ooooo oo
oo
ooooo oo
o ooo o
oo
o o o oo o
oo o o
o
o o ooooooo oo
o
o oo ooooo
oo
ooooooooooooooooooo

o
o
o o oo oo
ooooo o
oo
oo
o
oo o
oo
o
o
ooo o
oooo
o
o
o ooo oooo
oo oo
oo ooo o ooooooo
ooooooooooo oo

oooo o
o

6.0

7.0

9.0

ooooooo oooooooooooooo
ooooooooooooooo oo

8.0

0.0

0.4

svi
oo
o oo
ooooooooooooooooooooooooooo

ooooooo
ooooooooooooooooooooo

o oo

oo
oooooooo
oo oooooooooooooooo
oooooo ooooooo ooooooooo o

oo
o
o
oo
o oo oo o
o ooooooo
o oo
ooo o o
oo o o oo
oooo o o
o
oooo
o
o
oooo
o ooo o
o
ooo
oo
o oo
oooooooooooooooo

o
o o
o
oo
o oo o
ooo oo o
oo
o
ooo oo o o
o
o
o
o
oo oo oooooo o o o o
o
o oo oo
oooo
ooo
ooo o
oooooo ooooooooooo

0 1 2 3 4 5

oo o oo

oo
o oo
oooooooooooooooo oo

o o o o

o oooo
oo
oooooooooooo oo oo
o
o o
o oo
ooooo
ooo oo o o
o oo
o
ooooo
o ooo o o o
oo ooo o
o o
o
o oo oo oo
ooooooo
oo
oooooooooooooo ooo oo o
3.5

4.5

o o o ooooooooo
oooooooooo
oo

o
o
oooo
oo
o
o o
o
oo o o
ooo oo o
o
ooo oooooooooooo
o

o
o
o
o o
o

o o

o oooooooo o oooooo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o o oooooooooo

o
o
o
o o o
o
o
o oo
oo
o
o
o
o
o ooooo
o
o o
o oo
o
oo ooo oo o
o o
o
o
o
o o
o
o o o ooooooooooo

o
o
o
o
o
o
o
o
o
o
o
o
o

o o

o o
o
o oo o
oo oo
o o ooooo o
o o
oo oo
ooo oo o
oo oo
ooooo oo o
o o
o o
o o oo o
oo o
ooo ooooo
o ooo
ooooooooo

o
o
o
o
o
o
o
o
o
o
o
o

lcp

o
o
o
o

o
o

o oo

o o oooo o oooo
oo
oooooooo
ooo

oo ooo o oo ooo
ooooooooo

ooooo ooooooo
oo
oooooooo
oo
oo
o
o o

o
o
o
o
o
o
o
o
o
o
o

ooo
oo
ooooooooo oo
o o oooooooooooooo
oo

2.5

o oo

o
o
o
o
o
o
o
o
o
o
o
o
o

o
oo
o
o
o o o oo o
o oo ooo
o
o
o
o ooo
o o o
o
o
o
o
o o o
o
o oo o
o
o oo
o
oo oo o o o
oo
o
0

o
o

o
o
o

gleason

o ooooooooooo ooooooooo
ooo o
o oo

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o

o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o

6 / 29

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o oo
oo
oo
o oo ooo o
ooo o
ooo
lweight
o
oooo ooo o
oooooo
o oo
ooooooo oooooooo
ooo
o o ooo
oo
oooo o o o oooooo o
ooo
o
ooo
oo
oooo
ooooooo
ooooooo
oooooooo oo
ooo
oo
oo
o
ooo
ooooooooooooooooooooooo
oo
ooooo
ooo o
oo ooooooo
ooooooo
oooo o
ooo
o
ooo
ooo
oo
oo oo oo
o oo oo
o
o
o
o
oooo
oo oo
o ooo o
o
o
o
o
o ooo
o o ooo
o oo oo o
oo
ooooooo oo o
oooooo
oooo
oo ooo oooo oo oooooo
oooooo
o
o
o
o
o
oo ooooo o
oooooo o
o ooo
ooooo
o
oooo oooo
o ooo
oo oo
o oo
ooooo
oo
oo
oooooooo
oooooooo
ooooooo
o
ooooooooo
o oo
age
o o oo o
oo o oooooooooo o
oo
oo
o
o
o
o
oo o
o o
o oo o
o
o o
o
o
o o
o
o
o
o
o o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo o
o
oo
oo oo
oo
o
o oo
o ooooo oooo
oo o
oo o
oo
oooooooooooo
o
ooooooo
o
ooo o
o ooooooooo
o oooo
o
ooo o o o
o o o oooo o oo
o oo
oo
oooooo
oo
o o
o o
o oo
o o o
o o oooo
o
ooo o o
oooo
o
oo
oooo
oooooooo
o o
o oo
o
o
o
o
o o
oo
oo o
o
ooo
o
ooooooooooooooooooooooooo
oooo
oooooooooooo
oo
oooooo
ooooooooooooo
ooooooooo
oo
oooooooooooooo o ooooooo
oooooooo
ooooooooooooooo
ooooo oo
oooooooo
oooooo
ooo
oooo o
o o oooo
ooooo ooo

o
o
o
o
o o ooooooo
oo
o o o
o
oooooooooooo
o
o
o
o oooo
oooo ooo
o
o
o
o
o
o
o o o
o
o o o ooo oo
o
ooo
ooooo oooo
o
o
o
o ooooo
oo
o
o oo
o
o
o ooo
o o
o o oo
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

lbph

o
o
o
o
o
o
o
o
o
o
o
o

o oo
o
o
o
oo o
o
o
ooooo oo ooo
o o
o
o oo ooo
o o
oooooooo o
o oo
o
o
o
o
o o
o o ooooo
o
o oo
oo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o o
oo
o
oo oooooo oooo
o o o
o
oo oo
oooo
o
oo oo o
o
o
o oooooo o
o
o
o
o
o
o
oo
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o oo
o
o
o
oo o ooooooo oo
o
o
o
o
o
oo
o oo oooo
o
o o
o ooo ooo ooooo ooo
o
o o
o oo oooo o o
o
o
o o
o
oo
o o
ooo o oo
oo
o
o
o o
o
o
o
o o
o ooo oooooo o
o
o
oo oo oo ooo oo
o
o o
o o oo
oo
o
oo
o
o
o o
o
o
o
o o
o
o
o oo
o
o
o o oo oo oo o o
o
o
o
o
o
o
o ooo
o
o o
o o o
o
o
o o
o
o
o o oo
o
o
o o
o o
o o ooo ooooo oooooo
ooo
o
oooooooooooo
ooooo

o
o
o
o o o o o ooooo

o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

7.5
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

9.0

o
o
o
o o
o o
o
o
o
o o o oo o o
oo o
o oooooo o o o
o oo
o
o o
o
o
oo
o o
o
ooo
oo
oo
o
oo o o
o o oo
o
o
o
o
o
o o

o
ooo o
o o o o o oo
o
oo oo o o
o
oo
oo o o
oo o
o o
o
oooo
oo
oo
ooo o o oo
o
ooo oo o o o
o o
o
o
oo
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o

0 1 2 3 4 5

6.0
o
o
o
o

o
o
o
o oo
o o
o
o oo o o
o
o
o
oooo oooooooo
o
o
o o oo o o
oo o oo
o
oo oooooo o
o
o
o
o
o
o
o
o
o
o
o
o
o

0.8

o
o
o
o
o oo o o
oooo
o
o
o
oo
oooo
ooo
o o
ooo o
ooo o
o o
o o
oo
oo
oooo
o
o o
ooo o o o o o
o o
o
o
o
o oo
o
o
o o
o
ooooo o o
o
o oo
o oo
oooo
ooo
o o
oo o o
oo
oo
ooo o
oo o o o o
o o
oo o
o
ooo
o
oo
o
o
o
o
ooo
oo
o o
ooo o o o o
o o oo o o
o oo oo o o oo
o oo o o o
o o
o
o
o o o
o oooooo o o o o o o o
o
ooo ooo o o ooo o o

o
oo
o o
o o ooo
oo
o o ooooo
ooo o
o
oo
o
o
ooo
oo
oo
o
oo
oo
oo
oooooo o
o oooooooo
oooo
oo
o
o
o oo oo
o oo o ooo o
o o
oo
o
o

0.4

o
o
o
o
o
o
o
o
o
o
o
o
o
o

0.0
o o
o
o
o
o
oo
o
o o oo o o oo
o
o oooo
o
ooo
o
o
o
o ooo
ooo
o
o
o
ooo ooooooooooo
o
o o
o
o
o
o o
o
o
o

60
80
o
o oo
o o
ooo
oo
oooooo
o
o
ooo
oooo o
ooo
o
o oo oooo
oo
oo
oooo o
ooo
o
o oooo
oo
o
oooo
oo oo o
oooo
oo
o
o o
o

40

3
o
o
o
o oo
o
oo o
ooo o
o oo
oo
oooooo
oooo
oooooo
oo
oo
o
ooo
o ooooooooooooo ooo
oo
oo
oo
oooo
o oooo
oooo
oo o
lpsa
o
oo
o
o
o o
o
oooo
ooo o
oo
o
oo
oooooo oooo
ooooo
oo
o
oooo
o
oo
o ooo o
oo oo oo
o
o
o
o
o
oo
o
o
ooo
oo o
o
o
o
oooo
o ooo o
ooo
oooooooooo oo
oooooooo o
ooooo
ooo oooo
ooo
ooo
oo
oooo
oo
oooooo
ooo
ooooooo
o
o
o
oooo o
ooo
oo oooo
lcavol
oo
oo
oo ooo
ooooo
o
o
o
o
o
o
o
ooooo
ooooo o
o
o o
oo ooo
oo oooo o
o
ooooo
o oo
o
o

-1

0.8

40 50 60 70 80

-1 0 1 2 3 4

-1

oooooooooooooooooooooooo

oo oooooooooooooo
oo
oooooooo oooooooooooo
oo
oo
oo
oooooooooo

oo
ooo
oooooooooooo oo
oooooooooooo ooooooooo o
ooo
oooo
o
oo
ooooooooooo
oo
o
o
o
o o
oo
oo
o oo
oo
o
o
o oo ooo
ooo
o oo o
o ooooooo
oo oo o
oooo oo
o oo
oo
o oo
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
oo o o oo
o ooooo
o
oo oo
o oooo
oo oo oooo
oooooo
o
ooo
ooo o o o oo oo
ooooo o o
o
o oo
ooo
ooooooooo
oooo
oooo
oo
ooo
ooooooooooooooooo oo
ooooooooooooooo
ooooo
oo
oo
oooo
ooooooooooo
ooo
0
2
4
3 4 5

o
oo o ooooooo
oo
oooo
oooooooooo
o oo ooo o oooooooooooo
o o
o
o oo o
oooo
ooooooo o
oo
o
oooo
o
ooo o o
oo
oooooo
ooo
ooo
o o
ooooo
ooooo
ooooooooo
ooooo
o oo o
6

oo ooooooooo
o
o
o
o o o
o
o
o oo
o
o
oo
o
o
o
o ooooo
o oo
o o
oo
o
oo oooo
o
o o
o
o
o
o
o ooo oooooooooo
-1 0 1 2

lcp

o
o o

o
o

o
o

o o
oo
oooooo o o o o o o
o
o
o
o ooo
oo
o
o o oo oo o o o
o
o o o
oo o
o
o o
o oo o
oo o o
o oo
oo o o
oo
o
oo o
o oooooo o o o
o o ooo

o
o
oo
o
o
o o o oo o
o oo ooo
o
o
o
o o o o ooo
o oo oooo o o o
o
o
o o
o oo
o
o
o
o
ooo ooo o
-1
1 2 3

gleason

ooooooooo o o ooo

o oo o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

o oo o

oooo
o o oooooooooooooooooooo

o
o
o
o
o
o
o
o
o
o
o
o
o
o

o
o

o o oooo oooo
oo
ooooooo
ooo o
o o

o
o
o
o
o
o
o
o
o
o
o
o

o ooooooooooooooo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o

-1 0

o oo oooo oooooo
oo
oooooooo
oo
o
o
o
oo
o
o
o
o o
oooo
o
o
o oo
o o
o o
o
o
o
o
oo o o
o
o
ooo oo o
o
o
o o ooo oooooooooo
o
o o o

o
o
o
o
o
o
o
o
o
o
o
o
o
o

100

o
o

o oo o
ooo ooooooooo
oo
oo
oo
oooo
oo
ooooooo
o o
o
o o o oooooo
oo
o
o oo
o
oo o
oo
oo
o
ooo
ooo
oo oooooo o
o
oo o
oo
o oo ooo o oooooooooooooooooo
oo o o

o
o
o
o
o

pgg45

60

ooooo
ooooooooooooooo
ooooooooooooooo
ooooooo
ooo
ooo
o
oo
oooo
ooo
oo
oooooo
o
oo
ooooooo
o
o ooo oo
ooo o
oooooo o
oooo o
o o oo o
oo
o
oo
o ooooooo
oooooo
oooo oooo o o
ooo o
oooooo
oo
oo
o o
o
oo
o oooo
ooooo
o oooo
o o
ooo oo
oooooo
oooooo
o o
ooooooooooo
ooooo o
ooooo o o
oo
ooooo
ooo
oooooooooo
oooo
oooooooooooooooooo
ooooo
ooo oooooooooooooo o oo
oo
oooooo
ooooo
o o oo
ooooo

0 20

6.0 7.0 8.0 9.0

0.0

0.4

svi
oooo
oooooooooooooooooooo

o
0

40

80

7 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
8 / 29

25

Phoneme Examples

15
10
0

Log-periodogram

20

aa
ao

50

100

150

200

250

Frequency

0.2
0.0
-0.2
-0.4

Logistic Regression Coefficients

0.4

Phoneme Classification: Raw and Restricted Logistic Regression

50

100

150

200

250

Frequency

9 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
10 / 29

0.8

o o
oo oo o o
o
o ooooo oo
ooooooo
o
o
o
o
o
o
o
o
o
ooooooooooooooooooooooooooo o
ooooooooooo oo
oo
oo
o
ooooo
oooo
ooo ooo
ooo
oooooo
oooooooo
oooo
oo
o
o
o
oooooo
oooooo ooo
oooo
ooo
oooo
o
oo
oo
ooooooo
o
ooo
o
oooo
o
oo
ooo
oooooo
oo
ooo
oooo
ooo
o
oo
ooo
o
oo
oo
ooo
o
oo
o

o
o
o
o
o ooo o
oooooo
oooo
ooo
oooo o
o
o
ooooo
oo
ooooooooooo o oo
oo
oooo
oooo
o
ooooooo
oo
oo
ooooo
o
oo
ooo
o
oo
oooo
oo
oooo
ooo
ooo
oo
ooooo
oo
ooooooo ooooo
oo
o
oooo
o
oo
o
o
o
oo
ooo
o
oo
o
o
o
o
o
o
ooo
o
o
ooooooo o
oo
oooo
oo
oooooooo
oooo
oo
ooooo
oo
oo
oo

tobacco

o
o
o
o
oooo
ooo o
o
o
o oo o
oo
ooooo oo
o
o
ooo
ooo ooo
o
o
o
o
oo
o
o
oo
oooooo
ooooooooo
ooo
oo
o
ooooooooo
ooooooo o o
oooooo
ooo
oooo
o
o
oo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
oooo
o
oooo
ooo
oo
o
ooooo
oo
oooooo
ooooooo
ooo
oo
oo
ooo
ooo oooooo o
oo
ooo
ooo
oo
oo
oooo
ooooooo
o
ooo
oo
oooo
o
o
ooooooo
o
oo
oo
oo
oooo
oo
o
ooo
oo
ooooooo
oo
o
ooo oo
oo
oo
oo
o
oo
ooooooo
ooo
ooooo o
o
o
oo
oo
o
oo
oo
o
o
o
oooooo
oo
oo
o
o
o
o
ooooo
oo
o
o
o
oo
o
o
oo
o
oo
o
oo
oo
o
oooooooo o o o o
oooo
o
oo
o
o
o
oooo
o
o
o
o
o
o
ooooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooooooooo oo
oooooo oo
oo
ooo
ooo
ooo
oo
o
oo
ooooooooooo o o
oo
oooooooooooooo

o
o
ooo
o
o
o
oo
o
oo
o
o
o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
oo
oo
o
o
o
ooo
o
oooo
oooo
o
oo
oo
o
o
ooo
o
o
oo
o
o
o
oo
o
o
o
ooo
o

50

100

o o oo
o
oooo o
o o
o ooo
o
oo o ooo
oo ooo ooo
oo
o oooooooo
ooooo
o o
o
oo
o
oooo
ooooo
oooo
oooo
oo
ooo
o o ooooooo
oo
ooooo
oooooooo oo o
ooooooo
o
oo
ooo
o
o
oo
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooooooo
oo
oo
ooo
oooooo
oooo
oo
oooo
oooo
oooo
ooooooooooo
oooooo
ooooo
ooooooo
oo oo o oo oooooooooooo
oooooo
o
oo
o
ooooooo
ooooo
oo
oo
ooo
ooo
ooo
o
ooo
ooooo
o
o
oooooo
ooo
ooooo
o
o
oooooo
ooo
oo
ooooooo
o
oo
o
oo
o
o
oooo
o
ooo
oo
oo
ooo o
oo
o
oo
oooo
oo
ooo
o
o
o
oooo
oo
ooo
oo
oo
ooo
ooo
oo
ooooo
oooo
ooo
oo
oooooooo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oooo oo oo o
oo ooooooooooo
oo
ooooooooooo
ooo
ooooooooo
oo
oo
oooo o o

o
o
o
o
ooooo o
o
o oooo
o
oo
o
oo
ooo
oooo oo
ooo
oo
o
o
o
o
o
o
o
o
o
ooo
oo
ooo
ooooooooooo
oooo
o
o
o
ooooo
o
oo
o oooo o
oo
ooo
oooo
ooo
oo
oooo
oo
oooo
ooo
o
oo
o
oo
o
ooooo
o
o
oo
o
o
oo
o
oooo
oo
oooo
oo
o
o
oo
oo
ooo
ooo
o
o
oooo
o
o
o
oooo
oo
o
oo
oo
oo
oooooooooooooo o
o ooo
ooo
oooo
oo
oo
ooo
oo
oo
oo
o
o
ooo
oo
o
o
o oo
oooo
ooo oooo o
o
o
ooooo
ooooo o
ooo
ooooo
o
ooo
ooooo o
oooo
ooooo
oo
o
o
o
oo
o
o
o
o
o
o
oooo
ooooo o
ooo
o
oo
o
o
oo
ooo
oo
oooooo
ooo
oooooo
o
oo
o
o
ooo
o
oo o
ooooo
oo
ooo
oo
o o oooo
oo
oo
oooooo
o
oooo
ooo
oooo
o
o
o
ooooooo
o
o
o
oo
ooo
oooo
oo
oo
o
oo
oo
o
ooo
oo
oo o
ooooooooooooooo
oo
oo
o
o
ooo
oo
oo
ooo
ooo
o
oooo
o
o
oooooo

o
o
o
o o
o
o o ooo
ooo o o
o o
o
o
o
o
oo oooooo
oooo o o o o
oo
o
oo o
ooo
ooooooo o o
oooo
o
o
o
o
o
o
o
oooooo
ooooooooooo oo
oo
ooo
oooooo
oo ooo
o
ooo
o
o
oo oo o o
o
oooooooooo
ooo
ooo
ooooo
o
oo
oooooooooo
o
oo
oo
oooo
ooooooooo
ooooo
o
ooo
oooooooo
oo
o
oo
o
oo
o
ooo
oooo
ooooo
oooooooo
ooo
ooo
o
oo
o
oo
oo
o
ooo
ooo
oo
o
ooo
oo
oooo
o
ooo
ooooooooooo
o
oooooooooo
ooo
ooo
o
o
o
oooooooooooooo oo oo ooo
oo
oo
oo
oo
o
ooo
o
oooo
ooo
oo
ooo
oooo
oo
oo
o
ooooooo
oo
ooooo
oo
oo
oooooo
o
ooo
oo
ooooo
o
oo
oo
oooo
ooo
ooo
o
o
o
o
ooooooooooooooo
oooo
o
o
o
o
o
o
o oo o o
oo o
o
o oo
o oo
ooooooooo o
o oo o
oooooooooo o o oo
oo o oo ooooooooooooooooooooooo
o
o
o
ooooooooo o
ooo
oo
oooo
o
oo
oo
o
oo
oooooooo
ooooooo
oo
ooooooo
o
oo
oo ooooooooooo
oo
oo
oo
o
oo
oo
oo
oooo
ooooo
ooo
oo
ooooooooooo o
oo
ooo
oo
oooooo
oo
oo
oo
oo
o
o
o
ooo
o
o
o
o
o
oooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
oooooo
oooo
oooooooooooo
ooooo
ooooooooo
oooo
o
oooooo
oo
oooo
o
o
ooooooooo oooo oo o o o
oo
o
ooooooo
oooooooooo
ooo
oooo
ooo
ooooo
oooo
oooooooo
o
o
o
ooo
o
oo
oo
o
ooooooo
ooo
o
ooooooooo
ooo
ooooooooooooo
o
oo
o
oo
o
ooo
o o ooo
ooooooo
ooooo oo oo
o
o
oo
o
oooooooo
ooooooooooo

o
ooo
ooo
oo
o oo
ooooooo
o
o
oo
oo
oooooo
ooooooo
oooo
ooooooooooooooo

oooooooo
ooooo
oo
oo
oooo
ooooooo
oooooo
ooooo oooo

ooooooooooo
ooo
o
oooooooooooooo
oooooo
ooo
oo
oo
ooooo
oooooooo
oooo
ooooo
oo

0.8

oooooooooooooooooo
ooooo
ooo
oo
oo
oo
ooo
ooo
ooooooooooo
oo

ldl

0
o oo
ooo
o o
ooo
oooooo o
oooooooo
ooo
oooo
oo
oooooooooo o
ooooooooo
o
ooo
o
oo
o
o
o
o
o o
oooooooo
o
o
oo
ooooooooo
ooooo
o
oooooo o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
oo
oooooooo
o oooo
oooooooo
oooooooooooo
oo
o
oo
ooo
oo
oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooooooo
oooo o o
ooo
ooooooo o
ooooooo

o
o
oo
o
ooo
o
o
oo
o
o
o
oo
o
o
o
o
oo
o
o
o
o
ooo
oo
oo
o
o
o
o
oo
o
o
oo
ooo

220

0.4

160

0.0

100

30

10 14

20

10

20

30

sbp

10

o
o
o
oo
oo o o
o
o
oo ooo
ooo o
o
o
ooo
o
ooooo
oo
o o
o
oooooo
ooooooo
oo
oo
ooo
ooooooo oooo
o
oooooo o
ooooooo
oo
o
oo
o
o
oo
oooooooooooo
ooooo
oo
ooooo
oo
o
oo o
oooo o o o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
oooooooooo o
oooooooo
ooooooooooooooooo
o
ooooooooo
ooo
oo
o
oo
o
oo
o
oo
oo
o
o
o
oo
ooo
ooo
oo
ooooo
o
o
o
o
oo
o
o
ooo
o
o
oooooooo
ooo
oo
o
oooooooo
ooo
oo
o
o
o
ooo oo
oo
o
oo
ooo
o
oooo
ooo
o
oo
ooo
ooo
oo
o
ooo
oo
oo
o
oo
o
ooo
oo
o o oo
o
oo
ooo
oo
oooo
o
oo
o
o
oo
o
o
o
o
o
oo
ooooo
oo
oo
oo
oo
ooo
oo
oooo
o
o
oo
ooo
ooo
oooooooo oo
oooo
oo
ooo
oo
oo
oo
ooooo
oooooooo ooo o o
ooo
o
o
o o
o
o
oooo
ooooo o o o
o
ooo
oo
ooooooooooooooooo
oooo

100

160

220

oo o

o oo
o
oo o
ooo ooo oo
o
o
oo o
oo oooooo
o
oo o
o
oooo
oooooooo
oooooo o
ooooo
ooooo
oo
ooooooooo oo o
ooo
o
oo
oo
ooooo
ooo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oooooooo
ooo
oo
ooo
oo
oo
oo
oooo
oo
ooooooooooooooo o
oo
oo
ooo
ooo
ooo
o
oooo
o
ooo
oo
oooooooo
oooooo
o
o
o
ooo
ooo
oooo
ooooooo
ooooo
ooo
ooo o o
oo
oo
ooo
oooo
ooo
oooo
ooooo
ooooooo o
ooo
oooo
o
o
oo
ooo
oooooooooooo o
oooooo
ooo
o
oooo
oooo
o
oooooo
o
oooo
o
o
o
o
o
o
o
oo
oooooooo oo o
ooo
ooo
ooo
o
ooo
oo
oooo
oo
oo
o
o
ooooo o
oooo
ooooo
o
oooooooooooooo
ooo
oooo
oooooooooo
o o
oooo
o
oooo
oooo
oo ooo
ooooooooooooo
2

10 14

o
ooo
o
o
o
ooo
o
oo
o
o
o
o
oo
o
o
o
oo
oo
o
o
o
o
oo
o
oo
o
o
o
o
o
ooo
o
o
oo
o
o
o
o
o
oo
ooo
o
oo
o
o
o
oo
o
o
o
oo
o
o
o
o
o
oo
oo
o
o
o
o
oooo
oo
oo
oo
o
o
oo
o

o
oo o
o
oo
ooo
oo
o ooo
o o
ooo
ooooo
ooooo
o oooo
o
oo
o
o
o
ooo ooo
ooooo
o
ooooo o
oo
oo
o
oooooooo
o
oooooo
oooooooo
oo
oo
o
ooo
oo
o
oo
oo
oo
oo
oooo
ooo
oo
o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooo
oo
ooooo
ooo
ooooo oo
o
oo o oooo
oo
ooo
ooo
oo
oooooooo
oooooooooo
oo
oo
oo
ooo
oo
ooo
o
o
oooo
o
o
o
o
o
oooooooo
oo
ooo
o
ooooo
ooooo
oo
oooo
ooo
o
o
ooooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oooo
oooooo
ooooo
ooo
oo
ooo
ooooo
ooooo o o
ooooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oooooo
oooo o ooo
ooooooooooo o o
o
ooo
o
oo
oooo
oooo
ooo
oooooooo
o
oo
o
oo
oo
ooooooo oo
ooooooo
ooo
ooooo
o
o
oo
oo
ooo
oooooo
ooooooooo
oooo
o
oooo
o
oooooo
oo
oo
o
oooooo
ooooo
oo
ooooo
oooo
o
o
o
oo
ooooo oo
o
oo
o
o
oo
ooooo
oooooo
oo
ooooo
15

25

35

45

alcohol

o o
o
o o o
oo oo oo ooo
o
o ooo ooooo ooo
oo o ooooooo
o
oo o o ooooo
o oooooooooooooooooooo
o
ooo
oooo
ooooo
oooooooooooooooo
oooo
o
ooooo
oo
oooo
oo
ooooo
oo
ooooooo
ooooooooo
oo
o
oo
ooo
o
oo
oooooo
ooo
ooo
o
ooo
oo
oo
o
o
ooo
ooooooo
ooooooo
o
oooooo
oo
ooo
oooooo
oo
ooo
oo
oo
oo
oo
ooooo
oo
oooo
o
ooo
oo
oo

o
o
oo
oo o o
ooooooo
oo
oo
ooo
o
ooooooooo
o
o
o
oooooooooooooo
oo
ooo
oo
oo ooo o o oo
o
o
oo
oo
o
o
oo
o ooo
oooooooooo
ooo
o
oo
o
ooooo
oo ooo o
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
oo o
o ooooo
o
oo
oo
o
ooo
ooo
o
o
o
o
ooooooo
o
o
o
oooooooooo oooo
o
oo
oo
o
ooooo
o
ooooooooo oo
oooooooo
ooo
o oo o
oo
oo
oo
o
oooo o

age

45
35

obesity

oooo
ooo
ooooo
oooo
oo
o
oo
ooooooo
ooooo
oooooooooo
oo
ooo
ooo
o
ooo
ooooo
ooo
oooooo
ooooooooo
ooooo
o
oo
o
oo
oo o
o
o
ooooo o
o oooo
oo
oooo
ooo
oooooooo
oooooooooo
oo
ooo
oooooo
oo ooooo
ooooooooooo
oo
oo
o
o
oo
oo
ooooooooo
oo
ooooooo
oo
o
o
ooooo
oooo
ooooo
oo
ooo
o
oo
oo
ooo
ooooooo
o
ooo
oooo
oooo
oooo
oo
o
ooooo
o
o
oo
o
o
ooooo
oooooooo
oo
oo
ooo
oooooooo
oo
oooo
o
ooooo
o
ooooo
oooo
ooooooo
oooooooo
oo
oo
ooo
oo oooooooo
oo
oo
o
ooo
oooo
oooo
oo
oo
ooo
oo
ooooo
o
ooo
oooo
oooo
oo
oooooo
ooo
oo
oo
ooo
ooo
o
ooooo
ooo
ooo
oo
o
ooo
o
o
o
ooooo
o
oooooooooooo oo o oo oooo
o
oo
ooo
oooo
ooo
oo
o
o
o
o
o
o
oo
oooooo
o
o
oo
o
o
oo
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oooo ooo
oooooooo
o oo
ooo
ooo o oo
o
o
o
o

o
ooo
ooo
oo
oo
oo
oo
oo
o
o
o
o
oo
ooo
ooooooooooooooooo
ooooooo
oo

25

oo
o
ooooo
o
o
o
ooo
oo
o
o
ooo
o
o
o
o
oo
oo
o
o
o
o
o
ooo

oo
oo
o
o
oo
o
o
oo
o
oo
oo
o
o
o
oo
o
o
o
o
oo
o
o
ooo
o
o
o

15

oo

60

o o
oo
o o
oooo
oooooooooo oo
o
oooo o o
oooooooooooooooo
ooo
o
o
o
o
ooooooooooo o
oo
ooo
oo
o
oo
ooooooo
oo
oo
o
oo
ooo
oo
ooooo
o
ooooo
o
oo
oooooo
o
oooooooo o o o
o
o
o
o
ooo
o
o
o
o
o
o
oo
o
o
o
oooooooooo
oo
o
oo
o
ooooooooo
oo
oooo
oooooooooooo
oo
oo
oo
o
oo
ooo o
o ooooooooo
o
oo
o

oooooo
o
ooo
oo
oo
ooo
oo
ooo
ooooooo
oo
oo
ooo
oo
o
oooooooooo
oo
oo
oo
oo

oo
ooooo
oooooo
o
oo
ooooooooooo o o o
ooo
ooooo
ooo
o
oo
ooo
ooo
ooooooo
oo

40

oo

20

50

100

0.0

0.4

famhist
o
ooo
oo
oo
o
oooo
o
oo
ooo
ooooooo
o
oo
oo
ooo
oo
oo
ooooo
oo
ooooooo
oo
ooo
oooo
o
ooooooooooooooooo
o
ooooooooooo
ooooooooooooooooooo ooooo
oo
oo
oo
o o
o o
o
o
o
o
o
o o o oo
oo o o
oo oooooo
oooooo ooo
o ooooooo o
oooooooo
ooo
ooooo
oo
oooooooo o
oooo
ooo
ooo oooo
o
ooo
ooooooooo
ooo o o
ooo
oooooooo
oo
oo
oo
oo
ooooooooo
o
ooo
o
oo
o
oo
o
oooooooo
oo
o
o
o
ooo
oo o
ooo
ooooooooooo
ooo
oo
oo
oooo
oo
o
oooooo
oo
oo
oo
oooo
ooo
o
oo
ooo
ooo oo
o
o
oo
o
ooo
ooo
ooo
oo
ooooooo
ooo
oo
o
oooo
oo
oo
o
oo
oooooo
o
oo
ooo
o
oo
oo
oo
ooo
ooo
oooo
o
oo
oooo
o
oo
ooo
oooo o
oo
ooo
ooo
o
o
oo
oooo
oo
oooo
o
o
oo
ooo
oo
oooo
o
o
ooo
o
o
o
oo
ooo
ooo
o
o
o
o
o
o
o
o
o
ooo
o
o
oooooo
o
o
ooo
o
o
ooooooo
ooo
ooo
o
ooooooooo
o
o
o
ooo
o oo
o
o
oo o o
o
o
o
oo ooooo o o o o
oooooo oo
o
oo
o oo
ooooooo ooo
oooo
ooooooooo o o
o
o
o
o
o
o
o
o
o
oo
oooooooooo o o
oooo
ooooo
oooooo oo
ooo
ooo
oooooo
o o
oooo
o
ooooooo
oo
oo
ooo
oooo
ooo
oo
oooo
ooo
ooooo
oooo
oo o oooo
oo
oooooo
oooo
o
o
ooo
oooo
oooooo
oooo
ooooo
oo
ooooo
ooo
ooooo o
oo
o o ooooo
oo
o
oooooooooo
ooooo
o
o
oooo
oo
ooo
oooo
ooo
oo
oo
ooooo
oo
ooooooo
oo
ooo
o
o
oo
oo
oooo
ooooooo
oooo
oooooooo
oo
ooo
oo
o
ooooo
ooooo ooo o
oo
oooooo
ooooo
ooooooooo
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oooooooo
oo ooooo ooo
o oo
oooo
oo
ooooo
oooooo o
oo
oo
oo
oooo
ooo
oo
o
oo
oooooo
oooo
oooo o
oooooo
o
oooooo oooooo o
oo
ooooooooo
o
oo
oo
oo
ooo
ooo
o
oo
oo
o
oo o
ooo
ooo
ooooooooooooo
ooo
oooo
oo
ooo
oooooooooo
oooooooooooo o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
oooooo
ooooooooooo
oooooo
o o
oooooo
ooooo o
o
oooo
o
ooo
o
o
oooo
ooooooooo
oooooo
ooo
ooo
ooo
oooo
oooo oo o
oo
oooo
oo
oo
oo
ooooooo
ooo
ooooo ooo
oo
oo
ooooo
o
o
ooo
ooooooo
oo
o
o
o
o
o
o
o
o
o
o
o
ooooooo
ooo
o
ooooo
oo
ooo oo
oo
ooo
oooooo
ooo
o
oooooooo
o
ooo
ooo
ooo
ooo
oooo
ooo
oooo
oo
ooooo o o
oooo
o
o
o
o
o
o
o
o
o
oooooo
oo
oo
oo
o oo
oo
oo
o
o
oooooo
oo
o
oooo
o
oooo oo

20

40

60

11 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
12 / 29

Spam Detection
data from 4601 emails sent to an individual (named George,

at HP labs, before 2000). Each is labeled as spam or email.


goal: build a customized spam filter.
input features: relative frequencies of 57 of the most

commonly occurring words and punctuation marks in these


email messages.

spam
email

george
0.00
1.27

you
2.26
1.27

hp
0.02
0.90

free
0.52
0.07

!
0.51
0.11

edu
0.01
0.29

remove
0.28
0.01

Average percentage of words or characters in an email message equal


to the indicated word or character. We have chosen the words and
characters showing the largest difference between spam and email.

13 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
14 / 29

15 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
16 / 29

17 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
18 / 29

40
Age

60

80

300
Wage

50 100

200

300
50 100

Wage

200

300
200

Wage

50 100
20

2003

2006
Year

2009

Education Level

Income survey data for males from the central Atlantic region
of the USA in 2009.

19 / 29

Statistical Learning Problems


Identify the risk factors for prostate cancer.
Classify a recorded phoneme based on a log-periodogram.
Predict whether someone will have a heart attack on the basis
of demographic, diet and clinical measurements.
Customize an email spam detection system.
Identify the numbers in a handwritten zip code.
Classify a tissue sample into one of several cancer classes,
based on a gene expression profile.
Establish the relationship between salary and demographic
variables in population survey data.
Classify the pixels in a LANDSAT image, by usage.
20 / 29

Spectral Band 1

Spectral Band 2

Spectral Band 3

Spectral Band 4

Land Usage

Predicted Land Usage

Usage {red soil, cotton, vegetation stubble, mixture, gray soil, damp
gray soil}
21 / 29

The Supervised Learning Problem


Starting point:
Outcome measurement Y (also called dependent variable,

response, target).
Vector of p predictor measurements X (also called inputs,

regressors, covariates, features, independent variables).


In the regression problem, Y is quantitative (e.g price,

blood pressure).
In the classification problem, Y takes values in a finite,

unordered set (survived/died, digit 0-9, cancer class of


tissue sample).
We have training data (x1 , y1 ), . . . , (xN , yN ). These are

observations (examples, instances) of these measurements.

22 / 29

Objectives

On the basis of the training data we would like to:


Accurately predict unseen test cases.
Understand which inputs affect the outcome, and how.
Assess the quality of our predictions and inferences.

23 / 29

Philosophy
It is important to understand the ideas behind the various

techniques, in order to know how and when to use them.


One has to understand the simpler methods first, in order

to grasp the more sophisticated ones.


It is important to accurately assess the performance of a

method, to know how well or how badly it is working


[simpler methods often perform as well as fancier ones!]
This is an exciting research area, having important

applications in science, industry and finance.


Statistical learning is a fundamental ingredient in the

training of a modern data scientist.

24 / 29

Unsupervised learning

No outcome variable, just a set of predictors (features)

measured on a set of samples.


objective is more fuzzy find groups of samples that

behave similarly, find features that behave similarly, find


linear combinations of features with the most variation.
difficult to know how well your are doing.
different from supervised learning, but can be useful as a

pre-processing step for supervised learning.

25 / 29

The Netflix prize

competition started in October 2006. Training data is

ratings for 18, 000 movies by 400, 000 Netflix customers,


each rating between 1 and 5.
training data is very sparse about 98% missing.
objective is to predict the rating for a set of 1 million

customer-movie pairs that are missing in the training data.


Netflixs original algorithm achieved a root MSE of 0.953.

The first team to achieve a 10% improvement wins one


million dollars.
is this a supervised or unsupervised problem?

26 / 29

BellKors Pragmatic Chaos wins, beating The Ensemble by a

narrow margin.

27 / 29

Statistical Learning versus Machine Learning


Machine learning arose as a subfield of Artificial

Intelligence.
Statistical learning arose as a subfield of Statistics.
There is much overlap both fields focus on supervised

and unsupervised problems:


Machine learning has a greater emphasis on large scale

applications and prediction accuracy.


Statistical learning emphasizes models and their

interpretability, and precision and uncertainty.


But the distinction has become more and more blurred,

and there is a great deal of cross-fertilization.


Machine learning has the upper hand in Marketing!

28 / 29

uthern California. He has


domain of statistical learnional data. The conceptual
ses in this area.

versity of Washington. Her


machine learning. She has
es to the eld of genomics,
Medicine committee that

at Stanford University, and


tical Learning. Hastie and
ote a popular book of that
software and environment
shirani proposed the lasso
he Bootstrap.

al, including graphical


ath algorithms for the
e is also a chapter on
and false discovery rates.

ors of statistics at
stie and Tibshirani
that title. Hastie cont in R/S-PLUS and
o and is co-author of the
-inventor of many datant boosting.

The Elements of Statistical Learning

and information techsuch as medicine, biolota has led to the devels such as data mining,
mon underpinnings but
he important ideas in
h is statistical, the
re given, with a liberal
s and anyone interested
from supervised learning
ral networks, support
hensive treatment of this

Hastie Tibshirani Friedman

me Friedman

rning

1
An Introduction to Statistical Learning

arning (Hastie, Tibshirani


for statistics and machine
ng covers many of the same
e. This book is targeted at
ting-edge statistical learna previous course in linear

STS

James Witten Hastie Tibshirani

sible overview of the eld


e of the vast and complex
to nance to marketing to
me of the most important
pplications. Topics include
age approaches, tree-based
or graphics and real-world
e the goal of this textbook
es by practitioners in sciorial on implementing the
ar open source statistical

Course Texts
Springer Texts in Statistics

Gareth James
Daniela Witten
Trevor Hastie
Robert Tibshirani

An Introduction
to Statistical
Learning
with Applications in R

The course will cover most of the material in this


Springer book (ISLR) published in 2013, which
the instructors coauthored with Gareth James
and Daniela Witten. Each chapter ends with an R
lab, in which examples are developed. By January
1st, 2014, an electronic version of this book will be
available for free from the instructors websites.

Springer Series in Statistics

Trevor Hastie
Robert Tibshirani
Jerome Friedman

The Elements of
Statistical Learning
Data Mining, Inference, and Prediction
Second Edition

This Springer book (ESL) is more mathematically


advanced than ISLR; the second edition was published in 2009, and coauthored by the instructors
and Jerome Friedman. It covers a broader range
of topics. The book is available from Springer and
Amazon, a free electronic version is available from
the instructors websites.
29 / 29

S-ar putea să vă placă și