Kernel PDF

Introdução Motivação Estimação de Densidades Análise Discriminante Experimentos Conclusões Referências
Método Kernel: Estimação de Densidades e Classificação de

Padrões
Marcelo Rodrigo Portela Ferreira
Departamento de Estatística, UFPB

Centro de Informática, UFPE
15 de abril de 2009
Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Método Kernel: Estimação de Densidades e Classificação de Padrões
Estrutura da Apresentação
1 Motivação
2 Estimação de Densidades pelo Método Kernel
(i) Caso Univariado
(ii) Caso Multivariado
3 Análise Discriminante Kernel
4 Experimentos
5 Conclusões

Kernel (1)
NÃO é o núcleo celular

NÃO é o núcleo de um sistema operacional
NÃO é o núcleo/espaço nulo de uma matriz A : {x : Ax = 0}
e e e

Kernel (2)
Uma função K : Rp → R tal que

K(x) ≥ 0
Z e
K(x)dx = 1
Rp e e
K é simétrica em torno de 0
e

Motivação
Na metodologia clássica, faz-se alguma suposição sobre a forma funcional

paramétrica dos dados
Com uma forma paramétrica imposta, tudo que resta é estimar os
parâmetros através dos dados (Máxima verossimilhança, por exemplo)
Muitas vezes, a suposição acerca da forma funcional paramétrica pode ser
muito restritiva ou, em alguns casos, inadequada
Abordagens não-paramétricas permitem-nos lidar com um número maior
de situações

Estimação de Densidades pelo Método Kernel
A função densidade de probabilidade é um conceito fundamental em

estatística
Uma variável aleatória X com função de distribuição F é dita
absolutamente contínuaR xse existir uma função não negativa f tal que
F (x) = P (X ≤ x) = −∞ f (t)dt, ∀x ∈ R. Neste caso, dizemos que f é a
R +∞
função densidade de probabilidade de X e deve satisfazer −∞ f (x)dx = 1
Especificar a função densidade de X nos fornece uma descrição natural da
sua distribuição, e permite que probabilidades associadas a X possam ser
encontradas através da relação
Z b
P (a < X < b) = f (x)dx, para todo a < b.
a

Nosso foco: estimação de funções densidade através do método kernel

Outros tipos de estimadores não-paramétricos de funções densidade
incluem: histogramas, polígonos de frequência, splines, estimadores
baseados em séries ortogonais e estimadores baseados em verossimilhança
penalizada (Silverman 1986; Scott 1992; Simonoff 1996)
O estimador kernel pode ser pensado como uma generalização do
histograma

Histogramas
Método não-paramétrico mais antigo de estimação de densidades

Dada uma origem x0 e um comprimento de intervalo h, definimos os
retângulos do histograma como sendo os intervalos
[x0 + (r − 1)h, x0 + rh) para valores inteiros positivos e negativos de r
Empiricamente a idéia e contar o número de observações que estão
contidas em cada intervalo
Sem perda de generalidade, seja o intervalo [−h/2, h/2). A probabilidade
de uma observação pertencer ao intervalo [−h/2, h/2) é dada por
R h/2
P (X ∈ [−h/2, h/2)) = −h/2 f (x)dx, onde f é a densidade de X
Uma aproximação natural para a probabilidade acima é
P (X ∈ [−h/2, h/2)) ≈ n1 #{Xi ∈ [−h/2, h/2)}
Dessa forma, uma estimativa para f seria
1
fˆ(x) = #{Xi ∈ [−h/2, h/2)}, ∀x ∈ [−h/2, h/2)
nh

Este estimador não é contínuo e depende fortemente da escolha de h,

conhecido como parâmetro de suavização
Variando o valor de h obtemos diferentes formas de fˆh (x). Nos extremos,
digamos, quando h → 0, temos uma representação muito ruidosa dos
dados. Na situação oposta, quando h → ∞, temos uma representação
muito suave dos dados
A idéia do histograma serve como base para um estimador de densidades
mais geral conhecido como estimador naive (Silverman 1986). Seja X
uma v.a. com densidade f . Então,
1
f (x) = lim P (x − h < X < x + h)
h→0 2h
Para h fixo, podemos estimar P (x − h < X < x + h) pela proporção de
observações da amostra pertencentes ao intervalo (x − h, x + h). Desse
modo, um estimador natural de f , escolhendo h pequeno, é
1
fˆ(x) = #{Xi ∈ (x − h, x + h)}
2nh

Para expressar este estimador de forma mais clara, seja a função peso w:
1
se |x| < 1
w(x) = 2 (1)
0 caso contrário.
Então, é fácil ver que uma estimativa para f neste caso é dada por
n
1X1 x − Xi
fˆ(x) = w (2)
n i=1 h h
A partir de (1) podemos notar que o estimador (2) é construído

colocando-se um retângulo de largura 2h e altura (2nh)−1 em cada
observação e então somando para obter a estimativa fˆ
Não é difícil notar que fˆ não é uma função contínua e tem derivada nula
em todos os pontos exceto nos pontos de salto X ± h
O estimador de densidades baseado em uma função kernel é obtido
substituindo a função peso w por uma Rfunção não-negativa k, denominada
∞
função kernel, satisfazendo a condição −∞ K(x)dx = 1
Usualmente, mas não sempre, K será uma função densidade de
probabilidade simétrica (Por exemplo, a função densidade de probabilidade
normal)
Estimação de Densidades Univaridas pelo Método Kernel
No caso univariado o estimador kernel para uma amostra aleatória

X1 , . . . , Xn retirada de uma distribuição com densidade comum f , pode
ser definido como
n n
1 X x − Xi 1X
fˆ(x; h) = K = Kh (x − Xi ) , (3)
nh i=1 h n i=1
onde h é o parâmetro de suavização, positivo e não-aleatório,

R +∞ eK éa
função kernel, não-negativa, satisfazendo a condição −∞ K(x)dx = 1
A relação entre K e Kh é dada por Kh (t) = h−1 K(h−1 t)
Em cada ponto, uma função kernel dimensionada Kh com massa de
probabilidade n−1 é colocada. Estas são então somadas para fornecer a
curva composta
A escolha da função kernel não é crucial para a performance do método, e
é mais razoável escolher um kernel que auxilie na eficiência computacional
(Silverman 1986; Epanechnikov 1969)

Tabela: Funções kernel comumente utilizadas com dados univariados
Função kernel Forma analítica, K(x)
1
Retangular 2
para |x| < 1, 0 caso contrário
Triangular 1 − |x| para |x| < 1, 0 caso contrário
Biweight 15
16
(1 − x2 )2 para |x| < 1, 0 caso contrário
2
Normal √1 exp − x2
2π
√ √
Epanechnikov 3
4
1 − x2 /5 / 5 para |x| < 5, 0 caso contrário

Figura: Estimativa da densidade univariada pelo método kernel. Linha sólida:

densidade estimada; Linhas tracejadas: funções kernel individuais. A amostra é
composta pelos valores X1 = −1.0, X2 = −0.8, X3 = −0.6, X4 = 0.5, X5 = 1.2.
Função kernel: gaussiana
0.6
0.5
densidade estimada
0.4
0.3
0.2
0.1
0.0
−2 −1 0 1 2

Estimação de Densidades Multivaridas pelo Método Kernel
A extensão para dados multivariados é direta, com o estimador de

densidades p-dimensional, para uma amostra aleatória X 1 , X 2 , . . . , X n
retirada de uma densidade comum f , definido por e e e
n
1 X 1
fˆ(x) = K (x − X i ) , (4)
e nhp i=1 h e e
onde x = (x1 , x2 , . . . , xp )′ e X i = (Xi1 , Xi2 , . . . , Xip )′ , i = 1, 2, . . . , n

e e
A função kernel multivariadaR K(x) é agora uma função definida no espaço
p-dimensional, satisfazendo Rp K(x e )dx = 1
e e
Usualmente K será uma função densidade de probabilidade unimodal
radialmente simétrica

Exemplos de funções kernel multivariadas são a distribuição normal padrão

multivariada
1
K(x) = (2π)−p/2 exp − x′ x ,
e 2e e
e a função kernel Bartlett-Epanechnikov
(
(1−x′ x)(p+2)
e2c
ep para |x| < 1
K(x) = e
e 0 caso contrário,
onde
π p/2
cp =
Γ((p/2) + 1)
é o volume de uma esfera unitária p-dimensional

O uso de um único parâmetro de suavização em (4) implica que a função

kernel colocada em cada ponto é dimensionada igualmente em todas as
direções e isso pode ser inadequado em muitas situações
Uma forma da estimativa da função de densidade de probabilidade
comumente utilizada é a soma do produto de funções kernel (sem,
contudo, a implicação de independência entre as variáveis)
Xn Y p
1 1 xj − Xij
fˆ(x) = Kj , (5)
e n h1 · · · hp i=1 j=1 hj
onde existem diferentes parâmetros de suavização associados com cada

variável. Pode-se assumir algum kernel univariado para os Kj ,
j = 1, . . . , p. Usualmente, a mesma forma é assumida para todos os Kj .

Uma forma geral para o estimador de densidades multivariado, para uma

amostra aleatória X 1 , X 2 , . . . , X n , retirada de uma densidade comum f , é
dada por e e e
n
1X
fˆ(x) = fˆ(x; H) = KH (x − Xi ), (6)
e e n i=1 e f
onde KH = |H|−1/2 K(H−1/2 x) é a função kernel dimensionada e H é

e
uma matrix não-aleatória, simétrica, positiva-definida, denominada matriz
suavização
A idéia básica do caso univariado, de colocar uma função kernel com
massa de probabilidade n−1 , é também válida no caso multivariado

Figura: Estimativa da densidade bivariada pelo método kernel. Linha sólida: curvas de
nível da densidade estimada; Linhas tracejadas: curvas de nível das funções kernel
individuais; Amostra: X 1 = (7, 3), X 2 = (2, 4), X 3 = (4, 4), X 4 = (5, 2),
e e e e
1 0.7
X 5 = (5.5, 6.5); Função kernel: gaussiana; Matriz de suavização: H = 0.7 1
e
10
10
8
8
6
6
y
y
4
4
2
2
0
0 2 4 6 8 10 0 2 4 6 8 10
x x

Escolha do Parâmetro de Suavização
O critério de erro mais amplamente utilizado nesta área de pesquisa é o

(Erro Quadrático Integrado Médio) (EQIM) (Rosenblatt 1956), definido
como Z
EQIM(fˆ(·; H)) = E [fˆ(x; H) − f (x)]2 dx (7)
Rp e e e
Nosso objetivo é encontrar H tal que o EQIM seja minimizado, ou seja,
HEQIM = arg min EQIM(fˆ(·; H)), (8)

H∈H
onde H é o espaço das matrizes simétricas, positivas-definidas de

dimensão (p × p)
Contudo, o EQIM apresenta forma fechada apenas se f é uma mistura de
distribuições normais e K é a função kernel normal, e dessa forma,
encontrar HEQIM é, em geral, extremamente difícil
(Wand and Jones 1995)

O Erro Quadrático Integrado Médio Assintótico (EQIMA) é uma

aproximação assintótica do EQIM. Uma expressão para o EQIMA,
derivada por (Wand and Jones 1995), é
Z
1 1
EQIMA(fˆ(·; H)) = R(K)|H|−1/2 + µ2 (K)2 tr2 (HD2 f (x))dx,
n 4 Rp e e
R (9)
onde R(v) =R Rp v(x)2 para alguma função integrável quadrada v;
µ2 (K)Ip = Rp xx′ K(xe ), com µ2 (K) < ∞ e Ip é a matriz identidade de
ee e
dimensão (p × p); e D2 f (x) é a matrix Hessiana de f
e
Devemos então encontrar um estimador do EQIM(A), EQIM(A), \ a partir
dos dados disponíveis e a partir desse estimador encontrar um parâmetro
de suavização H b tal que
H \
b = arg min EQIM(A) (10)
H∈H

A expressão (10) é chamada de seletor do parâmetro de suavização

Existem diversas metodologias que podem ser utilizadas para selecionar o
parâmetro de suavização através de (10), dentre as quais, um método
conhecido como plug-in e o método de mínimos quadrados por validação
cruzada (LSCV, sigla em inglês)
Um estudo detalhado sobre métodos de seleção do parâmatro de
suavização pode ser encontrado em (Duong 2004)

Análise Discriminante Não-paramétrica
De acordo com a regra de Bayes, nós alocamos uma observação para a

classe com maior probabilidade a posteriori:
x é alocado para a classe Πj se Πj = arg max πj fj (x).

e j∈{1,...,J} e
As probabilidades a priori πj , quando desconhecidas,

P podem ser estimadas
usando π̂j = nj /n, j = 1, . . . , J, com Jj=1 nj = n
Na metodologia paramétrica são feitas suposições sobre as densidades fj .
Usualmente, supõe-se que os dados seguem distribuição normal,
entretanto, esta suposição pode ser muito restritiva ou até mesmo
inadequada
Na análise discriminante não-paramétrica nós relaxamos essa suposição
para, dessa forma, poder lidar com casos mais complexos

4
2
y
0
−2
−2 0 2 4

5
y
0
−5
−5 0 5 10

A abordagem kernel para análise discriminante é estimar a densidade fj de

cada classe Πj e alocar uma observação de acordo com a regra:
x é alocado para a classe Πj se Πj = arg max π̂j fˆj (x),

e j∈{1,...,J} e
onde fˆj (x) é a estimativa da densidade pelo método kernel correspondente

a j-ésimae classe

75
2
25
75
25
50
y
75
50
75
50
25
25
50
−2
−2 0 2 4

5
y
0
−5
−5 0 5 10

Suporte Computacional: R


Gratuito (disponível em http://www.R-project.org)

Código aberto
Colaborativo
Centenas de pacotes implementados
AER: Applied Econometrics with R
AMORE: A MORE flexibly neural networks package
AdMit: Adaptive Mixture of Student-t distributions
arules: Mining Association Rules and Frequent Itemsets
anapuce: Tools for microarray data analysis
betareg: Beta Regression
boot: Bootstrap R Functions
BayesTree: Bayesian Methods for Tree Based Models
class: Functions for Classification
clusterGeneration: Random cluster generation (with specified degree of
separation)
experiment: R package for designing and analyzing randomized
experiments
FactoMiner: Factor Analysis and Data Mining with R
foreign: Read Data Stored by Minitab, S, SAS, SPSS, Stata, Systat,
dBase, ...
geoR: Analysis of geostatistical data

HiddenMarkov: Hidden Markov Models

intervals: Tools for working with points and intervals
JGR: Java Gui for R
kernlab: Kernel-based Machine Learning Lab
ks: Kernel density estimate for multivariate data
lodplot: Plot a genome scan
mcmc: Markov Chain Monte Carlo
nnet: Feed-forward Neural Networks and Multinomial Log-Linear Models
outliers: Tests for outliers
polspline: Polynomial spline routines
qcc: Quality Control Charts
ROCR: Visualizing the performance of scoring classifiers
survival: Survival analysis, including penalised likelihood
tree: Classification and regression trees
urca: Unit root and cointegration tests for time series data
VaR: Value at Risk estimation
e a lista cresce a cada dia...
ks: Kernel density estimate for multivariate data
> ## bivariate example

> data(unicef)
> H.scv <- Hscv(x=unicef)
> fhat <- kde(x=unicef, H=H.scv)
> plot(fhat, drawpoints=TRUE, drawlabels=FALSE, col=3, lwd=2)
70
65
60
Ave life exp
55
50
45
40
50 100 150 200 250 300
Under−5

> plot(fhat, display="persp", border=NA, col="grey96",

+ shade=0.75)
Density fun
ction
Av
el
ife
ex
−5
der
p
Un

> plot(fhat, display="image", col=rev(heat.colors(100)))
80
70
Ave life exp
60
50
40
30
−100 0 100 200 300 400
Under−5

Uma função particularmente útil do pacote ks é a rmvnorm.mixt com a qual

podemos gerar dados oriundos de misturas de distribuições gaussianas
multivariadas.
> mus <- rbind(c(-3/2,0), c(3/2,0))
> Sigmas <- rbind(diag(c(1/16, 1)), rbind(c(1/16, 1/18), c(1/18,
1/16)))
> props <- c(2/3, 1/3)
> x <- rmvnorm.mixt(1000, mus, Sigmas, props)
> plot(x, xlab = "x", ylab = "y")

2
1
0
y
−1
−2
−3
−4
−2 −1 0 1 2

> mus <- rbind(c(-2,3), c(2,3), c(0,2), c(0,1/2))

> Sigmas <- rbind(diag(c(1/10,1/10)), diag(c(1/10,1/10)),
diag(c(1/32,1/16)), diag(c(1,1/64)))
> props <- c(1/4, 1/4, 1/4, 1/4)
> x <- rmvnorm.mixt(1000, mus, Sigmas, props)
> plot(x, xlab = "x", ylab = "y")

3
2
y
1
0
−3 −2 −1 0 1 2 3

Experimentos Numéricos
Foram gerados dados simulando problemas com duas classes em seis

cenários distintos
Amostras de treinamento de tamanhos 50, 100, 500 e 1000, gerados a
partir de distribuições normais ou de misturas de distribuições normais
Amostras de teste independentes, fixas, de tamanho 1000
1000 réplicas de Monte Carlo
Foram comparados os métodos discriminante linear, quadrático e kernel
Métrica de comparação: taxa de erro no conjunto de teste
Todos os resultados foram obtidos através da linguagem R

Voltando...
Cenários Distribuição
" 4 14
#! "4 #!
1 −1 0
A Π1 : f 1 ∼ N 9
; 14 45 ; Π2 : f 2 ∼ N ; 9
−1 4 1 0 4
45 9 9
"2 1
#! " # "
2 1
#!
−1 1
B Π1 : f 1 ∼ N ; 13 5 ; Π2 : f 2 ∼ N ; 13 5
1 1 −1 1
5 3 2 5 3
" # " #! " # " #!
−1 2 1 1 2 1
C Π1 : f 1 ∼ N 1 ; 3 1
5
4 ; Π2 : f 2 ∼ N
−1
; 13 5
4
2 5 9 2 5 9
" # " #! " # " #!
1N −3 4 −1 1N
1 4 −1
Π1 : f 1 ∼ 2 ; 5 2 + 2 ; 5 2 ;
D
2 −3 −1 4 2 1 −1 4
" #2 " 2 5#! " 2# " 2 5 #!
3 4 − 1 − 1 4 − 1
Π2 : f 2 ∼ 1N 2 ; 5 2 + 1N 2 ; 5 2
2 3 −1 4 2 −1 −1 4
2 2 5 2 2 5
" # " #! " # " #!
1 1 1 1
1N −3 3
Π1 : f 1 ∼ 2 ; 12 1
4 + 1N 2 ; 12 1
4 ;
2 0 1 2 0 1
E 4 4
"4 1
#!
0 9 5
Π2 : f 2 ∼ N ; 1 4
0
5 9
" # " #! " # " #!
2 1 3 1
1N −3 3
Π1 : f 1 ∼ 2 ; 10 1
4
3 + 1N 2 ; 10 1
4
3 ;
2 0 2 0
F 4 #! 10 4 10
"4 2
0 5 5
Π2 : f 2 ∼ N ; 2
0 1
5

3 A B C
3
2
2
1
1
X2
X2
X2
0
0
−1
−1
−1
−2
−2
−2
−3
−3
−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
X1 X1 X1
D E F
3
3
2
2
1
1
X2
X2
X2
0
0
−1
−1
−1
−2
−2
−2
−3
−3
−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
X1 X1 X1

Π1 Π1
4
6
Π2 Π2
3
4
2
2
1
X2
X2
0
0
−1
−2
−2
−4
−3
−3 −2 −1 0 1 2 3 −6 −4 −2 0 2 4
X1 X1

Tabela: Resultados para os cenários A, B e C

Cenário Método Estatísticas n = 50 n = 100 n = 500 n = 1000
Média 0,6233 0,5664 0,5033 0,5039
LDA
D. P. 0,3017 0,2440 0,1081 0,0717
Média 0,3746 0,3381 0,3117 0,3025
A QDA
D. P. 0,1790 0,0926 0,0451 0,0206
Média 1,8073 0,6713 0,3413 0,3244
KDA
D. P. 3,6037 1,0796 0,0962 0,0655
Média 1,0867 0,9642 0,9050 0,9088
LDA
D. P. 0,2814 0,1514 0,0736 0,0706
Média 1,3149 1,0702 0,9087 0,9052
B QDA
D. P. 0,4757 0,2514 0,0746 0,0687
Média 1,5593 1,2551 0,9925 0,9410
KDA
D. P. 0,6088 0,3606 0,1576 0,1185
Média 4,8170 4,6447 4,5223 4,5146
LDA
D. P. 0,4767 0,3727 0,2348 0,1913
Média 4,9875 4,7300 4,5377 4,5195
C QDA
D. P. 0,6089 0,4236 0,2559 0,2101
Média 2,5351 2,2039 1,8838 1,8341
KDA
D. P. 1,0339 0,7230 0,3798 0,2880

Tabela: Resultados para os cenários D, E e F

Cenário Método Estatísticas n = 50 n = 100 n = 500 n = 1000
Média 43.3035 44.5808 46.3690 46.6073
LDA
D. P. 2.6130 2.0645 0.5990 0.3108
Média 43.1092 44.0681 46.0483 46.4462
D QDA
D. P. 2.6529 1.9639 0.7543 0.4151
Média 24.7502 19.9339 16.3670 16.1180
KDA
D. P. 6.4371 3.3978 0.6678 0.5049
Média 47.8123 48.3086 49.2980 49.5784
LDA
D. P. 3.2952 2.4899 1.4873 1.2574
Média 12.3440 10.0298 7.9060 7.7968
E QDA
D. P. 4.0999 2.4674 0.6965 0.4928
Média 10.4084 7.5744 5.9294 5.9421
KDA
D. P. 3.8523 2.0576 0.5980 0.4642
Média 48.8693 49.1778 49.6406 49.6833
LDA
D. P. 2.4543 1.9858 1.1794 1.0829
Média 23.3331 21.6190 20.0978 19.8070
F QDA
D. P. 4.6566 3.7946 2.1063 1.6127
Média 17.8189 15.4789 13.5814 13.1674
KDA
D. P. 2.8313 1.5302 0.5391 0.3796

Conclusões
Desempenho superior do método kernel em situações complexas (cenários

D, E e F)
Desempenho similar aos métodos linear e quadrático em situações de
baixa complexidade (cenários A, B e C)
Teoria bastante desenvolvida e consolidada
Implementações em linguagem R

Referências Bibliográficas
Duong, T. (2004).
Bandwidth selectors for multivariate kernel density estimation.
Ph. D. thesis, University of Western Australia, School of Mathematics and Statistics.
Epanechnikov, V. A. (1969).
Non-parametric estimation of a multivariate probability density.
Theory of Probability and its Applications 14, 153–158.
Rosenblatt, M. (1956).
Remarks on some nonparametrics estimates of a density function.
The Annals of Mathematical Statistics. 27, 832–837.
Scott, D. W. (1992).
Multivariate Density Estimation: Theory, Practice, and Visualization.
New York: John Wiley & Sons.
Silverman, B. W. (1986).
Density Estimation for Statistics and Data Analysis.
London: Chapman & Hall.
Simonoff, J. S. (1996).
Smoothing Methods in Statistics.
New York: Springer-Verlag.
Wand, M. P. and M. C. Jones (1995).

Kernel Smoothing.
London: Chapman & Hall.


Kernel PDF

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Kernel PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Introdução Motivação Estimação de Densidades Análise Discriminante Experimentos Conclusões Referências

Método Kernel: Estimação de Densidades e Classificação de

Marcelo Rodrigo Portela Ferreira

Departamento de Estatística, UFPB

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

NÃO é o núcleo celular

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Uma função K : Rp → R tal que

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Na metodologia clássica, faz-se alguma suposição sobre a forma funcional

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Estimação de Densidades pelo Método Kernel

A função densidade de probabilidade é um conceito fundamental em

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Nosso foco: estimação de funções densidade através do método kernel

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Método não-paramétrico mais antigo de estimação de densidades

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Este estimador não é contínuo e depende fortemente da escolha de h,

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

A partir de (1) podemos notar que o estimador (2) é construído

Estimação de Densidades Univaridas pelo Método Kernel

No caso univariado o estimador kernel para uma amostra aleatória

onde h é o parâmetro de suavização, positivo e não-aleatório,

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Tabela: Funções kernel comumente utilizadas com dados univariados

Função kernel Forma analítica, K(x)

Triangular 1 − |x| para |x| < 1, 0 caso contrário

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Figura: Estimativa da densidade univariada pelo método kernel. Linha sólida:

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Estimação de Densidades Multivaridas pelo Método Kernel

A extensão para dados multivariados é direta, com o estimador de

onde x = (x1 , x2 , . . . , xp )′ e X i = (Xi1 , Xi2 , . . . , Xip )′ , i = 1, 2, . . . , n

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Exemplos de funções kernel multivariadas são a distribuição normal padrão

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

O uso de um único parâmetro de suavização em (4) implica que a função

onde existem diferentes parâmetros de suavização associados com cada

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Uma forma geral para o estimador de densidades multivariado, para uma

onde KH = |H|−1/2 K(H−1/2 x) é a função kernel dimensionada e H é

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Escolha do Parâmetro de Suavização

O critério de erro mais amplamente utilizado nesta área de pesquisa é o

HEQIM = arg min EQIM(fˆ(·; H)), (8)

onde H é o espaço das matrizes simétricas, positivas-definidas de

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

O Erro Quadrático Integrado Médio Assintótico (EQIMA) é uma

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

A expressão (10) é chamada de seletor do parâmetro de suavização

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Análise Discriminante Não-paramétrica

De acordo com a regra de Bayes, nós alocamos uma observação para a

x é alocado para a classe Πj se Πj = arg max πj fj (x).

As probabilidades a priori πj , quando desconhecidas,

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

Ferreira, M. R. P. DE - UFPB / CIn - UFPE

A abordagem kernel para análise discriminante é estimar a densidade fj de