Sunteți pe pagina 1din 6

PREDIÇÃO DE TRÁFEGO ETHERNET UTILIZANDO REDES NEURAIS

ARTIFICIAIS

José Eduardo C. Sales, Augusto Cesar P. Loreiro da Costa

Universidade Federal da Bahia


PPGEE-Programa de Pós graduação em Engenharia Elétrica
Escola Politécnica – Federação
40.210-630 - Salvador – BA
E-mails: eduardo@oi.net.br, augusto.loureiro@ufba.br

Resumo – Este artigo investiga a utilização de redes neurais artificiais perceptron de múltiplas camadas
(MLP) alimentadas adiante com algoritmo de treinamento de retroprogagação (backpropagation) na
simulação e predição do tráfego de dados multimídia em redes ethernet. A característica autossimilar, ou
fractal, deste tipo de tráfego permite a utilização de modelos matemáticos que simulam esta característica.
As redes neurais artificiais podem aprender esta característica mediante treinamento, e se apresentam como
uma alternativa viável para simulação e predição.

Abstract – This paper investigates the use of multi-layer perceptron (MLP) artificial neural networks with
backpropagation learning algorithm for simulation and prediction of multimedia ethernet traffic. The self-
similar, or fractal, characteristic of this traffic allows the utilization of mathematical models that simulate
this feature. The artificial neural networks can learn this characteristic under training, and are a viable
alternative for simulation and prediction.

Key words – Neural networks, Ethernet traffic, self-similarity, backpropagation

1. Introdução - efeito Noé: determina a dependência de


curta duração, caracterizado por picos numa
Os sistemas de telecomunicações têm série temporal;
evoluído na última década para uma - efeito José: determina a dependência de
plataforma baseada em comutação de longa duração, caracterizado por repetições
pacotes obedecendo a protocolos da rede de padrões numa série temporal.
internet. O tráfego de pacotes numa interface Matematicamente a autossimilaridade
Ethernet foi estudado por Leland et al. [3] de uma série temporal pode ser expressa por:
por um período de trinta meses e foi - a variância da média amostral cai mais
constatado um comportamento autossimilar, lentamente que a variância do tamanho da
ou fractal, significando que apresenta amostra;
sempre a mesma característica, independente - as funções de autocorrelação caem
da escala de tempo em que é medido. hiperbolicamente;
Devido a este comportamento - a densidade espectral tem um componente
autossimilar, podemos prever o de potência próximo à origem.
comportamento futuro deste tráfego. Dentre O grau de autossimilaridade ou de
as técnicas atualmente estudadas as redes persistência, de uma série temporal é dado
neurais artificiais têm obtido resultados pelo parâmetro Hurst, que pode ser estimado
bastante satisfatórios. medindo-se as variâncias da amostra para
Nossa proposta consiste em utilizar várias escalas de tempo. Caso o valor do
uma rede neural MLP (multi-layer parâmetro Hurst, H ≥ 0,5, a série é
perceptron) com algoritmo de treinamento considerada autossimilar. Kettani e Gubner
“backpropagation” para prever o tráfego [2] desenvolveram um método que relaciona
futuro. a média, a covariância, a variância e a
autocorrelação da amostra com o parâmetro
Autossimilaridade Hurst (H) da seguinte forma:

O comportamento autossimilar de um   n (1)
sistema foi definido por Mandelbrot [4] H   0.5
1  ˆ n (1)
como aquele que apresenta dois efeitos:
1 V 0
  (V )  
onde  n (k ) é a autocorrelação da amostra . 0 V 0

Redes Neurais Artificiais - função linear por partes;

Uma rede neural artificial é um 1 V  1 / 2


modelo matemático da rede de neurônios 
 (V )  V  1 / 2  V  1 / 2
biológicos constituintes do cérebro humano, 0
e tem como características principais a  V  1 / 2
capacidade de aprender e armazenar
conhecimento e a capacidade de processar - função sigmóide;
informação de forma paralela.
A unidade básica da rede é o modelo 1
de neurônio desenvolvido por McCulloch e  (V ) 
1  e V
Pitts [5], que atribui pesos a cada entrada,
efetua a soma destas, e apresenta a saída Em alguns casos é desejável que a
através de uma função de ativação. A figura função de ativação se estenda até o valor -1,
1 mostra o esquema de um neurônio tornando-se uma função ímpar do campo
artificial. local induzido V . Nestes casos utiliza-se a
função sinal no lugar da função limiar, e a
função tangente hiperbólica no lugar da
função sigmóide.
O Percepton de Rosemblat [6] é
baseado no modelo de neurônio descrito
acima. O objetivo do perceptron é classificar
corretamente o conjunto de estímulos de
entrada {x1, x2, ..., xn} em uma de duas
classes {C1, C2}. Caso a saída yk seja +1 a
entrada é classificada na classe C1 , caso a
saída seja -1 a entrada é classificada na
Figura 1. Modelo de neurônio classe C2.
A rede perceptron de múltiplas
Podemos identificar neste modelo os camadas (MLP) consiste de uma camada de
seguintes elementos: entrada de nós de fonte, uma ou mais
- um conjunto de sinapses, cada uma com camadas ocultas de nós computacionais, e
um peso próprio; uma camada de saída de nós
- um somador, para somar os sinais de computacionais. A figura 2 mostra uma rede
entrada ponderados pelos pesos das neural MLP .
sinapses;
- uma função de ativação para restringir a
amplitude da saída do neurônio;
- um sinal de polarização (bias) para
aumentar, ou diminuir, a entrada líquida da
função de ativação.
Matematicamente, podemos
representar o neurônio k por:

n
y k   ( wkj   k ) .
j 1

Três tipos de função de ativação φ(.)


são comumente utilizados:
- função de limiar (tudo ou nada); Figura 2. Multi Layer Perceptron
Backpropagation y (jl ) (n)   (v j ( n))

O treinamento das redes MLP é


Se o neurônio j está na primeira camada
efetuado utilizando-se o algoritmo de
oculta (l=1), faça
retropropagação de erro (error
backpropagation), que é um treinamento
supervisionado, baseado na regra de y (jl ) ( n)  x j ( n)
aprendizagem por correção de erro.
A aprendizagem por retropropagação Se o neurônio j está na camada de saída
de erro consiste de um passo para frente, e (l=L), faça
um passo para trás. No passo para frente um
vetor de entrada é aplicado aos nós y (jl ) ( n)  o j ( n)
sensoriais da rede e se propaga, camada por
camada, produzindo um conjunto de saídas, Calcule o sinal de erro
como a resposta real da rede. A resposta real
da rede é subtraída de uma resposta desejada e j ( n)  d j ( n)  o j ( n)
para produzir um sinal de erro. Este sinal de
erro é então propagado para trás, contra a
direção das conexões sinápticas. Os pesos 4.Computação para trás- calcule os
sinápticos são ajustados de tal forma que a gradientes locais da rede, definidos por
resposta da rede se move para mais perto da
resposta desejada, num sentido estatístico  e (j L ) ( n) (v (j L ) (n))
 (l )
(n)    (v ( l ) (n))  ( l 1) (n) w( l 1) (n)
[1].
O algoritmo backpropagation é
j
 j j

k
k kj

resumido por Haykin [1] como segue: saída


1.Inicialização- retire os pesos sinápticos e
oculta
limiares de uma distribuição uniforme cuja
média é zero e a variaância é escolhida para
que o desvio padrão dos campos locais Ajuste os pesos sinápticos de acordo com a
induzidos se encontre na faixa operativa da regra delta generalizada

 
função de ativação sigmóide.
2.Apresentação dos Exemplos de w (jil ) (n  1)  w (jil ) (n)   w (jil ) (n  1)   (j l ) (n) y i( l 1) (n)
Treinamento- apresente uma época de
exemplos de treinamento à rede. onde η é a taxa de aprendizagem e α é a
3.Computação para Frente- suponha que um constante de momento.
exemplo de treinamento de época seja 5.Iteração- itere as computações dos itens 3
representado por (x(n), d(n)). Calcule os e 4, até que seja satisfeito o critério de
campos locais induzidos e os sinais parada.
funcionais da rede, camada por camada.O
(l )
campo local induzido v j (n) para o Redes Neurais atrasadas no Tempo
neurônio j da camada l é
O tráfego ethernet é uma série
m0 temporal, e o tipo de rede neural que pode
v (jl ) (n)   w (jil ) (n) yi( l 1) (n) ser treinada para aprender seu
i 0 comportamento é a rede alimentada adiante
focada atrasada no tempo. Nesta rede a
onde yi
( l 1)
( n) é o sinal de saída do entrada é dada pelo vetor formado pelo valor
no tempo atual n e por p valores anteriores,
neurônio i na camada anterior l-1, na X ( n)  [ x ( n), x ( n  1),..., x ( n  p )]
( l 1)
iteração n. Para i=0, temos y 0 (n)  1 onde n é o tempo padrão e p é a ordem de
e w j 0 ( n)   j ( n) . Assumindo-se o uso
(l ) (l )
memória.
da função sigmóide, a saída do neurônio j da A rede pode ser treinada com
camada l é algoritmo backpropagation , com uma época
correspondendo a uma seqüência de estados,
cujo número é determinado pela ordem de
memória p e o tamanho N da amostra de A rede foi treinada com os primeiros
treinamento [1]. A figura 3 mostra o 180 dados da amostra usando algoritmo
esquema de uma rede neural alimentada backpropagation com os segintes
adiante focada atrasada no tempo. parâmetros:
- Função de treinamento: Levenberg-
Marquardt;
-Função de aprendizagem: gradiente
descendente com bias e momento;
- Função de desempenho: erro quadrático
médio.
Estabelecemos a meta de erro em
MSE=10-5.

3. Resultados Obtidos
Figura 3. Rede Neural Atrasada no Tempo
As figuras 5, 6, 7 e 8 apresentam os
2. Metodologia de Implementação resultados da simulação da rede para os
primeiros 180 eventos da amostra, que
A coleta de dados de tráfego foi efetuada em foram utilizados para treinamento, para os
um circuito ethernet dedicado na rede de atrasos de tempo de 3, 6, 12 e 25,
multisserviços da operadora Oi durante o respectivamente.
período de 1 de julho a 15 de julho de 2009,
de hora em hora, formando uma amostra de
tamanho N=360. A amostra de tráfego é
mostrada na figura 4. 1
y
y384d3
0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120 140 160 180

Figura 5 – Treinamento RNA p=3


Figura 4. Amostra de tráfego

O parâmetro Hurst, calculado pelo


método de Kettani e Gubner, desta amostra é 1
y
H=0,993, que mostra um grau de y384d6
0.8
autossimilaridade bastante alto, e nos
permite continuar a investigação. 0.6
A rede neural utilizada para
investigação foi criada utilizando a rede fftd 0.4
do Matlab, com os seguintes parâmetros:
- Número de camadas: 3; 0.2
- Ordem de memória: p=3, 6, 12 e 25;
- Neurônios na camada oculta: 20; 0
0 20 40 60 80 100 120 140 160 180
- Função de ativação da camada oculta:
tanh; Figura 6 – Treinamento RNA p=6
- Neurônios na camada de saída: 1;
- Função de ativação da camada de saída:
tanh.
1 1
y
y384d12 0.8
0.8

0.6
0.6

0.4
0.4
0.2
0.2
0
0 20 40 60 80 100 120 140 160 180
0
0 20 40 60 80 100 120 140 160 180
Figura10 – Predição um passo adiante p=6
Figura 7 – Treinamento RNA p=12
1

0.8
1
y
0.6
y384d25
0.8
0.4
0.6
0.2
0.4
0
0 20 40 60 80 100 120 140 160 180
0.2
Figura 11 – Predição um passo adiante p=12
0
0 20 40 60 80 100 120 140 160 180
1.4
Figura 8 – Treinamento RNA p=25 1.2
Z
Z384d25

0.8

As figuras 9, 10, 11 e 12 apresentam as 0.6


predições de tráfego para os últimos 180
0.4
eventos da amostra, para os atrasos de tempo
de 3, 6, 12 e 25, respectivamente. 0.2

0
0 20 40 60 80 100 120 140 160 180

Figura 12 – Predição um passo adiante p=25


1
Z Os resultados obtidos nos mostram que
0.8
Z384d3 a rede neural aprende a característica
periódica do tráfego, mas é sensível a ordem
0.6 de memória aplicada à sua entrada.
No caso de nossa amostra de tráfego a
0.4 ordem 3 foi a que apresentou o melhor
resultado, ainda que os valores de pico de
0.2
tráfego sejam bem maiores que os do tráfego
real.
0
0 20 40 60 80 100 120 140 160 180 A ordem 6, além de apresentar picos
Figura 9 – Predição um passo adiante p=3 de tráfego elevados não acompanhou a
persistência do tráfego real, apresentando
picos onde aquele apresentou vales.
A ordem 12 foi um pouco melhor que
a ordem 6, mas também não acompanhou
adequadamente a persistência do tráfego.
Finalmente a ordem 25, apesar de não [8] McCulloch,Warren S. & Pitts, Walter H.
apresentar picos elevados, tem uma média – A logical calculus of the ideas immanentin
muito mais alta que a média do tráfego real. nervous activity, 1943. Bulletin of
Mathematical Biophysics, vol.5, pp.115-133.
4. Conclusão [9] Oravec, Milos et. al. – Video Traffic
Prediction Using Neural Networks, 2008.
As redes neurais artificiais funcionam Acta Polytechnica Hungarica, vol.5, pp. 59-
adequadamente como simuladores e 78.
preditores de tráfego de dados multimídia [10] Robbins, H.& Monro, S. – A Stochastic
desde que se escolham adequadamente seus Approximation Method, 1951. Annals of
parâmetros. Mathematical Statistics, vol.22, pp. 400-407.
Especificamente o parâmetro de [11] Rosenblatt, R. – The Perceptron: A
atraso, ou ordem de memória, é muito probabilistic model for information storage
sensível quanto ao resultado final. and organization in the brain, 1958.
Outros parâmetros, como número de Psychological Review, vol. 65, pp. 386-408.
neurônios, quantidade de camadas e funções [12] Rumelhart, D.E. et. al. – Learning
de ativação afetam a velocidade de resposta representations by back-propagating errors,
da rede, tanto no treinamento, quanto na 1986. Nature, vol.323, pp. 533-536, London.
simulação, e também a qualidade da [13] Rutka, G. – Neural Network Models for
resposta. Internet Trsffic Predition, 2006. Riga
Um trabalho futuro seria desenvolver Technical University, Riga.
um método para especificar estes parâmetros [14] Von Neuman, John – The General and
com precisão para cada perfil de tráfego Logical Theory of Automata, 1986.
escolhido. Collected Works, Pergamon Press, Illinois.
[15] Wan, Eric – Time Series Prediction by
Referências Using a Connectionist Network with Internal
Delay Lines, 1994. SFI Studies in the
[1] Aguirre, Luis Antônio – Introdução à Sciences of Complexity, Proc. Vol. XVII.
Identificação de Sistemas, 3ª edição, 2007. Addison-Wesley.
editora UFMG, Belo Horizonte. [16] Widrow, B. & Hoff, M. E. – Adaptive
[2] Demuth, Howard et. al. – Neural Switching Circuits, 1960. IRE WESCON
Network Toolbox User’s Guide, 6 ª edição, Convention Record, pp. 96-104.
2009. Mathworks, Natik, MA.
[3] Hassibi, Babak & Kailath, Thomas - H ∞
optimal training algorithms and their relation
to backpropagation, 1995.n dvances in
Neural Information Processing Systems, vol.
7, pp.191-198.
[4] Haykin, Simon – Redes neurais:
princípios e prática, 2 ª edição, 2001.
Bookman, PortoAlegre.
[5] Kettani, Houssain & Gubner, John A.-
Estimation of the long-range dependence
parameter of fractional arima processes,
2003. Proceedings of the 28th Annual IEEE
International Conference on Local Computer
Networks. IEEE.
[6] Leland, Will E. et. al. – On the Self-
Similar Nature of Ethernet Traffic, 1994.
IEEE/ACM Transactions on Networking.
IEEE
[7] Mandelbrot, B. B. – The Fractal
Geometry of Nature, 1983. Freeman, New
York.

S-ar putea să vă placă și