Documente Academic
Documente Profesional
Documente Cultură
Escola Politécnica
Autor:
_________________________________________________
Virgínia Elaine Licério dos Santos
Orientador:
_________________________________________________
Prof. Ricardo Rhomberg Martins, D.Sc.
Orientador:
_________________________________________________
Eng. Carlos Ribeiro da Cunha, Ph.D
Examinador:
_________________________________________________
Prof. Aloysio de Castro Pinto Pedroza, Dr.
Examinador:
_________________________________________________
Eng. Walderson João Rodrigues Vidal, M.Sc.
DEL
Agosto de 2014
i
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Escola Politécnica – Departamento de Eletrônica e de Computação
Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária
Rio de Janeiro – RJ CEP 21949-900
ii
DEDICATÓRIA
Aos meus pais, pelo incentivo e esforço durante todo o período de estudo e que
se dedicaram ao máximo para que me tornasse uma pessoa melhor, cidadã consciente e
profissional de sucesso.
Dedico também aos profissionais de telecomunicações. Que este trabalho seja
útil para muitas pessoas e empresas.
Que o prazer de Alexandre Graham Bell em estabelecer uma chamada telefônica
seja sentido por todos que desejam aprimorar essa grande invenção.
iii
AGRADECIMENTO
Primeiramente, agradeço a Deus, pois com a ajuda dEle tudo foi possível, e aos
meus pais pelo apoio e esforço para que pudesse alcançar o tão sonhado objetivo de ser
engenheira.
Agradeço também aos orientadores Prof. Ricardo Rhomberg, da Universidade
Federal do Rio de Janeiro, e o Eng. Carlos Cunha, da Embratel, pelas sugestões, críticas
e revisões que muito auxiliaram neste trabalho. Também agradeço ao Eng. Walderson
Vidal e ao Prof. Aloysio Pedroza que gentilmente aceitaram o convite de participação na
banca de defesa deste Projeto de graduação do curso de Engenharia Eletrônica e de
Computação.
Agradeço aos Srs. Carlos Silvino, Everton Martinho, Rodrigo Mano e Diogo
Siqueira da Embratel Star One que disponibilizaram parte do tempo para auxiliar na
configuração da topologia Satélite e esclareceu dúvidas sobre o assunto, até então,
desconhecidos.
E por fim, e não menos importante, agradeço também a todos os companheiros
de trabalho da Embratel CRT, amigos e familiares que viveram o dia-a-dia na busca
pelos resultados desse projeto e pelo apoio, ideias e ensinamentos durante os testes.
iv
RESUMO
v
ABSTRACT
This works aims to analyze the quality of VoIP calls using different codecs and
compare the performance obtained in two different scenarios. In the first topology, the
call was originated from a terrestrial link with limit of upload rate of 300kbit/s and
download rate of 1Mbit/s. In the second topology, the call originated from a satellite link
with guaranteed maximum upload rate of 200kbit/s and download rate of 1Mbit/s
To perform the tests was used the instrument Abacus 5000 from Spirent
Communication, which make voice calls and use objective methods for analysis of
voice quality in order to obtain the necessary measures to compare the codecs.
Furthermore, the instrument make it possible to change some parameters of the RTP
protocol, which allows analyzing the maximum number of simultaneous calls and the
voice quality obtained with each codec.
vi
SIGLAS
vii
R2D – R2 Digital
RF – Radiofrequência
RTCP – Real Time Control Protocol
RTP – Real-Time Transport Protocol
SIP – Session Initiation Protocol
SNR – Signal-to-Noise Ratio
TCP – Transmission Control Protocol
UDP – User Datagram Protocol
UFRJ – Universidade Federal do Rio de Janeiro
VoIP – Voice over IP
VSAT – Very Small Aperture Terminal
viii
Sumário
1 Introdução 1
1.4 – Objetivos.................................................................................................................. 2
2 Codificação de voz 4
ix
3 Métodos de avaliação 15
5 Resultados 29
6 Análise de Resultados 43
x
7 Conclusão 46
Bibliografia 48
A Evidências 50
xi
Lista de Figuras
Figura 5.1 – Gráfico do PESQ obtido com os codecs testados na topologia 1. ............. 32
Figura 5.3 – Gráfico da taxa de upload para diferentes tamanhos de payload testados na
topologia 1 ...................................................................................................................... 35
Figura 5.4 – Gráfico do PESQ obtido com os codecs testados na topologia 2 .............. 38
Figura 5.6 - Gráfico da taxa de upload para diferentes tamanhos de payload testados na
topologia 1 ...................................................................................................................... 42
xii
Lista de Tabelas
Tabela 5.9 – Medidas do PESQ para o codec G.711 A-Law na topologia 2 ................. 37
Tabela 5.10 – Medidas do PESQ para o codec G.711 µ-Law na topologia 2 ................ 38
Tabela 6.1 – PESQ em uma chamada para os codecs testados, nas duas
topologias.........................................................................................................................43
Tabela 6.2 – PESQ obtido para o limite de chamadas simultâneas dos codecs
testados ........................................................................................................................... 44
xiii
Capítulo 1
Introdução
1.1 – Tema
1.2 – Delimitação
Neste trabalho, foram escolhidos os codecs G.711 µ-Law, G.711 A-Law, G.726,
G723.1 e G.729B, pois são os mais utilizados nos meios de telecomunicações. As
topologias possuem características distintas, sendo uma utilizando um link terrestre
(baixos atraso e jitter) e outra um link satélite (altos atraso e jitter). Por meio de testes
em ambiente controlado foi analisado o desempenho dos cinco codecs nas duas
topologias.
1.3 – Justificativa
1
telefônicas. Com essa expansão, cresce a necessidade das operadoras de
telecomunicações de garantir a qualidade de voz das chamadas.
A escolha do codec utilizado na chamada influi diretamente na qualidade de voz
obtida e no número máximo de chamadas simultâneas. Além disso, o desempenho de
cada codec depende das características da topologia, tais com atraso e jitter. Por esse
motivo, viu-se a necessidade de avaliar a qualidade da voz utilizando diferentes codecs
e em duas topologias com características distintas.
1.4 – Objetivos
1.5 – Metodologia
2
Os testes foram realizados no Centro de Referência Tecnológica - Embratel
(CRT), localizado na Ilha da Fundão, na cidade do Rio de Janeiro. Todos os
equipamentos necessários foram cedidos pela Embratel durante a execução dos ensaios.
1.6 – Descrição
3
Capítulo 2
Codificação de voz
A voz é um conjunto de vibrações acústicas e a forma como ela se manifesta na
natureza é analógica. O sinal analógico produzido por essas vibrações é transformado
em um sinal digital antes de trafegar na rede telefônica. Quando chega no receptor, ele
é convertido de volta para a sua forma analógica e transformado pelo ouvido humano
em percepções ao cérebro, que identifica um padrão e monta uma mensagem [12].
2.1.1 – Digitalização
4
2.1.1.1 – Amostragem
Na amostragem, são retiradas amostras do sinal original para que seja possível a
reconstituição do sinal no receptor. Segundo o teorema de Nyquist, a frequência de
amostragem deve ser no mínimo duas vezes a maior frequência do espectro do sinal
analógico. O sinal resultante da amostragem ainda é um sinal analógico e após a
quantização e codificação é transformado em um sinal digital.
2.1.1.2 – Quantização
Uma vez que as amostras são adquiridas, um valor é atribuido para cada uma
através do processo de quantização, funcionando como uma espécie de
“arredondamento” dos diversos valores amostrados. Cada codec possui um valor limite
para cada amostra. O codec G.711, também conhecido como Pulse Code Modulation
(PCM), utiliza uma quantização com 8 bits (256 níveis de quantização) para representar
cada amostra e uma taxa de amostragem de 8.000 amostras por segundo, resultando em
uma taxa de 64kbits/s.
Os codecs utilizam métodos de compressão da voz humana, que reduzem a taxa
de transmissão de bits, retirando informações redundantes, previsíveis ou inúteis. A
compressão pode acontecer com ou sem perda de informação, dependendo da
degradação que se admite para o sinal e do fator de compressão que se deseja atingir.
Em contrapartida, tem como desvantagem o aumento do atraso e a perda da qualidade
do sinal.
2.1.1.3 – Codificação
5
Figura 2.2 – Processo de codificação
Fonte: http://www.teleco.com.br/tutoriais/tutorialconvdados/pagina_3.asp [12]
6
receptores dos pacotes RTP. O RTCP pode ser usado juntamente com o RTP, porém sua
utilização não é necessária para que o RTP funcione.
O pacote VoIP é formado pelo cabeçalho IP, cabeçalho UDP e cabeçalho RTP,
num total de 40 bytes, e finalmente o payload, que representa as amostras de voz. O
payload varia de 10 bytes até 240 bytes para o fluxo de voz. Para um payload de 20
bytes, temos que o cabeçalho do pacote VoIP é o dobro do payload. Conclui-se que a
transmissão de pouca informação por pacote é bastante ineficiente. Quanto maior o
payload, menor será o consumo de banda, porém maior será o tempo para transmitir
cada pacote devido ao aumento no atraso de empacotamento. Este atraso é o tempo
necessário para gerar um número suficiente de quadros de voz para preencher o payload
do pacote IP.
2.2 – Codecs
7
estatísticas, temporais ou espectrais. Normalmente são codificadores de baixa
complexidade e que introduzem um pequeno retardo na voz. Para taxas de transmissão
superiores a 16 kbps, produzem um sinal de voz com alta qualidade. Para taxas
inferiores a essa, a qualidade do sinal reconstituído degrada rapidamente.
8
possuem atrasos e complexidade elevados. A qualidade da voz é baixa, soando de forma
sintética. Seu principal uso são aplicações militares, na qual a fidelidade da voz não é
tão importante quanto à obtenção de uma baixa taxa de transmissão, para permitir
criptografia forte e pouca necessidade de banda.
Um tipo de vocoder muito utilizado é a Codificação Linear com Predição
(Linear Predictive Coding – LPC) que parte do princípio que o sinal de voz é gerado por
uma fonte no fim de um tubo. A fonte é o espaço que existe entre as cordas vocais e é
chamado glote. A glote emite um zumbido que pode ser caracterizado por sua
intensidade e frequência. O tubo é formado pela garganta e pela boca, estas podem ser
caracterizadas por suas frequências de ressonância, que são chamadas de frequências
formadoras. O efeito do tubo sobre o zumbido forma a voz. Através da análise do sinal
de voz, o LPC remove o efeito das frequências formadoras e faz uma estimativa da
intensidade e da frequência do zumbido restante. Após a remoção das frequências
formadoras, o zumbido restante é chamado de resíduo. Os valores que descrevem as
frequências formadoras e o resíduo são armazenados e transmitidos. No lado do
receptor, o LPC, a partir dos valores do resíduo reconstrói o sinal de excitação (o
zumbido), e com os valores das frequências formadoras ele constrói um filtro que
funcionará como o tubo. A fala é reconstituída através da passagem da excitação através
do filtro [14].
9
codificador envia apenas o código que representa o valor da tabela. O
receptor busca na sua tabela de resíduos o correspondente ao código
recebido, e então usa esse valor para excitar o filtro das frequências
formadoras.
Para conter todos os valores de resíduos é necessária uma tabela grande o
suficiente para conter todos os valores, aumentando muito o tempo de
procura pelo valor correto. Na prática são utilizadas duas tabelas. A
tabela fixa possui valores fixos de resíduos que são determinados durante
a construção do sistema. A tabela adaptativa é preenchida durante a
operação do sistema com cópias atrasadas do resíduo usado
anteriormente, onde o atraso representa a mudança de frequência [14].
2.2.1 – G.711
10
Características: No G711 [3], a quantização é realizada em escala logarítmica
com 256 níveis de quantização, o que define 8 bits por amostra. A codificação PCM
obedece ao critério de Nyquist, em que a frequência de amostragem é igual ou superior
ao dobro da maior frequência presente no espectro.
A codificação em telefonia utiliza uma frequência de amostragem de 8KHz
(8000 amostras do sinal de voz por segundo). Sendo assim, o sinal de voz com a
codificação PCM possui a taxa padrão 64k bits/seg (8000 amostras/seg x 8
bits/amostra).
Essa Recomendação prevê o uso de dois tratamentos de erros de quantização,
denominadas por Lei A (A-law) e Lei µ (µ-law). O G.711 converte a codificação PCM
uniforme de 14 bits para a codificação PCM A-law ou µ-law (quantização não
uniforme, ou compressão logarítmica) de oito bits e realiza uma quantização apurada
para sinais de voz de baixo nível e uma quantização grosseira para sinais de voz de alto
nível. O atraso do algoritmo é de apenas 0,125 ms com taxa de amostragem de 8000 Hz.
Na codificação PCM, quadro de 20 ms de voz é formado e empacotado para
transmissão na rede. O G.711 padrão não contém o algoritmo de ocultação de perda de
pacotes que é necessário para aplicações VOIP, pois compensa eventuais perdas de
pacotes. O apêndice I foi adicionado à recomendação G.711 em 1999 no qual contém
um algoritmo de baixa complexidade e alta qualidade para ocultação de perda de
pacotes [16].
2.2.2 – G.726
11
2.2.3 – G.729
G.729 - Anexo A
Em maio de 1996, foi apresentado o Anexo A da Norma, reduzindo sua
complexidade e mantendo a interoperabilidade com a G.729 original. O funcionamento
básico do algoritmo na G.729 Anexo A é o mesmo da G.729. As principais
simplificações feitas foram com relação à operação dos filtros e forma de busca nos
dicionários de vetores [16].
G.729 - Anexo B
O Anexo B foi aprovado em outubro de 1996 e descreve o detector de voz ativa
e gerador de ruído de conforto, ambos usados na compressão de silêncio, tanto na G.729
como na G.729 - Anexo A [16].
12
2.2.4 – G.723.1
13
parâmetros soma 158 bits, com taxa de 5,3 kbps (158 x 8000 / 240) [16].
A figura 2.3 sumariza as características dos diversos codificadores disponíveis
nos equipamentos de telecomunicações:
14
Capítulo 3
Métodos de avaliação
Com a popularização dos serviços de VoIP, surge a necessidade de se medir a
qualidade da fala em tais sistemas. Este capítulo trata dos métodos de avaliação da
qualidade de voz em uma rede IP.
Na recomendação P.10/G.100 [5] o MOS (Mean Opinion Score) é definido
como a média da pontuação das opiniões que são atribuídas para a performance dos
sistemas de telefonia usados tanto para conversação quanto para escuta. Apesar de a
opinião ser subjetiva, o MOS também é utilizado para pontuações originadas de
modelos objetivos. Para distinguir os tipos de avaliação são utilizados os seguintes
identificadores junto à abreviação MOS:
N = Narrow-band
W = Wide-band
LQ = Listening Quality
CQ = Conversational Quality
S = Subjective
O = Objective
E = Estimated
15
como MOS – Mean Opinion Score (Pontuação de Opinião Média), porém na realidade
essa é apenas uma das formas de pontuação citadas na Recomendação.
Nas mensurações subjetivas, usuários de um sistema de conversação em um
ambiente controlado opinam quanto a qualidade da voz escutada. A recomendação
P.800 do ITU-T define as seguintes classificações:
- Classificação por categoria absoluta (Absolute Category Rating - ACR), cujo
resultado é a pontuação de opinião média (MOS).
- Classificação por categoria de degradação (Degradation Category Rating -
DCR), cujo resultado é a pontuação de opinião média de degradação (DMOS).
- Classificação por categoria de comparação (CCR- Comparison Category
Rating), cujo resultado é a pontuação de opinião média de comparação (CMOS).
No ACR, os avaliadores escutam amostras de conversação na saída de um
sistema de comunicação avaliado, sem comparar com o sinal de referência. No DCR, a
amostra é avaliada pela degradação do material processado em relação ao material
original, sendo mais sensível à distinção de qualidade, em contraste com os testes tipo
ACR. O CCR distingue-se do DCR apenas pela ordem em que as amostras são
apresentadas aos ouvintes, sendo escolhidas aleatoriamente. O avaliador define qual é o
melhor sinal e quanto ele é melhor. O método mais utilizado dentre os três, tem sido o
Absolute Category Rating (ACR).
Os testes subjetivos apresentam algumas desvantagens. Fatores como o estado
de espírito do avaliador, o avaliador e o idioma utilizado influenciam consideravelmente
no resultado final. Para minimizar estes fatores, é necessária uma grande quantidade de
avaliadores, tornando o processo caro e complexo. Isto despertou a busca pelos métodos
objetivos.
16
Os algoritmos mais difundidos na literatura [16] e recomendados pelo ITU-T são
o PESQ (Perceptual Evaluation of Speech Quality) [7], INMD (In service, non intrusive
measurement device) [9], P.563 [10] e o Modelo E [17].
3.2.1 – PESQ
O PESQ (Perceptual Evaluation of Speech Quality) é um algoritmo de medida
objetiva da qualidade de voz que combina os méritos do PSQM [18], atualmente
retirada das recomendações da ITU-T devido a certas limitações em aplicações de áreas
específicas, e do PAMS desenvolvido pela Psytechnics [16]. Este método de avaliação
encontra-se definido na Recomendação P.862 da ITU-T [7].
O PESQ foi desenvolvido para medir precisamente as distorções causadas por
diferentes codecs, transcodificação (conversão de um formato digital em outro), erros de
transmissão, perda de pacotes, entre outros.
Como todo método perceptual, o processo de avaliação pode ser dividido em
três passos: inicialização dos sinais, modelamento perceptual e modelamento cognitivo.
Na fase de inicialização dos sinais, o alinhamento do tempo é feito da mesma forma que
no PAMS. Os sinais de entrada e saída do sistema sob teste são alinhados, para evitar o
problema de pontuação dúbia, como no PSQM. Os efeitos de atraso e de variações
lentas de atraso são removidos.
Na fase de modelamento perceptual, o sinal de referência e o degenerado são
transformados separadamente do domínio do tempo para um domínio bidimensional de
tempo-frequência, conforme o PSQM. Com intuito de representar melhor a
sensibilidade auditiva humana, as escalas de frequência e de sonoridade são convertidas
respectivamente para a escala de Bark e de Sone [16].
A fase de modelamento cognitivo é onde efetivamente ocorre a comparação
entre o sinal de entrada e saída e uma pontuação é gerada. No PESQ, dois tipos de
valores de distorção são calculados. Um deles é referente à variação brusca do atraso
detectado no processo de alinhamento de tempo. O outro valor é referente ao
processamento assimétrico que é efetuado no PSQM. Os resultados são combinados e
produzem uma pontuação que varia entre 0,5 e 4,5. Este valor pode ser mapeado para
um valor de MOS-LQO, conforme descrito na Recomendação P.862.1 do ITU-T [8]. A
tabela 3.1 apresenta a pontuação MOS e a avaliação correspondente.
17
Tabela 3.1 – Pontuação MOS e a avaliação correspondente
MOS Qualidade
5 Excelente
4 Boa
3 Regular
2 Pobre
1 Péssima
3.2.2 – INMD
O INMD (In service, non intrusive measuremente device) é um método objetivo
não intrusivo que analisa o sinal de voz degradado sem compará-lo com um sinal de
referência, não afetando o tráfego da rede. Para isto, captura parâmetros da rede tais
como atraso, jitter e perda de pacotes. Este método de avaliação encontra-se definido na
Recomendação P.561 da ITU-T [9].
O INMD foi desenvolvido originalmente para medir redes de comutação de
circuitos. Neste método são realizados dois tipos de medidas: caracterização do eco e
expressão e caracterização do ruído. Os parâmetros medidos pelo INMD são fortemente
relacionados com os parâmetros do Modelo E, podendo ser considerado como uma
medida complementar deste método.
O método INMD normalmente realiza medições no meio da rede, sendo uma
desvantagem na predição da qualidade da voz, já que os dados recebidos pelo método
diferem dos dados percebidos pelo usuário.
18
3.2.3 – P.563
O P.563 é um método não intrusivo resultante de um trabalho colaborativo entre
a Opticom, SwissQual e Psytechnics, que anteriormente à P.563 tinham suas próprias
versões proprietárias de software de análise da qualidade de voz. Este método de
avaliação encontra-se definido na Recomendação P.563 da ITU-T [10].
Diferentemente de outros algoritmos, não há um arquivo de áudio de referência
para comparar. Este método não injeta qualquer dado na rede e usa software para
análise do áudio a partir das chamadas em curso, obtendo um valor MOS.
3.2.4 – Modelo E
O modelo E foi desenvolvido pelo ETSI (Instituto Europeu de Padronização em
telecomunicações) e está definido nas Recomendações G.107 e G.108 da ITU-T [17]. É
um método objetivo paramétrico que analisa o sinal analógico de voz, baseando-se não
somente nos parâmetros capturados da rede. Além disso, não afeta o tráfego da rede, já
que não injeta arquivo de áudio de referência.
Através de um modelo computacional de avaliação, cada elemento contribuinte
para a degradação na qualidade da fala é associado a um valor numérico denominado
fator de perda. Os fatores de perda são computados pelo modelo E, fornecendo um valor
de avaliação R, entre 0 e 100. Uma pontuação próxima de cem indica ótima qualidade
de voz, enquanto que pontuação próxima de zero indica qualidade péssima. Este valor
pode ser relacionado a um valor de MOS, através da fórmula:
19
O componente “Ro” representa os efeitos da relação sinal ruído (SNR) e é
composto por fontes de ruído, tais como ruídos provenientes de circuitos de transmissão
e ruído ambiente.
O componente Is representa as perdas na qualidade da comunicação que
ocorrem simultaneamente ao sinal de voz que é transmitido. É composto por perdas
devido a excesso de volume, perdas ocasionadas durante o caminho que a voz do
locutor percorre até seu microfone e perdas causadas pela distorção de quantização,
sofridas durante o processo de digitalização e codificação da voz.
O componente Id representa o fator de perdas na qualidade da comunicação
associadas ao atraso de transmissão e compreende a soma de perdas devido ao eco no
transmissor e no receptor e a perdas relacionadas ao atraso absoluto da voz.
O componente Ie representa as perdas associadas à tecnologia utilizada e é
dependente do tipo de Codec, no caso de VoIP.
O componente A corresponde fator de expectativa, definindo um grau de
tolerância que um usuário espera pelo uso da tecnologia. Por exemplo, se os utilizadores
estão cientes de que estão se comunicando utilizando link satélite, serão mais tolerantes
com a degeneração devido aos longos atrasos.
A desvantagem deste método é o fato de não levar em consideração o jitter no
cálculo do fator R, sendo que é de grande influência na qualidade de voz.
20
Capítulo 4
21
Figura 4.1 – Topologia 1
22
service-policy input RATE_LIMIT
service-policy output LIMIT_OUT
Configuração da interface
interface GigabitEthernet1/8
description ABACUS
vrf forwarding NGN-VOZ
ip address 172.16.6.1 255.255.255.240
mpls propagate-cos
23
4.1.2 Topologia Satélite
A topologia 2 (figura 4.2) utiliza os mesmos equipamentos necessários para a
realização das chamadas de voz da topologia 1, mudando apenas a forma de acesso.
24
Fisicamente, o instrumento utilizado para realizar as chamadas foi conectado da
seguinte forma:
Porta 1 - Conectada a um modem Skyedge I da Gilat (IDU - “indoor
unit”) através de uma porta Ethernet. Este modem ”), mostrado na figura 4.4, é
conectado por meio de cabos coaxiais a uma Unidade Externa (ODU –
“outdoor unit composta pela antena (figura 4.3), alimentador e a parte de RF, o
transmissor e o receptor propriamente dito. Possui taxa garantida de 200kbit/s
de upload e 1Mbit/s de download.
25
com as mesmas configurações. Não foi realizada nenhuma configuração de
limitação de banda nesta interface, limitando-se apenas pela característica da
porta de 1Gbit/s.
4.2 – Instrumento
O Abacus 5000 é um instrumento de teste utilizado para realizar chamadas
telefônicas. Suporta diversos tipos de protocolos de sinalização, incluindo SIP, R2D e
ISUP. Possui recursos de análise de qualidade de voz e alteração de alguns parâmetros
dos protocolos [13].
Para a análise de qualidade de voz é possível escolher entre os métodos de
avaliação PSQM, PSQM+ e PESQ.
As pontuações obtidas como resultados das análises da qualidade de voz são:
PSQM – A pontuação é obtida a partir do algoritmo PSQM que compara
o sinal original com o sinal que foi enviado e recebido. A faixa do resultado é
entre 0 e 6,5, no qual 0 indica uma boa avaliação e 6.5 uma avaliação ruim.
26
MOS-LQO – É calculado através do valor do PESQ usando a equação:
o Para PESQ ≤ 1.7 então MOS-LQO = 1.0
o Para PESQ > 1.7 então MOS-LQO =
Este valor é similar à pontuação MOS, mas permite alcançar uma correlação
maior em um conjunto menor de dados.
27
O originador da chamada envia a voz para o receptor e espera a
confirmação durante um tempo estabelecido. O número de tentativas e
o tempo de espera da confirmação de caminho podem ser alterados no
instrumento. Foram utilizadas 10 tentativas com o tempo de espera de 2
segundos. O Abacus retorna um erro de “No path confirmation” quando
esgota as tentativas de confirmação de caminho.
O procedimento foi repetido aumentando o número de chamadas
simultâneas até um limite em que o instrumento retorna o erro de “No
path confirmation” e finaliza as chamadas dos canais de voz que
produziram este erro. A não confirmação do caminho pode ocorrer por
perda de pacotes ou atraso na recepção da confirmação.
28
Capítulo 5
Resultados
Neste capítulo, são apresentados os resultados dos testes realizados. Esses testes
tiveram como objetivo comparar o desempenho dos codecs G711 µ-Law, G711 A-Law,
G726, G729B e G723.1.
Conforme citado anteriormente, os testes foram divididos em duas topologias:
Topologia 1 – Chamada originada de um acesso via satélite com
limitação de taxa de upload de 200kbit/s e de download de 1000kbit/s e
recebida em um acesso ao backbone sem limitação de banda, através de
uma porta GigabitEthernet do roteador de borda.
Topologia 2 – Chamada originada de um acesso ao backbone através de
uma porta GigabitEthernet do roteador de borda, com limitação de
upload de 300kbit/s e de download de 1000kbit/s e recebida em um
acesso ao backbone através de uma porta GigabitEthernet do roteador de
borda, sem limitação de banda.
A seguir, são discutidos, detalhadamente, cada um dos cenários citados acima.
Para cada codec foram realizadas três repetições de chamadas de voz resultando
em um valor médio das medidas. O mesmo procedimento foi realizado aumentando o
número de chamadas simultâneas, conforme detalhado no item 4.3.1.
Na topologia 1, a porta 1 do Abacus é a originadora da chamada e está conectada
ao roteador de borda, com limitação de 300kbit/s de upload e 1Mbit/s de download. A
porta 2 é a receptora da chamada e está conectada ao roteador de borda do Backbone,
sem limitação de banda.
As tabelas abaixo apresentam os resultados das médias dos valores PESQ dos
canais originadores e terminadores de cada codec:
29
Tabela 5.1 – Medidas do PESQ para o codec G.723.1 na topologia 1
Número
de G.723.1
chamadas
Originador Erro Receptor Erro
1 3,892 0,000 3,892 0,000
2 3,892 0,000 3,892 0,000
3 3,892 0,000 3,892 0,000
4 3,892 0,000 3,892 0,000
5 3,892 0,000 3,892 0,000
6 3,892 0,000 3,892 0,000
7 3,892 0,000 3,892 0,000
8 3,892 0,000 3,892 0,000
9 3,892 0,000 3,892 0,000
10 3,892 0,000 3,892 0,000
11 3,892 0,000 3,892 0,000
12 3,892 0,000 3,892 0,000
13 3,892 0,000 3,892 0,000
14 3,892 0,011 3,788 0,011
30
Tabela 5.3 – Medidas do PESQ para o codec G.726 na topologia 1
Número
de G.726
chamadas
Originador Erro Receptor Erro
1 4,213 0,000 4,213 0,000
2 4,213 0,000 4,213 0,000
3 4,213 0,000 4,213 0,000
4 4,213 0,000 4,213 0,000
5 4,213 0,000 4,213 0,000
31
Figura 5.1 – Gráfico do PESQ obtido com os codecs testados na topologia 1.
32
G 711 µ-law G 711 µ-law
3 chamadas 4 chamadas
G726 G726
5 chamadas 6 chamadas
G729B G729B
9 chamadas 10 chamadas
33
G723.1 G723.1
14 chamadas 15 chamadas
34
G 729B - 100 ms de payload G 729B - 100 ms de payload
22 chamadas 23 chamadas
G 729B - 50 ms de payload
13 chamadas G 729B - 50 ms de payload
14 chamadas
Figura 5.3 – Gráfico da taxa de upload para diferentes tamanhos de payload testados na topologia 1
35
A banda utilizada pode ser calculada utilizando a seguinte fórmula:
Tamanho total do pacote = (Cabeçalho L2) + (cabeçalho IP/UDP/RTP) + Payload
PPS = (taxa de codificação) / (Payload) , onde PPS = Pacotes por segundo
Banda = Tamanho total do pacote * PPS
36
Tabela 5.7 – Medidas do PESQ para o codec G.729B na topologia 2
Número
de G729B
chamadas
Originador Erro Receptor Erro
1 4,028 0,000 4,028 0,000
2 4,028 0,000 4,028 0,000
3 4,028 0,000 4,028 0,000
4 4,028 0,000 4,028 0,000
5 4,025 0,000 4,028 0,000
6 4,028 0,000 4,028 0,000
7 4,027 0,015 3,933 0,015
37
Tabela 5.10 – Medidas do PESQ para o codec G.711 µ-Law na topologia 2
Número
de
G.711 µ-Law
chamadas
Figura
38
A figura 5.5 mostra o gráfico da taxa de upload para o número máximo de
chamadas simultâneas (esquerda) e para este mesmo número adicionado de uma
chamada (direita). Estes gráficos foram capturados por meio da ferramenta Wireshark
que monitorava a porta 1 do Abacus, originadora das chamadas.
A VSAT foi configurada com uma limitação de 256Kbit/s de taxa de upload e
utiliza uma técnica de compressão de dados que possibilita um número maior de
chamadas simultâneas utilizando a mesma banda. Entretanto, ao realizar um número de
chamadas simultâneas que consomem mais do que o limite especificado da taxa de
upload, as chamadas apresentam um decaimento na qualidade de voz. No gráfico X
nota-se, por exemplo, que para o G726 é possível realizar 6 chamadas simultâneas
consumindo mais que 300kbits/s, porém o PESQ decaiu para 1,981 demontrando uma
degradação na voz percebida pelo receptor.
39
G726 G726
6 chamadas 7 chamadas
G729 G729
7 chamadas 8 chamadas
G723.1 G723.1
12 chamadas 13 chamadas
40
5.2.2 – Análise do payload
A análise de payload realizada na topologia 1 foi repetida na topologia 2
utilizando o codec G729B e os tamanhos de 20, 50, 100 e 200 ms de payload.
Os gráficos da figura 5.6 mostram a taxa de upload para o número máximo de
chamadas simultâneas (esquerda) e para este mesmo número adicionado de uma
chamada (direita). Estes gráficos foram capturados por meio da ferramenta Wireshark
que monitorava a porta 1 do Abacus originadora das chamadas.
Observa-se pelos gráficos na figura 5.6 que a taxa de upload diminui ao
aumentar o payload, porém o limite de chamadas simultâneas não aumenta. A
justificativa para este fato é o aumento do atraso de processamento, agregado ao atraso
inerente ao link satélite.
41
G 729B - 50 ms de payload G 729B - 50 ms de payload
13 chamadas 14 chamadas
Figura 5.6 - Gráfico da taxa de upload para diferentes tamanhos de payload testados na topologia 1
42
Capítulo 6
Análise de Resultados
Os resultados dos testes, para cada topologia proposta, foram apresentados no
capítulo 5 e são analisados neste capítulo. A tabela 6.1 mostra a pontuação PESQ obtida
em uma chamada para os cinco codecs testados, nas duas topologias.
Tabela 6.1 – PESQ em uma chamada para os codecs testados, nas duas topologias
Topologia 1 Topologia 2
Codec Usuário
PESQ
Originador 4,500 4,500
G.711 µ-Law
Receptor 4,500 4,500
Originador 4,187 4,187
G.711 A-Law
Receptor 4,187 4,187
Originador 4,213 4,213
G.726
Receptor 4,213 4,213
Originador 4,028 4,028
G.729B
Receptor 4,028 4,028
Originador 3,892 3,892
G.723.1
Receptor 3,892 3,892
43
Tabela 6.2 – PESQ obtido para o limite de chamadas simultâneas dos codecs testados
Topologia 1 Topologia 2
Codec Usuário Limite de Limite de
PESQ PESQ
Chamadas Chamadas
Originador 4,500 4,498
G.711 µ-Law 3 3
Receptor 4,500 4,349
Originador 4,187 4,184
G.711 A-Law 3 3
Receptor 4,187 4,032
Originador 4,213 3,961
G.726 5 5
Receptor 4,213 3,490
Originador 4,028 4,027
G.729B 9 7
Receptor 4,028 3,933
Originador 3,892 3,892
G.723.1 14 12
Receptor 3,788 3,772
45
Capítulo 7
Conclusão
Este trabalho teve como objetivo principal avaliar a qualidade das chamadas
realizadas com cinco codecs diferentes: G.711 µ-Law, G.711 A-Law, G.726, G.729B e
G.723.1. Foram utilizadas duas topologias com características distintas que afetam
diretamente na qualidade de voz, tais como atraso e jitter. Na primeira topologia, a
chamada era originada a partir de um link terrestre com conexão direta ao roteador de
borda do backbone e limitação de 300kbit/s de upload e 1Mbit/s de download. Na
segunda topologia, a chamada era originada a partir de um link satélite com limitação
garantida de 200kbit/s de upload e 1Mbit/s de download. Em ambos os casos, a
recepção da chamada foi realizada a partir de um link terrestre com conexão direta ao
roteador de borda do backbone sem limitação de banda.
Na topologia 1, considerando o PESQ e o número de chamadas simultâneas, a
escolha do codec pode ser feita da seguinte forma:
Até 3 chamadas simultâneas – G.711 µ-Law
4 e 5 chamadas simultâneas – G.726
De 6 a 9 chamadas simultâneas – G.729B
De 10 a 14 chamadas simultâneas – G.723.1
O G.711 A-law foi o codec que apresentou o pior desempenho considerando o
PESQ e o número de chamadas simultâneas. Com o G.711 µ-Law também é possível
realizar no máximo 3 chamadas simultâneas, porém possui uma pontuação PESQ
melhor que o G.711 A-law. Por este motivo, o G.711 A-Law foi descartado na escolha
entre os cinco codecs.
Na topologia 2, considerando o PESQ e o número de chamadas simultâneas, a
escolha do codec pode ser feita da seguinte forma:
Até 3 chamadas simultâneas – G.711 µ-Law
De 4 a 7 chamadas simultâneas – G.729B
De 8 a 12 chamadas simultâneas – G.723.1
Da mesma forma que na topologia 1, o G.711 A-law foi descartado devido ao
seu baixo desempenho em relação aos demais. Na topologia 2, o uso do G726 também
46
foi descartado por ser o codec que apresentou o pior PESQ e um baixo limite de
chamadas simultâneas comparado ao G.723.1.
Das duas análises conclui-se que a escolha do melhor codec deve levar em
consideração o número de chamadas simultâneas que poderão ser realizadas. Além
disso, o aumento do payload não é uma solução válida em qualquer topologia para
aumento do número máximo de chamadas simultâneas. Como pode ser observado nos
resultados da análise de payload da topologia 2, o número de chamadas simultâneas não
aumentou ao aumentar o tamanho do payload para 100ms e 200ms, devido o atraso de
processamento e o atraso inerente ao link.
Como sugestão para trabalhos futuros, na mesma linha deste trabalho, proponho
a análise de qualidade de chamadas de voz utilizando supressão de silêncio (Voice
Activity Detection) e compressão de cabeçalho (RTP Header-Compression).
47
Bibliografia
[1] Recomendação ITU-T G.729, “Coding of speech at 8Kbit/s using conjugate
structure algebraic-code-excited linear prediction (CS-ACELP)”, 2007
[2] Recomendação ITU-T G.726, “40, 32, 24, 16 kbit/s Adaptive Differential Pulse
Code Modulation (ADPCM)”, 1990
[3] Recomendação ITU-T G.711, “Pulse Code Modulation (PCM) of voice
frequencies”, 1988
[4] Recomendação ITU-T G.723.1, “Dual rate speech coder for multimedia
communications transmitting at 5.3 and 6.3 kbit/s”, 2006
[5] Recomendação ITU-T P.10/G.100, “Vocabulary for performance and quality of
Service”, 2006
[6] Recomendação ITU-T P.800, “Methods for subjective determination of transmission
quality”, 1996
[7] Recomendação ITU-T P.862, “Perceptual evaluation of speech quality (PESQ): An
objective method for end-to-end speech quality assessment of narrow-band telephone
networks and speech codecs”, 2001
[8] Recomendação ITU-T P.862.1, “Mapping function for transforming P.862 raw
result scores to MOS-LQO”, 2003
[9] Recomendação ITU-T P.561, “In-service non-intrusive measurement device - Voice
service measurements”, 2002
[10] Recomendação ITU-T P.563, “Single-ended method for objective speech quality
assessment in narrow-band telephony applications”, 2004
[11] THERDPONG DAENGSI, “VoIP Quality Measurement: Recommendation of MOS
And Enhanced Objective Measurement Method For Standard Thai Spoken Language”,
http://www.academia.edu/4531554/PhD_Thesis_VoIP_Quality_Measurement_Recomm
endation_of_MOS_and_Enhanced_Objective_Measurement_Method_for_Standard_Th
ai_Spoken_Language, 2012 (Acesso em Julho de 2014)
[12] ALESSANDRO CAMPOS, “Telefonia Digital: A Convergência de Voz em
Dados”, http://www.teleco.com.br/tutoriais/tutorialconvdados/pagina_3.asp, 2007
(Acesso em Julho de 2014)
[13] “Software Manual Abacus 5000 IP Telephony Migration Test System”, Spirent
Communications, 2009.
48
[14] BRENNO MARTINEZ, GIORGIO ZONTA, GISAH KÜSTER, GUSTAVO
SOUZA,WILSON MAIA FILHO, “Codificação de voz (CS-ACELP)”,
http://www.cricte2004.eletrica.ufpr.br/edu/anterior/pds01/trab3/acelp/, 2002 (Acesso em
Julho de 2014)
[15] BRUCE HARTPENCE, “Packet Guide to Voice over IP”, O´Reilly, 2013
[16] MARCELO FREITAS, “A qualidade da voz em sistemas de telecomunicações”,
http://www.ppgeet.uff.br/index.php/historico/category/4-2009?download=22:disserta-
marcelo-freitas-26-10-2009, 2009 (Acesso em Julho de 2014)
[17] Recomendação ITU-T G.107, “The E-model, a computational model for use in
transmission planning”, 2000
[18] Recomendação ITU-T P.861 “Objective quality measurement of telephone-band
(300-3400 Hz) speech codecs”, 1996
49
Apêndice A
Evidências
As evidências dos resultados dos testes são apresentadas a seguir:
G.729 B - TERRESTRE
1 chamada
Teste 1
Teste 2
Teste 3
2 chamadas
Teste 1
50
Teste 2
Teste 3
3 chamadas
Teste 1
Teste 2
Teste 3
51
4 chamadas
Teste 2
Teste 3
5 chamadas
Teste 1
Teste 2
52
Teste 3
6 chamadas
Teste 1
Teste 2
Teste 3
7 chamadas
Teste 1
53
Teste 2
Teste 3
8 chamadas
Teste1
Teste 2
Teste 3
54
9 chamadas
Teste 1
Teste 2
Teste 3
Teste 2
55
Teste 3
2 chamadas
Teste 2
Teste 3
3 chamadas
Teste 1
56
Teste 2
Teste 3
Teste 2
Teste 3
57
2 chamadas
Teste 1
Teste 2
Teste 3
3 chamadas
Teste 1
Teste2
58
Teste 3
G.723.1 - TERRESTRE
1 chamada
Teste 1
Teste 2
Teste 3
2 chamadas
Teste 1
59
Teste 2
Teste 3
3 chamadas
Teste 2
Teste 3
60
4 chamadas
Teste 1
Teste 2
Teste 3
5 chamadas
Teste 1
Teste 2
61
Teste 3
6 chamadas
Teste 1
Teste2
Teste3
7 chamadas
Teste 1
62
Teste 2
Teste 3
8 chamadas
Teste 1
Teste 2
Teste 3
63
9 chamadas
Teste 2
Teste 3
10 chamadas
Teste 2
64
Teste 3
11 chamadas
Teste 2
Teste 3
12 chamadas
65
Teste 2
Teste 3
13 chamadas
Teste 2
Teste 3
66
14 chamadas
Teste 2
Teste 3
G.726 - TERRESTRE
1 chamada
Teste 2
67
Teste 3
2 chamadas
Teste 1
Teste 2
Teste 3
3 chamadas
Teste 1
68
Teste 2
Teste 3
4 chamadas
Teste 2
Teste 3
69
5 chamadas
Teste 2
Teste 3
G.729 B Satélite
1 chamada
Teste 1
Teste 2
70
Teste 3
2 chamadas
Teste 1
Teste 2
Teste 3
3 chamadas
Teste 1
71
Teste 2
Teste 3
4 chamadas
Teste 1
Teste 2
Teste 3
72
5 chamadas
Teste 1
Teste 2
Teste 3
6 chamadas
Teste 1
Teste 2
73
Teste 3
7 chamadas
Teste 1
Teste 2
Teste 3
74
Teste 2
Teste 3
2 chamadas
Teste 1
Teste 2
Teste 3
75
3 chamadas
Teste 1
Teste 2
Teste 3
4 chamadas
Teste 1
Teste 2
76
Teste 3
Teste 2
Teste 3
2 chamadas
77
Teste 2
Teste3
3 chamadas
Teste 1
Teste2
Teste 3
78
4 CHAMADAS
Teste 1
Teste 2
Teste 3
G.726 - SATÉLITE
1 chamada
Teste 1
Teste 2
79
Teste 3
2 chamadas
Teste 1
Teste 2
Teste 3
3 chamadas
Teste 1
80
Teste 2
Teste 3
4 chamadas
Teste 1
Teste 2
Teste 3
5 chamadas
81
Teste 1
Teste 2
Teste 3
6 chamadas
Teste 1
Teste 2
Teste 3
82
G.723 - SATÉLITE
1 chamada
Teste 1
Teste 2
Teste 3
2 chamadas
Teste 1
Teste 2
83
Teste 3
3 chamadas
Teste 1
Teste 2
Teste 3
4 chamadas
84
Teste 1
Teste 2
Teste 3
5 chamadas
Teste 1
Teste 2
Teste 3
85
6 chamadas
Teste 1
Teste 2
Teste 3
7 chamadas
Teste 1
86
Teste 2
Teste 3
8 chamadas
Teste 1
Teste 2
Teste 3
9 chamadas
87
Teste 1
Teste 2
Teste 3
10 chamadas
Teste 1
Teste 2
88
Teste 3
11 chamadas
Teste 1
Teste 2
Teste 3
12 chamadas
Teste 1
Teste 2
89
Teste 3
Payload 200
1 chamada
2 chamadas
3 chamadas
4 chamadas
90
5 chamadas
6 chamadas
7 chamadas
8 chamadas
9 chamadas
91
10 chamadas
11 chamadas
12 chamadas
13 chamadas
Payload 100
92
1 chamada
2 chamadas
3 chamadas
4 chamadas
5 chamadas
93
6 chamadas
7 chamadas
8 chamadas
9 chamadas
10 chamadas
94
11 chamadas
12 chamadas
13 chamadas
Payload 50
1 chamada
2 chamadas
95
3 chamadas
4 chamadas
5 chamadas
6 chamadas
7 chamadas
96
8 chamadas
9 chamadas
10 chamadas
11 chamadas
12 chamadas
97
13 chamadas
98