Sunteți pe pagina 1din 15

2015

Relatrio sobre Pontos Crticos - PRF

Gilmar Correa dos Santos


Consultor Ministrio da Justia
9/11/2015

RESUMO

Este documento apresenta avaliao sobre o ambiente de dados da Polcia


Rodoviria Federal (PRF) no que diz respeito a qualidade dos dados de localizao
geogrfica disponvel no contexto BrBrasil em relao as ocorrncias de Acidentes
Graves, ou seja, acidentes que tenha resultado em, pelo menos, um ferido grave ou
morto. Sendo o objetivo da consultoria gerar extrao de dados dessas ocorrncias
e disponibiliz-las sociedade sob o ttulo de dados abertos.

NDICE
I.INTRODUO........................................................................................................................4
II.DESENVOLVIMENTO..........................................................................................................5
III.ANLISE DOS RESULTADOS......................................................................................... 10
IV.CONCLUSO......................................................................................................................11

I.

INTRODUO

A administrao do conhecimento, para lana mo da definio utilizada por


(DAVENPORT e PRUSAK, 1998), requer domnio na organizao e operao com
grandes volumes de dados procedentes de diversas origens e com diferentes
formatos. Lidar com a diversidade de origens e formatos, alm dos grandes volumes
um dos maiores desafios da ltima dcada (DAVENPORT, BARTH e BEAN, 2012).
Isso ocorre devido ao crescimento exponencial na gerao de dados pela sociedade
e a necessidade de abstrair informaes por meio de anlises consistentes
(ISOTANI e BITTENCOURT, 2008).
Outro desafio importante, alm da administrao do conhecimento e
associado a administrao do conhecimento, fazer com que a informao seja
espacializada, ou seja, posicionada no espao geogrfico. Nesse contexto, de
fundamental importncia para divulgao sociedade de dados consistentes que os
dados da ocorrncia estejam incorporados da informao geogrfica (CMARA,
DAVIS e MONTEIRO, 2014).
O objetivo geral dessa consultoria foi construir um modelo de integrao
entre a PRF e o Ministrio da Justia (MJ). O objetivo imediato integrar os dados
sobre ocorrncias classificadas como acidentes graves e distribuir essa informao
sob o ttulo de dados abertos afim de auxiliar no processo de reduo de mortes em
estradas brasileiras pelo alerta preciso ao cidado sobre os pontos crticos em
quantidade de acidentes.
Nesse processo encontramos alguns percalos que so relatados nesse
documento e, no obstante, registramos as aes de contorno adotadas para que se
possa alcanar sucesso nesta tarefa.
Para extrao dos dados se utilizou das metodologias de minerao de
dados (BRAGA, 2005). Desta forma, prospectou-se da base de dados BrBrasil os
dados referentes a ocorrncias de acidentes graves em rodovias federais brasileiras.

II.

DESENVOLVIMENTO

Anlise Inicial

Para a construo do processo de minerao de dados procurou-se


entender as relaes dos dados armazenados na tabela ocorrencia, entidade que
armazena os dados referentes a ocorrncias em Rodovias Federais Brasileiras, do
banco de dados do contexto BrBrasil. Identificou-se as relaes dessa entidade de
dados com outras entidades que pudessem complementar o entendimento dos
requisitos necessrios para gerar as sadas esperadas pelo requisito de negcio. As
tabelas encontradas, para o relacionamento foram:
1 ocorrenciapessoa entidade de relacionamento entre a entidade
ocorrencia e a entidade pessoa;
2 pessoa entidade que armazena as pessoas envolvidas na ocorrncia;
3 ocorrenciaveiculo entidade de relacionamento entre a entidade
ocorrencia e a entidade veiculo;
4 veiculo entidade que armazena os veculos envolvidos na ocorrncia;
5 localbr entidade que armazena o local da BR (Rodovia) que ocorreu o
acidente;
6 pnv entidade que armazena os trechos, segundo a definio do DNIT,
publicados no SNV;
7 municpio entidade que armazena os municpios brasileiros.

Identificadas as relaes, construiu-se consulta que recuperasse as


seguintes informaes:
1. ocorrencia.ocoid (Identificador da ocorrncia);
2. localbr.lbruf (UF do local do acidente);
3. localbr.lbrbr (BR do local do acidente);
4. localbr.lbrkm (KM do acidente na Rodovia);

5. pnv.codigo (Cdigo do trecho do local do acidente,


segundo o SNV);
6. municipio.tmudenominacao (Municpio do Acidente);
7. pnv.descricao_dprf (Descrio do trecho segundo a
PRF);
8. pnv.km_inicial (KM inicial do trecho do acidente
segundo o PNV);
9. pnv.km_fim (KM final do trecho do acidente segundo o
PNV);
10. pnv.extensao (Extenso do trecho segundo o PNV).
Regras aplicadas na minerao:
a. O primeiro tratamento aplicado para a minerao dos dados foi
aplicar a diviso na extenso dos trechos em comprimentos
regulares de 10 km. Esse tratamento se deu pela razo de que o
DNIT trata os trechos pelas caractersticas de uniformidade de
paisagem, obras de artes e outros qualificadores da rodovia.
Enquanto, a PRF distribui os trechos em intervalos regulares de 10
km. Tabela apresentando tratamento estatstico sobre a extenso
dos trechos segundo definio do DNIT:
Tabela 1: Extenses de trechos definidos pelo DNIT, segundo
SNV 2015.
Tipo de dimenso

Extenso (KM)

Trecho mais extenso

99,00

Trecho menos extenso

0,10

Extenso mdia

19,32

Extenso mediana

13,00

Extenso mais frequente (moda)

12,00

Ao analisar esses resultados conclui-se que a extenso mediana


(desconsiderando-se os extremos), adotada pelo DNIT, de 13 KM
e a moda (extenso mais frequente) de 12 KM. Isso bem
prximo da extenso de 10 km adotados pela PRF. Desta feita,
procurou-se adotar os registros de latitude e longitude vlidas
cadastrados na entidade localbr referentes ao incio e fim de cada
trecho de 10 km. Para as latitudes e longitudes que, nesta entidade,
esto sem referncia ou pontos que no esto sobre rodovias,
foram adotadas as latitudes e longitudes registradas no SNV do
DNIT;
b. A prospeco dos dados considera o intervalo de um ano a partir do
ms anterior ao atual at o mesmo ms do ano anterior;
c. Selecionou-se pessoas cujo estado fsico atributo identificador na
entidade pessoa.pesestadofisico correspondesse aos valores 3 e 4,
ou seja, estado fsico da vtima (Feridos Graves ou Mortos);
d. Desprezou-se registro cujo identificador na entidade de dados pnv
correspondesse a 1, ou seja, no definidos.
Prospeco de dados via IBM/DataStage

Para o processo de integrao dos dados originrios do contexto BrBrasil, foi


necessria a construo de um job de extrao e transformao de dados utilizando
a ferramenta IBM/DataStage (BALLARD, BHAT, et al., 2012).

Figura 1: Imagem do Job de Extrao de Pontos Crticos

Durante o processo de integrao, observou a necessidade de integrao


entre o repositrio de dados abertos da PRF com o portal de dados aberto do MJ,
por intermdio da API de upload da ferramenta CKAN (SOURCE WIKIPEDIA, 2013).
Para esse fim foi construdo um script em linguagem de programao python
(LANGTANGEN, 2004) que acessa o WebDAV (DUSSEAULT, 2004) owncloud da
PRF e transfere os arquivos encontrados para o repositrio de dados abertos do MJ.
Durante a construo do processo de extrao e tratamento de dados
referentes a acidentes graves, foi observado que os dados recuperados
apresentavam inconsistncia com relao a informao de localizao geogrfica do
local de ocorrncia dos acidentes classificados como graves registradas na entidade
de dados localbr. A razo da inconsistncia era que a informao armazenada nesta
entidade de dados do contexto de dados BRBrasil, apresentava menos de 40% do
registro com valores vlidos para latitude e longitude. Conforme tabela abaixo:
Tabela 2 Quantidade de registros de ocorrncia de acidentes
graves no ano 2015, extrados do contexto BRBrasil da PRF
Tipo de extrao
Ocorrncias registradas com

Quantidade

Percentual

22.117

60%

14.745

40%

valores nulos ou em branco


para latitude e longitude
Quantidade de valores com
valores vlidos para latitude e

longitude
Total

de

ocorrncias

36.862

100%

registradas

Essa inconsistncia compromete em muito a qualidade da informao


divulgada. Para contornar esse obstculo adotou-se as seguintes estratgias:

i.

Utilizou-se o conceito adotado pela PRF, onde os trechos so padronizados

em extenso mxima de 10 km. Porm, no existe, no contexto BrBrasil, informao


posicional na delimitao desses trechos. Utilizando esse conceito possvel
identificar a ocorrncia de acidentes graves agrupados por extenso de 10 km e
levantar as maiores ocorrncias num perodo. Por outro lado, mediante a anlise
estatstica apresentada na tabela 1, se nota que possvel compartilhar as
informaes de localizao do DNIT com os dados de ocorrncia extrados do
contexto BrBrasil considerando trechos de 10 km.

Registro do mecanismo de publicao de dados

O processo de publicao dos arquivos no diretrio pontosCriticos na


owncloud, que se encontra em https://www1.prf.gov.br/arquivos/ em que o usurio de
acesso dtstage e a senha do usurio: dtstage123 (desconsiderar as aspas).
Quando os arquivos so gerados pela ferramenta IBM/DataStage esses so
depositados em link de compartilhamento endereado a pasta webdav do owncloud
a partir do servidor que hospeda o IBM/DataStage.
O job denominado JOB_PONTOS_CRITICOS do IBM/DataStage no projeto
IntegraoMJ tem execuo agendada para o primeiro dia de cada ms e a
periodicidade vai do ms anterior ao atual at um ano atrs. So recuperados os
primeiros 1.000 registros de ocorrncia classificadas como acidentes graves.

10

I.

ANLISE DOS RESULTADOS

Os resultados, obtidos neste processo de integrao, foram os seguintes:


i. Construo de um processo de extrao, via IBM/DataStage,
que recupere os dados do contexto BrBrasil e gere arquivos
de sada em formato (.xml) e (.json);
ii. Configurao de soluo webdav owncloud para permitir a
integrao entre PRF e MJ;

11

II.

CONCLUSO

Durante processo de minerao e integrao para acidentes graves


deparamos com obstculos relacionados a qualidade dos dados posicionais
registrados no contexto BrBrasil. Notamos que o maior problema reside na qualidade
dos dados das entidades de dados localbr, municipio e pnv.
Anlise dessas entidades de dados:
a) Com relao a localbr o problema consiste na qualidade dos dados de
localizao geogrfica. No contexto BrBrasil no se tem forma de
desprezar as informaes contidas nessa entidade, pois ela
responsvel por uma relao forte com a entidade ocorrencia. Observase que os problemas de qualidade nos dados residem sobre latitude e
longitude que conta com muitos registros nulos ou em branco, ou
informao de localizao imprecisa. Foi aventada a possibilidade de
cruzamento com o contexto SERVO, em que as informaes estariam
mais slidas. Porm, esse cruzamento teria que passar pela entidade
localbr, que nesta entidade que se armazena uf, br, km. Sugere-se
atualizar a tabela com as referncias de localizao dos trechos com
extenso de 10 km;
b) A entidade de dados municipio est desatualizada em relao ao arquivo
de municpios divulgado, com atualizao at maro de 2015, pelo IBGE.
Para essa entidade uma simples atualizao preservando o atributo
tmucodigo que um cdigo prprio do sistema e no o cdigo do IBGE
que seria a melhor opo em termos corporativos. Porm, os sistemas
existentes tm esse cdigo (tmucodigo) como referncia. Observa-se,
que na estrutura atual da tabela no se tem o cdigo IBGE;
c) A entidade pnv tambm apresenta desatualizao com relao ao
arquivo SNV 2015 divulgado pelo DNIT, seria necessria a atualizao
dessa entidade, adaptando-a para guardar um histrico de evoluo do
SNV de acordo com as publicaes do DNIT. Dever-se-ia adotar o

12

conceito de fotografias para cada publicao do DNIT, tendo como


referncia a anlise temporal dos dados.
Desta feita, sugere a atualizao dessas entidades de dados que, pelo
menos, em relao a preciso das informaes de acidentes em rodovias federais
tero os impactos minorados. Refletindo tambm impactos positivos sobre os
resultados obtidos pelo servio de Business Intelligence (BI).

13

BIBLIOGRAFIA
BALLARD, C. et al. Infosphere DataStage for Entreprise XML Data Integration. 1. ed.
Charlotte, NC, USA: IBM, Redbooks, 2012.
BRAGA, L. P. V. Introduo Minerao de Dados. 2. ed. Rio de Janeiro, Brasil: Epapers, 2005.
CMARA, G.; DAVIS, C.; MONTEIRO, A. M. V. Introduo Cincia da
Geoinformao. 1. ed. So Paulo, SP: INPE, 2014.
DAVENPORT, T. H.; BARTH, P.; BEAN, R. How 'Big Data' Is Different. Fall 2012 Opinion & Analysis, July 2012.
DAVENPORT, T. H.; PRUSAK, L. Ecologia da Informao: por que s a tecnologia no
basta para o sucesso na era da informao. So Paulo: Futura, 1998.
DUSSEAULT, L. WebDAV Next-Generation Collaborative Web Authoring. 1. ed. New
Jerssey, USA: Prentice Hall, 2004.
ISOTANI, S.; BITTENCOURT, I. I. Dados Abertos Conectados. [S.l.]: Novatec, 2008. 155159 p.
LANGTANGEN, H. P. Python Scripting for Computational Science. 1. ed. New York,
USA: Spring-Verlang Heidekberg, 2004.
SOURCE WIKIPEDIA. Open Data: Ckan, Data. Gov, Data. Gov. Uk, Factual, Freedb,
Linkedgov, Opencorporates, Openei, Openstreetmap, Open Data in Canada, Open Data in the
Unite. [S.l.]: University-Press Org, 2013.

14

NDICES DE TABELAS, MAPAS E FIGURA


Tabela 1: Extenses
2015................06

de

trechos

Figura
1:
Imagem
do
Crticos...........................................07

definidos

Job

de

pelo

DNIT,

Extrao

segundo

de

SNV

Pontos

Tabela 2 Quantidade de registros de ocorrncia de acidentes graves no ano 2015,


extrados
do
contexto
BRBrasil
da
PRF......................................................................08

15

GLOSSRIO DE ABREVIAES E ACRNIMOS (SIGLAS)


TERMO
BRBrasil

TIPO
Sigla de sistema

SIGNIFICADO
Sistema da PRF que registra ocorrncias em rodovias
brasileiras.

CKAN

Nome de Plataforma

Plataforma de dados abertos para cadastramento e manuteno


de dados e arquivos.

CSV

Tipo de extenso de arquivo

Formato de arquivo texto separado por ponto e virgula

DNIT

Sigla

Departamento Nacional de Infraestrutura Rodoviria

GIS

Sigla

Geographical Information System Sistema de Informao


Geogrfica

IBGE

Sigla

Instituto Brasileiro de Geografia e Estatstica

JSON

Tipo de tecnologia - Sigla

Java Script Object Notation Notao de Objetos em Java


Script

MJ

Sigla

Ministrio da Justia

PF

Sigla

Polcia Federal

PRF

Sigla

Polcia Rodoviria Federal

SNV

Sigla

Sistema Nacional de Viao

WebDAV

Tipo de tecnologia

Tecnologia de publicao de arquivos

XML

Tipo de tecnologia - Sigla

eXtensible Markup Language Linguagem de Marcao


Extensvel

S-ar putea să vă placă și