Sunteți pe pagina 1din 4

FACULDADE

CURSO:
DISCIPLINA:
PROFESSOR:
ALUNO: CRISTIANO

AVALIAO DA IMPORTNCIA DO ESTUDO DE BIG DATA EM DIVERSAS


REAS

1. INTRODUO

De acordo com Teubner e Mueller (2011), a interligao do fluxo de dados


tem recebido ateno considervel nas ltimas duas dcadas devido sua
importncia em inmeras aplicaes, onde a informao chega em uma forma
de fluxo de velocidades muito altas que precisam ser processadas online para
fornecer uma resposta em tempo real.
Com a exploso da evoluo da internet e da rede mundial nos ltimos
anos, a necessidade de tecnologias similares tem crescido principalmente em
empresas que preciso processar milhes de eventos dos usurios interagindo
com seus websites (Ananthanarayanan, 2013).
De acordo com o IDC, as tecnologias Big Data descrevem uma nova
gerao de tecnologias e arquiteturas, projetadas economicamente para extrair
valor de volumes muito grandes de uma larga variedade de dados, permitindo
alta velocidade de captura, descoberta e anlise.
Com o avano da informao e a necessidade de utiliz-la de forma
rpida e eficaz, criou-se varias tcnicas de avaliao desses dados para
respostas objetivas nos mais diversos campos de estudo como: busca de
informaes pessoais, busca de informaes geogrficas, listagem de
caractersticas de mercado e at mesmo mapeamento gentico. A seguir, so
apresentadas algumas das diversas aplicaes de big data.

2. BIOINFORMTICA

Ortologias so definidas como genes em diferentes espcies que


descendem da especificao de alguns genes do ltimo antecessor comum
(Fitch, 1970). A provvel equivalncia funcional da ortologia tem feito com que
as espcies carreguem informao gentica e uma taxa de aproximao tem
sido desenvolvida para identificar essa ortologia, que resultado de uma
quantidade de repositores para cada relao precomputada (Sonnhammer,
2014).
Ainda de acordo com Sonnhammer (2014), um efeito infortuno do vasto
interesse em ortologia que diversos formatos diferentes e campos de dados
existem, e est longe de ser trivial integrar ou comparar a ortologia de
diferentes fontes.
Comparao gentica um dos diversos campos da bioinformtica que
almeja a comparao de centenas de diferentes genomas (Miller, 2004). Muitos
tipos de aplicaes de bioinformtica associadas a esse campo, como
alinhamento de sequncias mltiplas (MSA), deteco homognea e anlise
filogentica esto continuamente em crescimento em escala e complexidade
(Clark, 2006).
De acordo com Ocaa (2013), cientistas geralmente evitam explorar
diferentes mtodos de MSA na anlise filogentica devido ao seu alto custo
(tempo de execuo e financeiro, em alguns casos). Para isso, so
desenvolvidos algoritmos de busca baseados em big data que possam reduzir
custos e tempo de processamento.
Independente dos desafios computacionais mencionados, a avaliao do
crescimento da sequencia de genomas adiciona novos desafios relacionados
ao aumento da resoluo dos dados.

3. INFORMAES DE USURIO

Distribuir dados por performance, variabilidade e durabilidade tem sido


amplamente estudado nas comunidades de arquivamento e base de dados

(Lakshman, 2009). Em alguns sistemas, apenas o nome do arquivo utilizado


como ferramenta de busca, desconsiderando caractersticas do objeto.
Nesses casos, o sistema torna-se ineficaz, pois desconsidera semelhana
entre objeto desejado e o objeto que foi buscado. Por exemplo, uma busca por
vaso de flores pode retornar um buqu ou um arranjo de flores quando
considerados as caractersticas do objeto. Indo mais a fundo, at mesmo
sugestes de outros presentes de dia dos namorados tambm podem ser
acrescentados ao resultado.
Por isso, sites de busca como Google e Facebook, dentre outros que
trabalham com propaganda, desenvolvem seus prprios mecanismos de busca
a fim de tornar a experincia com o usurio mais simples e amigvel.
Cassandra um sistema de armazenamento distribudo para manter altas
taxas de variao de dados atravs de muitos servidores, enquanto providencia
um servio de avaliao com o mnimo de falhas (Lakshman, 2009). Esse
sistema utilizado pelo Facebook e possui vrios nveis de descrio do
objeto. Depois de arquivado, o objeto dividido em linhas e colunas, e
realizada uma referncia cruzada das suas caractersticas quando uma busca
realizada no site.
O Google utiliza de algoritmos de busca contnuo e discreto. No caso do
contnuo, uma rede de dados alimentada a todo instante em que o usurio
seleciona uma informao, sem que necessariamente seja buscado um item
especfico. Assim, um clique em uma propaganda de cosmtico a qualquer
instante servir como base para enviar novos cosmticos ao usurio.
Por outro lado, tambm utilizado o mecanismo de busca discreta, em
que o envio de sugestes baseia-se naquilo que foi digitado pelo usurio na
barra de busca do site. Nesse caso, criada uma tabela semelhante
apresentada pelo Cassandra do Facebook.
Existem

muitos

algoritmos

desenvolvidos

pelo

Google

como

MapReduce, Bigtable, Photon, entre outros. A diferena principal entre eles


est na forma em que os dados so enviados ao servidor de armazenamento
da empresa, se baseados em cliques, em digitaes, ou em ambos.

4. CONCLUSES

fcil perceber a importncia do estudo de big data quando a quantidade


de informaes tamanha que se torna praticamente impossvel de ser
avaliada em sua totalidade. Essas informaes podem se referir a diversas
coisas, desde mapeamento gentico, em que no existe a interveno direta
do ser humano, at as preferncias de compras de consumidores que
navegam na internet.
Muitos sistemas esto sendo desenvolvidos para fornecer respostas mais
rpidas e precisas baseados em grandes quantidades de dados, sem o
conhecimento exato de como essas informaes evoluem, mas que precisam
ser avaliadas instantaneamente.
Para cada aplicao, define-se qual o meio de atualizao a ser utilizado,
se de forma contnua (como no caso de consumidores casuais, que costumam
utilizar a internet intuitivamente ou pelo celular em que pouco se digita) ou de
forma discreta (por meio de tabelas de informaes pr-determinadas como
caractersticas genticas ou preo e forma de produtos comerciais).

5. REFERNCIAS BIBLIOGRFICAS
J. Teubner and R. Mueller. How soccer players would do stream joins". Proc.
of SIGMOD 2011, pp.625-636.
R. Ananthanarayanan, V. Basker, S. Das, A. Gupta, H. Jiang, T. Qiu, A.
Reznichenko, D.Ryabkov, M.Singh, S.Venkataraman. Photon: Faulttolerant and Scalable Joining of Continuous Data Streams 2013
E. L.L. Sonnhammer, T. Gabald, A. W. Sousa da Silva, M. Martin, M. RobinsonRechavi, B. Boeckmann, P. D. Thomas, C. Dessimoz. Big data and other
challenges in the quest for orthologs Bioinformatics. 2014
Fitch,W.M. Distinguishing homologous from analogous proteins. Syst. Zool., 19,
99113. 1970
K. A.C.S. Ocaaa, D. de Oliveira, J. Dias , E. Ogasawaraa, M. Mattoso.
Designing a parallel cloud based comparative genomics workflow to
improve phylogenetic analyses Elsevier. 2013
A. Lakshman, P. Malik. Cassandra A decentralized structured storage
system 2009

S-ar putea să vă placă și