Sunteți pe pagina 1din 15

Big Data

Enviado por rogeriorpd, abril 2013 | 31 Pginas (7659 Palavras) | 22 Consultas

Desafios e Oportunidades com Big Data Um documento comunitrio desenvolvido por pesquisadores lderes nos Estados Unidos Sumrio Executivo A promessa de tomada de deciso dirigida por dados agora est sendo reconhecida amplamente, e h cada vez mais entusiasmo para a noo de Big Data. Embora a promessa de Big Data seja real - Por exemplo, estima-se que o Google sozinho contribuiu com 54 bilhes de dlares para a economia dos EUA em 2009 - no h atualmente uma grande diferena entre o seu potencial e sua realizao. Problemas com o Big Data de heterogeneidade, escala, pontualidade, complexidade e privacidade, impedem o progresso em todas as fases do pipeline que pode criar valor a partir de dados. Os problemas comeam logo durante a aquisio de dados, quando o tsunami de dados nos obriga a tomar decises, atualmente de forma ad hoc, sobre quais dados manter e quais descartar, e como armazenar o que mantemos de forma confivel com os metadados corretos. Muitos dados de hoje no esto nativamente num formato estruturado, por exemplo, tweets e blogs so partes fracamente estruturadas de texto, imagens e vdeo enquanto so estruturados para armazenamento e exibio, mas no por contedo semntico e pesquisa: transformar esse contedo em um formato estruturado para anlise posterior um grande desafio. O valor dos dados explode quando ele pode ser ligado com outros dados, assim a integrao de dados um criador de grande valor. Como a maioria dos dados gerado diretamente em formato digital de hoje, temos a oportunidade e o desafio tanto para influenciar a criao de facilitar a ligao e depois vincular automaticamente os dados criados anteriormente. A anlise dos dados, organizao, recuperao e modelagem so outros desafios fundamentais. A anlise dos dados um gargalo claro em muitas aplicaes, tanto devido falta de escalabilidade dos algoritmos subjacentes e, devido complexidade dos dados que necessitam de ser analisados. Finalmente, a apresentao dos resultados e sua interpretao por especialistas de domnio no tcnicos fundamental para extrair conhecimento acionvel. Durante os ltimos 35 anos, os princpios de gerenciamento de dados, tais como a independncia fsica e lgica, consultas declarativas e otimizao baseada em custo tem levado, durante os ltimos 35 anos, a uma indstria multibilionria. Mais importante ainda, esses avanos tcnicos permitiram a primeira rodada de aplicativos de inteligncia de negcios e lanou as bases para a gesto e anlise de Big Data hoje. Os novos desafios e muitas oportunidades associadas com Big Data necessitam um repensamento em muitos aspectos destas plataformas de gerenciamento de dados, mantendo outros aspectos desejveis. Acreditamos que o investimento apropriado em Big Data levar a uma nova onda de fundamentais avanos tecnolgicos que sero incorporados nas prximas geraes de gesto de Big Data e plataformas de anlise, produtos e sistemas. Acreditamos que esses problemas de pesquisa no so apenas oportuno, mas tambm tem o potencial de criar valor econmico enorme na economia dos

EUA para os prximos anos. No entanto, eles tambm so difceis, obrigandonos a repensar os sistemas de anlise de dados de forma fundamental. Um grande investimento em Big Data, dirigido corretamente, pode resultar no s em grandes avanos cientficos, mas tambm lanar as bases para a prxima gerao de avanos na cincia, medicina, e de negcios. Desafios e Oportunidades com Big Data 1. Introduo Estamos nadando em uma inundao de dados de hoje. Em uma ampla gama de reas de aplicao, os dados esto sendo coletados em escala sem precedentes. Decises que anteriormente eram baseadas em suposies, ou em modelos meticulosamente construdos da realidade, agora podem ser feita com base nos dados em si. Tal anlise de dados Big agora dirige quase todos os aspectos da nossa sociedade moderna, incluindo servios mveis, fabricao, varejo, servios financeiros, cincias da vida e cincias fsicas. A pesquisa cientfica foi revolucionada pelo Big Data [CCC2011a]. O Sloan Digital Sky Survey [SDSS2008] tornou-se hoje um recurso central para os astrnomos de todo o mundo. O campo da Astronomia est sendo transformado de um onde tirar fotos do cu era uma grande parte do trabalho de um astrnomo para um onde as imagens so tudo em um banco de dados j e a tarefa do astrnomo encontrar objetos interessantes e fenmenos no banco de dados. Nas cincias biolgicas, h agora uma tradio bem estabelecida de depsito de dados cientficos em um repositrio pblico, e tambm da criao de bases de dados pblicas para uso por outros cientistas. Na verdade, h uma disciplina inteira de bioinformtica, que em grande parte dedicado curadoria e anlise desses dados. Com o avano da tecnologia, principalmente com o advento do Sequenciamento da Prxima Gerao, o tamanho e o nmero de conjunto de dados experimentais disponveis est a aumentar exponencialmente. Big Data tem o potencial de revolucionar no s a pesquisa, mas tambm a educao [CCC2011b]. Uma comparao detalhada recente quantitativa de diferentes abordagens adotadas por 35 cartas escolares em Nova York descobriu que uma das cinco melhores polticas correlacionadas com eficcia mensurvel acadmico foi o uso de dados para orientar a instruo [DF2011]. Imagine um mundo em que temos acesso a uma enorme base de dados onde coletamos todas as medidas detalhadas do desempenho acadmico de cada estudante. Estes dados podem ser usados para projetar as abordagens mais eficazes para a educao, a partir de leitura, escrita e matemtica, ao avanado, de nvel universitrio, cursos. Estamos longe de ter acesso a esses dados, mas h tendncias poderosas neste sentido. Em particular, h uma forte tendncia para a implantao da Web macia de atividades educacionais, e isso vai gerar uma quantidade cada vez maior de dados detalhados sobre o desempenho dos alunos. Acredita-se que o uso da tecnologia da informao pode reduzir o custo dos cuidados de sade, melhorando sua qualidade [CCC2011c], fazendo dos cuidados preventivos e personalizado, baseando-se na mais extensa (baseado em casa) monitoramento contnuo. Estimativas da McKinsey [McK2011] uma economia de 300 bilhes de dlares a cada ano s nos EUA. Na mesma linha, j houve casos de persuaso feitas para o valor de Big Data para o planejamento urbano (atravs da fuso de alta fidelidade de dados geogrficos), transporte inteligente (atravs de anlise e visualizao de dados

detalhados ao vivo de rede de estradas), modelagem ambiental (atravs de redes de sensores coletando dados ubiquamente) [CCC2011d], de poupana de energia (atravs de padres de inaugurao de uso), materiais inteligentes (atravs de novas iniciativas de materiais genoma [MGI2011]), cincias sociais computacionais (Um jejum nova metodologia crescendo em popularidade por causa do custo dramaticamente reduzido de obteno de dados) [LP 2009], anlise de risco financeiro sistmico (atravs de anlise integrada de uma rede de contratos de encontrar dependncias entre entidades financeiras) [FJ 2011], Segurana Interna (atravs da anlise de redes sociais e transaes financeiras de possveis terroristas), a segurana do computador (atravs de anlise de informaes registradas e outros eventos, conhecidos como Segurana da Informao e Gesto de Eventos (SIEM)), e assim por diante. Em 2010, empresas e usurios armazenaram mais de 13 exabytes de novos dados, o que mais de 50.000 vezes os dados na Biblioteca do Congresso. O valor potencial global de dados de localizao pessoal estimada em US $ 700 bilhes para os usurios finais, e isso pode resultar em uma reduo de at 50% no desenvolvimento de produtos e os custos de montagem, de acordo com um relatrio recente da McKinsey [McK2011]. McKinsey prev um efeito igualmente grande de Big Data no emprego, onde 140,000-190,000 trabalhadores com "profunda anlise" experincia ser necessria nos EUA, alm disso, 1,5 milho de gerentes tero de se tornar dados alfabetizados. No surpreendentemente, o relatrio PCAST recente em Redes e TI I & D [PCAST2010] identificaram Big Data como uma "investigao de fronteira", que pode "acelerar os progressos em uma ampla gama de prioridades." Mesmo mdia popular agora aprecia o valor de Big Data como evidenciado pela cobertura na Economist [Eco2011], o New York Times [NYT2012], e da National Public Radio [NPR2011a, NPR2011b]. Embora os benefcios potenciais de Big Data so reais e significativos, e alguns sucessos iniciais j foram alcanados (como o Sloan Digital Sky Survey), ainda h muitos desafios tcnicos que devem ser abordadas para realizar plenamente o seu potencial. O tamanho dos dados, claro, um grande desafio, e aquele que mais facilmente reconhecida. No entanto, existem outros. Empresas de anlise da indstria gostariam de salientar que h desafios no apenas em volume, mas tambm em variedade e velocidade [Gar2011], e que as empresas no devem focar apenas a primeira delas. Pela Variedade, que geralmente significa heterogeneidade de tipos de dados, representao e interpretao semntica. Pela velocidade, eles significam tanto a taxa em que os dados chegam e o tempo em que deve ser colocada em prtica. Enquanto estes trs so importantes, esta pequena lista no inclui requisitos adicionais importantes como a privacidade e usabilidade. A anlise do Big Data envolve vrias fases distintas, como mostrado na figura a seguir, cada uma das quais apresenta desafios. Muitas pessoas, infelizmente, se concentrar apenas na fase de anlise / modelagem: enquanto que a fase fundamental, de pouco uso sem as outras fases do pipeline de anlise de dados. Mesmo na fase de anlise, o que tem recebido muita ateno, as complexidades so mal compreendidas no contexto de clusters de multi locao em que os programas de vrios usurios so executados simultaneamente. Muitos desafios significativos estendem alm da fase de anlise. Por exemplo, Big Data tem de ser gerido no contexto, o que pode ser ruidosa, heterogneo e no incluir um modelo inicial. A deciso levanta a

necessidade de rastrear procedncia e para lidar com a incerteza e erro: tpicos que so cruciais para o sucesso, e ainda assim raramente mencionado no mesmo flego como Big Data. Da mesma forma, as perguntas para a anlise do pipeline de dados no sero normalmente todas definidas com antecedncia. Podemos precisar descobrir boas perguntas com base nos dados. Fazendo isso vai exigir mais sistemas inteligentes e tambm um melhor suporte para interao do usurio com a anlise do pipeline. De fato, atualmente temos um gargalo importante no nmero de pessoas habilitadas a fazer perguntas dos dados e analis-lo [NYT2012]. Ns podemos aumentar drasticamente este nmero, apoiando vrios nveis de envolvimento com os dados, no exigindo um profundo conhecimento de banco de dados. Solues para problemas como este no vir de melhorias incrementais para os negcios como de costume, como a indstria pode fazer por conta prpria. Ao contrrio, eles nos obrigam a repensar fundamentalmente como gerenciar a anlise de dados. Felizmente, as tcnicas atuais computacionais podem ser aplicadas, quer tal e qual ou com algumas extenses, para pelo menos alguns aspectos do problema do Big Data. Por exemplo, bancos de dados relacionais dependem da noo de independncia de dados lgica: os usurios podem pensar sobre o que eles querem para calcular, enquanto o sistema (com engenheiros qualificados projetar esses sistemas) determina como calcular de forma eficiente. Da mesma forma, o padro SQL e modelo de dados relacional de uma linguagem uniforme e poderosa para expressar as necessidades de muitas consultas e, em princpio, permite aos clientes escolher entre os fornecedores, aumentando a concorrncia. O desafio diante de ns a de combinar essas caractersticas saudveis de sistemas anteriores como conceber novas solues para os muitos desafios novos da Big Data. Neste trabalho, consideramos cada uma das caixas na figura acima, e discutir tanto o que j foi feito e que desafios permanecem a medida que ns explorramos o Big Data. Comeamos por considerar os cinco estgios no pipeline, em seguida, passar para os cinco desafios horizontais, e termina com uma discusso sobre a arquitetura de todo o sistema que combina todas estas funes. 2. Fases do processamento do pipeline 2.1 Aquisio de Dados e Gravao Big Data no surge de um vazio: gravado a partir de uma fonte de gerao de dados. Por exemplo, considere a nossa capacidade de sentir e observar o mundo ao nosso redor, a partir da frequncia cardaca de um cidado idoso, e presena de toxinas no ar que respiramos, ao telescpio matriz planejada quilmetros quadrados, que ir produzir at 1 milho de terabytes de dados brutos por dia. Da mesma forma, as experincias cientficas e simulaes pode facilmente produzir petabytes de dados hoje. Muitos desses dados no de interesse, e pode ser filtrado e comprimido por ordens de magnitude. Um desafio definir esses filtros de tal forma que eles no descartem informao til. Por exemplo, suponha que uma leitura do sensor difere substancialmente do resto: provvel que seja devido ao sensor falho, mas como podemos ter certeza de que no um artefato que merece ateno? Alm disso, os dados recolhidos por estes sensores na maioria das vezes so espacialmente e temporalmente correlacionada (por exemplo,

sensores de trfego no segmento mesma estrada). Precisamos de pesquisas na cincia da reduo de dados que pode inteligentemente processar esses dados brutos para um tamanho que seus usurios podem lidar ao mesmo tempo no perder a agulha no palheiro. Alm disso, so necessrias "on-line" de tcnicas de anlise que podem processar esses dados de streaming em tempo real, j que no podemos dar ao luxo de armazenar primeiro e reduzir depois. O segundo grande desafio gerar automaticamente o metadados correto para descrever que dados gravado e como registrada sua medida. Por exemplo, em experimentos cientficos, detalhes considerveis sobre as condies especficas e os procedimentos experimentais podem ser necessrios para ser capaz de interpretar corretamente os resultados, e importante que tais metadados sejam gravados com um dado observacional. Sistemas de aquisio de metadados podem minimizar a responsabilidade humana em gravar metadados. Outra questo importante aqui provenincia de dados. Gravar informaes sobre os dados de seu nascimento no til a menos que esta informao possa ser interpretada e levada junto com o pipeline de anlise de dados. Por exemplo, um erro de processamento num passo pode tornar intil a anlise posterior; com provenincia adequada, pode-se facilmente identificar todo o processamento subsequente que dependem deste passo. Assim, precisamos pesquisar, tanto na gerao de metadados adequados e em sistemas de dados que carregam a provenincia de dados e seus metadados atravs da anlise do pipeline de dados. 2.2 Extrao de Informaes e Limpeza Frequentemente, a informao recolhida no estar num formato pronto para anlise. Por exemplo, considere o conjunto de registros eletrnicos de sade em um hospital, compreendendo ditados transcritos de vrios mdicos, dados estruturados a partir de sensores e medies (possivelmente com alguma incerteza associada), e dados de imagem, como raios-x. No podemos deixar os dados desta forma e ainda de forma eficaz analis-lo. Em vez disso, exigem um processo de extrao de informaes que puxa as informaes necessrias a partir das fontes subjacentes e expressa de uma forma estruturada adequado para anlise. Fazendo isso corretamente e completamente um desafio constante tcnico. Note-se que estes dados tambm inclui imagens e, no futuro, incluir vdeo, extrao, muitas vezes altamente dependente da aplicao (por exemplo, o que voc quer sair de uma ressonncia magntica muito diferente do que voc poderia sair de uma imagem das estrelas, ou uma foto de vigilncia). Alm disso, devido onipresena de cmeras de vigilncia e popularidade de GPS habilitados para telefones celulares, cmeras e outros dispositivos portteis, rico e de alta fidelidade localizao e trajetria (isto , o movimento no espao) de dados tambm pode ser extrado. Estamos acostumados a pensar que o Big Data sempre ir nos dizer a verdade, mas isto est longe da realidade. Por exemplo, os pacientes podem optar por esconder comportamentos de risco e mdicos podem, por vezes, mal diagnosticar uma doena, os pacientes podem tambm imprecisamente lembrar o nome de uma droga ou mesmo que nunca tomou, levando a informao em falta no (a parte histria de) sua registro mdico. Trabalho existente na limpeza de dados pressupe restries bem reconhecidas em dados vlidos ou modelos bem compreendidos erro, pois muitos domnios emergentes Big Data estes no existem.

2.3 Integrao de dados, agregao e Representao Dada heterogeneidade do dilvio de dados, no suficiente apenas para grav-lo e jog-lo em um repositrio. Considere, por exemplo, dados de uma srie de experimentos cientficos. Se s temos um amontoado de conjuntos de dados num repositrio, improvvel algum seja capaz de encontrar, muito menos reutilizar, qualquer destes dados. Com metadados adequados, h alguma esperana, mas, mesmo assim, os desafios permanecem devido a diferenas nos detalhes experimentais e na estrutura do registro de dados. A anlise dos dados consideravelmente mais desafiadora do que simplesmente localizar, identificar, entender e citar dados. Para uma anlise eficaz, em larga escala, tudo isso tem que acontecer de uma forma completamente automatizada. Isso requer diferenas na estrutura de dados e na semntica a ser expressa em formas que so compreensveis pelo computador, e ento "roboticamente" solvel. H um forte corpo de trabalho em integrao de dados que pode fornecer algumas das respostas. No entanto, um trabalho adicional considervel necessrio para conseguir a resoluo diferena automatizado livre de erros. Mesmo para anlises mais simples, que dependem apenas um conjunto de dados, ainda h uma questo importante de design de banco de dados adequado. Normalmente, haver muitas formas alternativas para armazenar a mesma informao. Certos modelos ter vantagens sobre os outros para efeitos de certos inconvenientes e, possivelmente, para outros fins. Testemunha, por exemplo, a variedade enorme na estrutura de bases de dados com informaes relacionadas sobre entidades substancialmente semelhantes, tais como genes. Projeto de banco de dados hoje uma arte, e cuidadosamente executado no contexto empresarial por profissionais altamente remunerados. Devemos permitir que outros profissionais, tais como cientistas de domnio, para criar projetos de banco de dados eficaz, seja por meio de ferramentas, concebendo, para auxili-los no processo de concepo ou atravs de renncia ao processo de design e desenvolvimento de tcnicas completamente para que os bancos de dados possam ser utilizados de forma eficaz na ausncia de bom projetista de banco de dados. 2.4 processamento de consultas, Modelagem de Dados e Anlise Mtodos para consultas e minerao do Big Data so fundamentalmente diferentes da tradicional anlise estatstica em pequenas amostras. Big Data muitas vezes ruidoso, dinmico, heterogneo, inter-relacionados e no confivel. No entanto, mesmo ruidoso, Big Data pode ser mais valioso do que pequenas amostras porque a estatstica geral obtida a partir de padres frequentes e anlise de correlao geralmente dominam flutuaes individuais e muitas vezes divulgam padres ocultos e conhecimentos mais confiveis. Alm disso, Big Data quando interligados, formam grandes redes de informao heterogneas, com redundncia de informao que pode ser explorada para compensar a falta de dados, a casos CrossCheck conflitantes, para validar relaes de confiana, para divulgar grupos inerentes, e para descobrir relaes ocultas e modelos. Minerao requer dados acessveis integrados, limpos, confiveis e eficientes, consulta declarativa e interfaces de minerao, algoritmos de minerao escalveis e ambientes de computao de Big Data. Ao mesmo tempo, minerao de dados tambm pode ser usada para ajudar a melhorar a qualidade e confiabilidade dos dados, entender a sua semntica, e fornecer

funes inteligentes de consulta. Como observado anteriormente, na vida real os registros mdicos tm erros, so heterogneos e, frequentemente, so distribudos em vrios sistemas. O valor da anlise do Big Data na rea da sade, para dar apenas um exemplo de domnio de aplicao, s pode ser realizado se ele pode ser aplicado de forma robusta sob estas condies difceis. Por outro lado, o conhecimento desenvolvido a partir de dados pode ajudar a corrigir erros e remoo de ambiguidade. Por exemplo, um mdico pode escrever "DVT", como o diagnstico de um paciente. Esta sigla comumente usada para tanto "trombose venosa profunda" e "diverticulite", dois muito diferentes condies mdicas. A base de conhecimentos construdos a partir de dados relacionados pode usar sintomas associados ou medicamentos para determinar qual dos dois o mdico quis dizer. Big Data tambm est permitindo que a prxima gerao de anlise de dados interativos com respostas em tempo real. No futuro, as consultas para com Big Data sero geradas automaticamente para criao de contedo em sites, para preencher favoritos ou recomendaes, e fornecer uma anlise ad hoc do valor de um conjunto de dados para decidir se armazenar ou descart-lo. Dimensionar tcnicas de processamento de consultas complexas para terabytes e permitir tempos de resposta interativa um problema importante de investigao aberto hoje. Um problema com a atual anlise Big Data a falta de coordenao entre os sistemas de banco de dados, que hospedam os dados e fornecem consultas SQL, com anlise de pacotes que executam vrias formas de processamento no-SQL, tais como minerao de dados e anlises estatsticas. Analistas de hoje so impedidos por um tedioso processo de exportao de dados do banco de dados, realizando um processo de no-SQL e trazer os dados de volta. Este um obstculo ao transporte de mais interativa a elegncia da primeira gerao de sistemas OLAP SQL dirigidos para o tipo de minerao de dados de anlise que est na demanda crescente. A unio entre linguagens de consulta declarativas e as funes de tais pacotes ir beneficiar tanto a expressividade e desempenho da anlise. 2.5 Interpretao Ter a capacidade de analisar Big Data de valor limitado se os usurios no podem entender a anlise. Em ltima anlise, um tomador de decises, provido com o resultado da anlise, tem de interpretar esses resultados. Esta interpretao no pode acontecer em um vcuo. Normalmente, trata-se de examinar todas as hipteses formuladas e refazendo a anlise. Alm disso, como vimos acima, existem muitas fontes possveis de erro: sistemas de computadores podem ter bugs, modelos quase sempre tm pressupostos, e os resultados podem basear-se em dados errados. Por todas estas razes, nenhum usurio responsvel vai ceder autoridade ao sistema de computador. Em vez disso, ela vai tentar entender, e verificar, os resultados produzidos pelo computador. O sistema de computador deve tornar mais fcil para ela fazer isso. Isto particularmente um desafio com dados grandes, devido sua complexidade. H frequentemente suposies cruciais por trs dos dados gravados. A anlise de pipeline muitas vezes podem envolver vrias etapas, mais uma vez com os pressupostos construdos. O recente choque relacionado hipoteca no sistema financeiro ressaltou drasticamente a necessidade de tal tomador de deciso - em vez de aceitar a estabelecida solubilidade de uma instituio financeira no valor nominal, um tomador de deciso tem que

examinar criticamente os pressupostos muitos em vrios estgios de anlise. Em suma, ela raramente suficiente para fornecer apenas os resultados. Em vez disso, deve-se fornecer informaes suplementares que explicam como cada resultado foi obtido, e com base precisamente nas entradas. Essas informaes suplementares so chamadas a provenincia dos dados (resultado). Ao estudar a melhor forma de capturar, armazenar e provenincia de consulta, em conjunto com tcnicas de capturar metadados adequada, pode-se criar uma infraestrutura para oferecer aos usurios a capacidade tanto para interpretar os resultados analticos obtidos e repetir a anlise com pressupostos diferentes, parmetros, ou conjuntos de dados. Sistemas com uma rica paleta de visualizaes se tornam importantes na transmisso aos usurios os resultados das consultas de uma maneira que melhor compreendida no domnio particular. Considerando que os usurios de sistemas de inteligncia de negcios iniciais eram de contedo com apresentaes tabulares, analistas de hoje precisam para empacotar e apresentar os resultados de visualizaes poderosas que ajudam a interpretao, e colaborao de suporte ao usurio, como discutido na Seo. 3.5. Alm disso, com apenas alguns cliques o usurio deve ser capaz de detalhar cada pedao de dados que ela v e entender a sua origem, que um elemento-chave para a compreenso dos dados. Ou seja, os usurios precisam ser capazes de ver no apenas os resultados, mas tambm entender por que eles esto vendo os resultados. No entanto, provenincia crus, em especial em relao s fases no pipeline de anlise, provvel que seja muito tcnico para muitos usurios a compreender completamente. Uma alternativa permitir que os usurios "brincar" com os passos da anlise - fazer pequenas alteraes no pipeline, por exemplo, ou modificar os valores para alguns parmetros. Os usurios podem ver os resultados dessas mudanas incrementais. Por esses meios, os usurios podem desenvolver um sentimento intuitivo para a anlise e verificar tambm se ele funciona como esperado em casos de canto. Conseguir isso requer que o sistema para fornecer instalaes convenientes para o usurio especificar anlises. Especificao declarativa, discutida no Sec. 4, um componente de um sistema deste tipo. 3. Desafios na Anlise do Big Data Depois de descrever as vrias fases da anlise do pipeline do Big Data, nos voltamos agora para alguns desafios comuns que sustentam muitos, e s vezes tudo, uma dessas fases. Elas so mostradas como cinco caixas na segunda fila da FIG. 1. 3.1 Heterogeneidade e incompletude Quando os seres humanos consomem informao, uma grande heterogeneidade confortavelmente tolerada. Na verdade, a nuance e a riqueza da linguagem natural pode proporcionar uma profundidade valiosa. No entanto, algoritmos de anlise de mquinas esperam que os dados homogneos, e no consegue entender nuances. Em consequncia, os dados devem ser cuidadosamente estruturados como um primeiro passo na (ou antes) de anlise de dados. Considere-se, por exemplo, um paciente que tenha vrios procedimentos mdicos de um hospital. Podemos criar um registro por procedimento mdico ou exame de laboratrio, um registro para o perodo de internao inteiro, ou um registro para todas as interaes da vida hospitalar do paciente. Com qualquer coisa que no seja o primeiro design, o nmero de

procedimentos mdicos e testes de laboratrio por registro seria diferente para cada paciente. As trs escolhas de design listados tm sucessivamente menos estrutura e, por outro lado, sucessivamente maior variedade. Maior estrutura susceptvel de ser necessrio por muitos (tradicional) de sistemas de anlise de dados. No entanto, o design menos estruturado provvel que seja mais eficaz para muitas finalidades - por exemplo a questes relacionadas com a progresso da doena ao longo do tempo ir requerer uma operao dispendiosa juntar com os dois primeiros designs, mas pode ser evitado com o ltimo. No entanto, os sistemas de computador funcionam mais eficientemente se eles podem armazenar vrios itens que so todas idnticas em tamanho e estrutura. Representao eficiente, acesso e anlise de dados semiestruturados requerem mais trabalho. Considere um registro de um modelo de banco de dados eletrnico de sade que tem campos para data de nascimento, ocupao e tipo de sangue de cada paciente. O que vamos fazer se uma ou mais dessas peas de informao no fornecida por um paciente? Obviamente, o registro de sade ainda colocado no banco de dados, mas com os valores de atributos correspondentes a ser definido como NULL. A anlise de dados que olha para classificar os pacientes por, digamos, ocupao, deve levar em conta os pacientes para as quais esta informao no conhecida. Pior, esses pacientes com ocupaes desconhecidos pode ser ignorado na anlise apenas se temos razo para acreditar que eles so de outra maneira estatisticamente semelhante ao dos pacientes com ocupao conhecida para a anlise realizada. Por exemplo, se os pacientes desempregados so mais propensos a esconder sua situao de trabalho, os resultados da anlise podem ser distorcidos em que considera uma mistura da populao mais empregada do que existe, e, portanto, potencialmente, um que tem diferenas no perfil de ocupao relacionadas sade. Mesmo aps a correo de dados limpeza e erro, algumas incompletude e alguns erros nos dados devero permanecer. Esta incompletude e esses erros devem ser gerenciados durante a anlise de dados. Fazer isso corretamente um desafio. Trabalhos recentes sobre o gerenciamento de dados probabilsticos sugerem uma maneira de fazer progresso. 3.2 Tamanho Naturalmente, a primeira coisa que algum pensa com Big Data o seu tamanho. Afinal, a palavra "grande" est l no prprio nome. Gerenciar grandes volumes e o rpido crescente volume de dados tem sido um problema desafiador para muitas dcadas. No passado, este desafio foi atenuado por processadores cada vez mais rpidos, seguindo a lei de Moore, para nos fornecer os recursos necessrios para lidar com volumes cada vez maiores de dados. Mas, h uma mudana fundamental em andamento agora: volume de dados est aumentando mais rpido do que recursos de computao, e as velocidades de CPU so estticos. Primeiro, ao longo dos ltimos cinco anos, a tecnologia de processador fez uma mudana dramtica - em vez de processadores dobrar sua frequncia ciclo de relgio a cada 18-24 meses, agora, devido a limitaes de potncia, velocidades de clock em grande parte estagnado e processadores esto sendo construdos com um nmero crescente de ncleos. No passado, os grandes sistemas de processamento de dados tiveram de se preocupar com o paralelismo entre os ns de um cluster, agora, tem que lidar com paralelismo

dentro de um nico n. Infelizmente, as tcnicas de processamento de dados paralelos que foram aplicadas no passado para o processamento de dados atravs de ns no se aplicam diretamente para o paralelismo intra-n, j que a arquitetura muito diferente, por exemplo, h muitos mais recursos de hardware, como caches do processador e processador canais de memria que so compartilhados entre os ncleos em um nico n. Alm disso, o movimento em direo a embalagem mltiplos soquetes (cada um com 10s de ncleos) acrescenta outro nvel de complexidade para o paralelismo intra-n. Finalmente, com previses de "silcio negro", ou seja, que a anlise de energia, provavelmente, no futuro, nos probem de usar todo o hardware no sistema de forma contnua, sistemas de processamento de dados provavelmente vai ter que gerenciar ativamente o consumo de energia do processador. Essas mudanas sem precedentes nos obrigam a repensar a forma como projetar, construir e operar os componentes de processamento de dados. A segunda mudana dramtica que est em andamento a transio para a computao em nuvem, que agora agrega vrias cargas de trabalho diferentes, com metas de desempenho variveis (por exemplo, a demanda de servios interativos que o motor de processamento de dados retornar uma resposta dentro de um limite fixo de tempo de resposta) em clusters muito grandes. Este nvel de partilha de recursos em clusters caros e de grande porte exigem novas formas de determinar a forma de executar e executar trabalhos de processamento de dados, para que possamos cumprir as metas de cada carga de trabalho de forma rentvel, e para lidar com falhas do sistema, que ocorrem mais frequentemente como operamos em clusters maiores e maiores (que so obrigados a lidar com o rpido crescimento do volume de dados). Isto coloca um prmio sobre abordagens declarativos para programas expressando, mesmo aqueles que fazem as tarefas de aprendizagem complexas mquinas, uma vez que a otimizao global em programas de vrios usurios necessrio para um bom desempenho global. Dependncia de otimizaes usurio orientadas programa susceptvel de conduzir a utilizao do cluster pobres, j que os usurios no tm conhecimento de programas de outros usurios. Sistema de otimizao voltada holstica requer programas que seja suficientemente transparente, por exemplo, como em sistemas de banco de dados relacional, onde linguagens de consulta declarativas so concebidos com isto em mente. A terceira mudana dramtica que est em andamento a mudana transformadora do subsistema de I / O tradicional. Por muitas dcadas, discos rgidos (HDDs) foram usados para armazenar dados persistentes. HDDs teve muito mais lento desempenho IO IO aleatria do que o desempenho seqencial, e motores de processamento de dados formatados seus dados e projetaram seus mtodos de processamento de consulta para "contornar" esta limitao. Mas, HDDs esto cada vez mais sendo substitudos por drives de estado slido, hoje e outras tecnologias, como memria de mudana de fase ao virar da esquina. Essas novas tecnologias de armazenamento no tem a mesma propagao grande de desempenho entre o seqencial e aleatria desempenho de I / O, o que exige um repensar da forma como subsistemas de armazenamento de dados de projeto para sistemas de processamento. Implicaes deste subsistema de armazenamento mudando potencialmente tocar todos os aspectos de processamento de dados, incluindo algoritmos de processamento de consulta, agendamento de consulta, o projeto de banco de

dados, mtodos de controle de concorrncia e mtodos de recuperao. 3.3 Velocidade O outro lado de tamanho a velocidade. Quanto maior o conjunto de dados a serem processados, o que levar mais tempo para analisar. A concepo de um sistema que trata eficazmente o tamanho igualmente susceptvel de resultar em um sistema que possa processar um dado tamanho de conjunto de dados mais rpidos. No entanto, no apenas a velocidade esta que normalmente significava quando se fala de Velocidade no contexto de Big Data. Em vez disso, existe uma taxa de aquisio de desafio, conforme descrito no cap. 2.1, e um desafio oportunidade descrito a seguir. H muitas situaes em que o resultado da anlise necessria imediatamente. Por exemplo, se uma transao de carto de crdito fraudulento suspeito, deve idealmente ser marcada antes da transao ser concluda - potencialmente impedindo a operao de tomar lugar em tudo. Obviamente, uma anlise completa da histria de um usurio compra no provvel que seja vivel em tempo real. Em vez disso, necessrio desenvolver resultados parciais de antemo, de modo que uma pequena quantidade de computao incremental com novos dados podem ser utilizadas para se chegar a uma determinao rpida. Dado um conjunto grande de dados, muitas vezes necessrio encontrar elementos nele que atendam a um critrio especificado. No decurso da anlise dos dados, este tipo de pesquisa susceptvel de ocorrer repetidamente. Digitalizar os dados de todo o conjunto para encontrar elementos adequados obviamente impraticvel. Em vez disso, estruturas de ndice so criados com antecedncia, para permitir encontrar elementos de qualificao rapidamente. O problema que cada estrutura do ndice projetado para suportar apenas algumas classes de critrios. Com novas anlises desejadas usando Big Data, h novos tipos de critrios especificados, e uma necessidade de desenvolver novas estruturas de ndice para suportar tais critrios. Por exemplo, considere um sistema de gesto de trfego com informaes sobre milhares de veculos e locais hot spots nas estradas. O sistema pode precisar de prever potenciais pontos de congestionamento ao longo de uma rota escolhida por um usurio, e sugerir alternativas. Isso requer avaliar vrias consultas de proximidade espacial de trabalho com as trajetrias de objetos mveis. Estruturas de ndice novos so necessrios para suportar essas consultas. Projetando tais estruturas torna-se particularmente difcil quando o volume de dados est crescendo rapidamente, e as consultas tm prazos apertados de resposta. 3.4 de Privacidade A privacidade dos dados outra grande preocupao, e que aumenta no contexto de Big Data. Para os registros eletrnicos de sade, existem leis rgidas que regem o que pode e no pode ser feito. Para outros dados, regulamentos, especialmente nos EUA, so menos contundentes. No entanto, existe um grande medo pblico sobre o uso inadequado de dados pessoais, nomeadamente atravs da ligao de dados de mltiplas fontes. Gerenciar a privacidade efetivamente um problema tanto tcnico e sociolgico, que deve ser tratado em conjunto de ambas as perspectivas para cumprir a promessa do Big Data. Considere, por exemplo, os dados recolhidos a partir de servios baseados em localizao. Essas novas arquiteturas requerem um usurio pode compartilhar seu / sua posio com o prestador de servios, resultando em problemas de

privacidade bvias. Note que esconder a identidade do usurio sozinho, sem esconder sua localizao no tratam corretamente essas preocupaes com a privacidade. Um atacante ou um (potencialmente malicioso) servidor baseado em localizao pode-se inferir a identidade da fonte de consulta a partir de sua informao de localizao (subsequente). Por exemplo, a informao de um usurio local pode ser rastreado atravs de vrios pontos de conexo fixas (por exemplo, torres de celular). Depois de um tempo, o usurio deixa "um rastro de migalhas de pacotes", que podem ser associados a uma residncia certa ou localizao do escritrio e, assim, usado para determinar a identidade do usurio. Vrios outros tipos de informaes surpreendentemente privadas, tais como problemas de sade (por exemplo, a presena em um centro de tratamento de cncer) ou preferncias religiosas (por exemplo, a presena de uma igreja) tambm pode ser revelado por apenas observando o movimento de usurios annimos e padro de utilizao ao longo do tempo. Em geral, Barabsi et al. mostrou que h uma correlao estreita entre as identidades das pessoas e seus padres de movimento [Gon2008]. Observe que ocultar a localizao de um usurio muito mais desafiador do que esconder sua identidade. Isto porque com servios baseados na localizao, a localizao do usurio necessria para um acesso aos dados com sucesso ou uma coleo de dados, enquanto que a identidade do utilizador que no seja necessrio. Existem muitos outros problemas de pesquisas desafiadoras. Por exemplo, ns no sabemos ainda como compartilhar dados privados, limitando a divulgao e garantir a utilidade de dados suficiente nos dados compartilhados. O paradigma existente de privacidade diferencial um passo muito importante na direo certa, mas infelizmente ele reduz grandemente o contedo de informaes, a fim de ser til em casos mais prticos. Alm disso, os dados reais no so estticos, mas aumentam e mudam ao longo do tempo, nenhuma das tcnicas predominantes resultam em qualquer contedo til sendo lanado neste cenrio. No entanto, outro sentido muito importante repensar em segurana para o compartilhamento de informaes nos casos de uso do Big Data. Muitos servios online hoje exigem de ns compartilharmos informaes privadas (pense em aplicativos do Facebook), mas, alm do nvel de registro de controle de acesso, no entendemos o que significa compartilhar dados, como os dados compartilhados podem ser ligados, e como dar aos usurios fino controle refinado sobre este compartilhamento. 3.5 colaborao humana Apesar dos grandes avanos feitos na anlise computacional, ainda h muitos padres que os humanos podem facilmente detectar, mas algoritmos de computador tm um tempo difcil encontrar. Na verdade, CAPTCHAs exploram precisamente este fato para informar aos usurios da web humanos para alm de programas de computador. Idealmente, a anlise de Big Data no vai ser tudo computacional - em vez disso, ser projetado explicitamente para ter um humano no ciclo. O novo sub-campo de anlise visual est tentando fazer isso, pelo menos no que diz respeito fase de modelagem e anlise do pipeline. H um valor semelhante para a contribuio humana em todas as fases de anlise do pipeline. No complexo mundo de hoje, que muitas vezes leva vrios especialistas de diferentes domnios para realmente entender o que est acontecendo. Um sistema de anlise de Big Data deve apoiar a entrada de vrios especialistas

humanos e explorao compartilhada de resultados. Estes peritos mltiplos podem ser separados no espao e no tempo em que muito caro para montar uma equipe inteira juntos em um quarto. O sistema de dados tem de aceitar esta entrada especialista distribuda, e apoiar a sua colaborao. Um mtodo popular novo do engenho humano aproveitando para resolver os problemas atravs de crowd-sourcing. Wikipedia, a enciclopdia on-line, talvez o exemplo mais conhecido de dados multido origem. Estamos confiando em informaes fornecidas por estranhos no controlados. Na maioria das vezes, o que dizem correto. No entanto, devemos esperar que haja indivduos que tm outros motivos e habilidades - alguns podem ter um motivo para fornecer informaes falsas em uma tentativa intencional de enganar. Enquanto a maioria tais erros sero detectados e corrigidos por outras pessoas na multido, precisamos de tecnologias para facilitar isso. Tambm precisamos de uma estrutura para usar na anlise desses dados multido de origem com declaraes contraditrias. Como seres humanos, ns podemos olhar para comentrios de um restaurante, alguns dos quais so positivos e outros crticos, e chegar a uma avaliao sumria com base no qual podemos decidir se tentar comer l. Precisamos de computadores para ser capaz de fazer o equivalente. As questes de incerteza e erro tornar-se ainda mais pronunciada em um tipo especfico de crowd-sourcing, denominado senso participativo. Neste caso, cada pessoa com um telefone celular pode agir como um sensor multi-modal coleta de vrios tipos de dados instantaneamente (por exemplo, imagem, vdeo, udio, localizao, tempo, velocidade, direo, acelerao). O desafio extra aqui a incerteza inerente dos dispositivos de coleta de dados. O fato de que os dados coletados so, provavelmente, espacialmente e temporalmente correlacionados pode ser explorado para avaliar melhor a sua correo. Quando multido de origem os dados so obtidos de aluguel, por exemplo, com "turcos Mecnica," grande parte dos dados podem ser criados com o objetivo principal de conseguir o feito rapidamente e no corretamente. Este mais um modelo de erro, que deve ser planejado para explicitamente quando se aplica. 4. Arquitetura do Sistema As empresas hoje j usa, e apreciam o valor da inteligncia de negcios. Os dados de negcios so analisados para muitas finalidades: a empresa pode realizar anlises do sistema de registro e anlise de mdias sociais para avaliao de risco, reteno de clientes, gesto da marca, e assim por diante. Normalmente, tais tarefas variadas foram tratadas por sistemas separados, mesmo que cada sistema inclui medidas comuns de extrao de informaes, limpeza de dados, relacional como processamento (junta, grupo-by, agregao), modelagem estatstica e preditiva, e explorao adequada e visualizao ferramentas, como mostrado na Fig. 1. Com Big Data, a utilizao de sistemas separados desta maneira torna-se proibitivamente dispendioso devido ao grande tamanho dos conjuntos de dados. A despesa devida no s ao custo dos prprios sistemas, mas tambm o tempo necessrio para carregar os dados em vrios sistemas. Em consequncia, Big Data tornou necessrio para executar cargas de trabalho heterogneas em uma nica infraestrutura suficientemente flexvel para lidar com todas essas cargas de trabalho. O desafio aqui no construir um sistema que ideal para todas as tarefas de processamento. Em vez disso, a necessidade para a arquitetura subjacente do sistema para ser flexvel o

suficiente para que os componentes construdos em cima dela para expressar os vrios tipos de tarefas de processamento pode ajust-lo para executar com eficincia essas cargas de trabalho diferentes. Os efeitos de escala na arquitetura fsica foram considerados na Seo 3.2. Nesta seo, vamos nos concentrar nas necessidades de programao. Se os usurios esto a compor e construir complexos pipelines mais analticos Big Data, essencial que eles tenham adequados de alto nvel primitivas para especificar suas necessidades em tais sistemas flexveis. O quadro MapReduce foi tremendamente valioso, mas apenas um primeiro passo. Mesmo linguagens declarativas que explor-la, como porco Latina, esto em um nvel bastante baixo quando se trata de tarefas de anlise complexas. Semelhantes especificaes declarativas so necessrias em nveis mais altos para atender as necessidades programao e composio destes dutos anlise. Alm da necessidade tcnica bsica, h um imperativo de negcio forte tambm. Empresas normalmente vai terceirizar o processamento de dados grande, ou muitos aspectos dele. Especificaes declarativas so obrigados a permitir que os acordos de nvel de servios tecnicamente significativos, desde o ponto do out-sourcing especificar exatamente qual tarefa ser executada sem entrar em detalhes de como faz-lo. Especificao declarativa necessria no s para a composio gasoduto, mas tambm para as operaes individuais prprios. Cada operao (limpeza, extrao de modelagem, etc) potencialmente executado em um conjunto de dados muito grande. Alm disso, cada operao em si suficientemente complexo que h muitas opes e otimizaes possveis em como ela implementada. Em bancos de dados, h um trabalho considervel na otimizao de operaes individuais, tais como associaes. bem conhecido que pode haver vrias ordens de magnitude diferena no custo de duas maneiras diferentes para executar a mesma consulta. Felizmente, o usurio no tem que fazer essa escolha - o sistema de banco de dados faz isso por ela. No caso do Big Data, essas otimizaes pode ser mais complexa, porque nem todas as operaes de I / O intensivo como em bancos de dados. Algumas operaes podem ser, mas outros podem ser intensivo da CPU, ou uma mistura. Tcnicas de otimizao de modo padro de banco de dados no pode ser usado diretamente. No entanto, deve ser possvel desenvolver novas tcnicas para operaes de dados Big inspirados por tcnicas de banco de dados. O prprio fato de que a anlise de Big Data tipicamente envolve vrias fases destaca um desafio que se coloca rotineiramente na prtica: sistemas de produo deve executar complexas pipelines analticas, ou fluxos de trabalho, em intervalos de rotina, por exemplo, horrio ou dirio. Novos dados devem ser incrementalmente representaram, tendo em conta os resultados da anlise prvia e dados pr-existentes. E, claro, provenincia deve ser preservado, e deve incluir as fases do gasoduto analtica. Os sistemas atuais oferecem pouco ou nenhum suporte para tais condutas de dados grande, e isso em si um objetivo desafiador. 5. Concluso Entramos em uma era de Big Data. Atravs de uma melhor anlise de grandes volumes de dados que esto se tornando disponveis, h o potencial para fazer avanos mais rpidos em muitas disciplinas cientficas e melhorar a rentabilidade e sucesso de muitas empresas. No entanto, muitos desafios

tcnicos descritos neste documento devem ser abordadas antes que este potencial possa ser realizado plenamente. Os desafios no incluem apenas as questes bvias de escala, mas tambm de heterogeneidade, a falta de estrutura, privacidade, tratamento de erros, pontualidade, visualizao, provenincia e, em todas as fases do pipeline de anlise de aquisio de dados para a interpretao dos resultados. Estes desafios tcnicos so comuns em uma grande variedade de domnios de aplicao e, portanto, no o custobenefcio para resolver no contexto de um domnio s. Alm disso, estes desafios exigem solues transformadoras, e no ser abordada naturalmente pela prxima gerao de produtos industriais. Devemos apoiar e incentivar a pesquisa fundamental para enfrentar estes desafios tcnicos, se quisermos alcanar os benefcios prometidos de Big Data.

S-ar putea să vă placă și