Tecnologias Emergentes... Conceitos e Modelagem e Dados para Data Warehouses, Data Mining, Big Data. Modelos de Dados Avançados para Aplicações Avançadas XML PDF
0 evaluări0% au considerat acest document util (0 voturi)
156 vizualizări93 pagini
Titlu original
Tecnologias Emergentes... Conceitos e Modelagem e dados para Data Warehouses, Data Mining, Big Data. Modelos de Dados Avançados para Aplicações Avançadas; XML.pdf
0 evaluări0% au considerat acest document util (0 voturi)
156 vizualizări93 pagini
Tecnologias Emergentes... Conceitos e Modelagem e Dados para Data Warehouses, Data Mining, Big Data. Modelos de Dados Avançados para Aplicações Avançadas XML PDF
Data. Modelos de Dados Avanados para Aplicaes Avanadas; XML. Cssio Grace Guilmour Vanessa Business Intelligence Business Intelligence O que ? Origem Usado em que? Beneficios BI nas redes sociais Definio de BI - Gartner Group Business Intelligence o processo de transformar dados em informao atravz da descoberta de transformar informao em conhecimento Business Intelligence Business Intelligence Business Intelligence Data Warehousing Conceito Data warehouse um depsito de dados digitais que serve para armazenar informaes detalhadas relativamente a uma empresa, criando e organizando relatrios atravs de histricos que so depois usados pela empresa para ajudar a tomar decises importantes com base nos fatos apresentados. O data warehouse serve para recolher informaes de uma empresa para que essa possa controlar melhor um determinado processo, disponibilizando uma maior flexibilidade nas pesquisas e nas informaes que necessitam. Para alm de manter um histrico de informaes, o Data Warehouse cria padres melhorando os dados analisados de todos os sistemas, corrigindo os erros e restruturando os dados sem afetar o sistema de operao, apresentando somente um modelo final e organizado para a anlise. Surgiu da necessidade de integrar dados corporativos espalhados em diferentes mquinas e sistemas operacionais, para tornar os dados acessveis. Problemas Ns possumos montanhas de dados, no entanto, no conseguimos acessa-los. Ns precisamos analisar os dados de todas as maneiras possveis. (quebrar as informaes em conjunto menores, ou analisar em diferentes pontos de vista) necessrio facilitar o acesso s informaes para os usurios de negcio. Apenas mostre-me o que importante. (facilitar o acesso ao dados para o usurio tomar decises) Misso 1. Tornar a misso facilmente acessvel (informao de fcil entendimento) 2. Apresentar informaes consistente (informao de alta qualidade) 3. Adaptvel e flexvel mudana (necessidades do usurio, condies e dados do negcio) 4. Proteger e tornar a informao segura 5. Auxiliar no processo de tomada de deciso 6. Ser aceito pela comunidade de negcio Vantagens e desvantagens de Data warehousing Algumas das principais vantagens do data warehouse so: Inconsistncias so identificadas e solucionadas antes dos dados serem carregados, o que facilita a execuo da anlise e de relatrios; Contribuem para o processo de tomar decises, atravs de relatrios de tendncias, de exceo e relatrios que revelam os objetivos versus desempenho real. O data warehouse tambm tem algumas desvantagens, entre as quais: No uma soluo adequada para dados no-estruturados; Podem ter custos elevados e podem ficar ultrapassados com alguma rapidez. Caractersticas principais Orientado por tema/assunto Integrado Variante no tempo No voltil Data warehouse X Banco de dados operacional Data warehouse X Banco de dados operacional Data warehouse X Banco de dados operacional Data warehouse X Banco de dados operacional Estrutura do DW - Segundo Kimbal Data Mart Arquiteturas de Data Warehouse Arquitetura resumida DW Arquiteturas de Data Warehouse A escolha da arquitetura e implementao de um DW so decises gerenciais do projeto. Estes fatores esto relacionados infraestrutura disponvel (banco de dados, ferramentas de consulta e visualizao, processamento paralelo, particionamento de dados), ambiente de negcios, porte da empresa, escopo de abrangncia desejado, assim como a capacidade da equipe interna de TI e dos recursos disponibilizados para investimento. Arquitetura de Data Warehouse Empresarial (Enterprise Data Warehouse EDW) A construo do Data Warehouse em 7 etapas Tipos de Data Warehouse DW baseado em Servidor Mainframe ou servidor de rede local (LAN) DW Virtual Rene dados operacionais e dados histricos mantidos em BDs no h um DW central DW Distribudo DW global rene dados de vrios DWs locais DW baseado na Web Dados provenientes da World Wide Web Data Mining - Data Mining ou minerao de dados, um processo analtico para explorar grandes quantidades de dados. - Busca padres consistentes e relacionamentos entre variveis, e os valida, aplicando os padres a novos subconjuntos. - Segundo a Gartner Group (desenvolve tecnologias relacionadas a introspeco necessria para seus clientes tomarem suas decises todos os dias.) uma tecnologia emergente e uma das mais promissoras. - No entanto, Data Mining ainda est baseado em princpios conceituais de Dados Exploratrios e de modelagem. Data Mining uma das seis fases do KDD ( Processo de Descoberta de Conhecimento em Banco de dados), juntamente com a seleo de dados, limpeza, enriquecimento, transformao ou codificao -datamining- construo de relatrios e apresentao da informao. Metas do Data Mining Predio Identificao Classificao Otimizao Regras e/ou padres descobertos pelo Data Mining rvore de Classificao Regras de Associao Hierarquia de Classificao Padres Sequenciais Padres com sries temporais Clustering Aplicaes do Data Mining Marketing Aplicaes como anlises de comportamento do consumidor baseadas em padres de consumo e definio de estratgias de marketing; Finanas Analise de crdito de clientes, segmentao de contas a receber. Algoritmo de Clustering (k-means) De uma forma resumida: Atribuem-se valores iniciais para os prottipos seguindo algum critrio; depois, atribui-se cada objeto ao grupo cujo prottipo possua maior similaridade com o objeto; seguindo essa linha, se recalcula o valor do centroide de cada grupo como sendo a mdia dos objetos atuais do grupo; depois, apenas se repetem-se a atribuio de valor cujo prottipo tenha maior similaridade, e se recalcular o valor do centroide at que os grupos se estabilizem. BIG DATA
Contextualizao: TARGET, loja EUA com 1800 pontos de vendas. Rastreava e armazenavas as pegadas digitais deixadas pelos consumidores; BIG DATA Nome em ingls usado para definir a tectnica quantidade de dados e informaes que produzimos no mundo digital. Conceito: Conjuntos de dados extremamente grandes e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informao nestes meios possa ser encontrada, analisada e aproveitada em tempo hbil. Curiosidade: A cada DIA: 2,5 exabytes de informaes so produzidos pela humanidade. 25 petabytes so processados pelo Google. 43 petabytes so trocados por smartphones e tablets conectados pela internet. No facebook os usurios sobem 300 milhes de fotos diariamente. Petabyte (1 000 000 000 000 000 de bytes) 1,5 petabytes armazena todas as msicas j criadas pela humanidade. Exabyte (1 000 000 000 000 000 000 de bytes) 3 Exabytes tudo que a humanidade conseguia guardar em 1986 - hoje produzimos quase o dobro em DOIS dias. Porque esse aumento? O custo para se armazenar dados caiu. H duas dcadas atrs, estocar 1gigabyte custava 1000 dlares, hoje custa 6 centavos. Estruturados x No estruturados Pequena parte; so limpos, corretos e checados, como uma pesquisa do IBGE; Grande novidade do Big Data; So dados sujos, incompletos e caticos; Exemplos: E nova foto no Facebook, um novo tute, o novo vdeo no You tube; a pesquisa no Google, a msica que se escuta online, livro que se l no leitor eletrnico; o lixo online, mas um lixo que vale ouro; O que podemos obter atravs dos dados: Uma pesquisa na Universidade de Cambridge com base nos dados de 58 000 usurios do Facebook descobriu que pessoa com alto QI tem um apreo especial pela voz de Morgan Freeman. O que podemos obter atravs dos dados: A Master Card, analisando 65 bilhes de transaes de 1,5 bilho de clientes de 210 pases descobriu que o consumidor que enche o tanque do carro, por volta das 16hrs tente a gastar 35 a 50 dlares na hora seguinte num mercado ou restaurante. Em 80% religio e posio poltica. Em 95% descobriram a raa do usurio. Em 88% a orientao sexual. Caractersticas no revelados no Facebook: Revolucionrio BIG DATA Em toda histria, a humanidade tomou decises com base numa parte do todo, agora pela primeira vez, podemos comear a tomar decises com base no todo, com 100% de informao. Aplicao : Stephan Fihn coordena o sistema Big Data da rede mdico hospitalar que atende 25 milhes de veteranos de guerra dos EUA. Sua base de dados: 80 milhes de arquivos; 9 milhes de internaes; 6 milhes de exames de laboratrios; 3 bilhes de bilhetes mdicos; Cruzando tudo Fihn faz projees sobre a sade dos pacientes: Suas previses so semanais: Qual a probabilidade de tal paciente ser internado em trinta dias? Qual o risco de falecimento? Outras aplicaes: Google Permitir que centenas de milhes de usurios recebam resultados de suas buscas em meio segundo no o grande desafio do Big Data no Google. O tesouro de verdade est nos zilhes de informaes que os usurios fornecem aos computadores da Google. Outras aplicaes: Amazon De cada 100 pessoas que entram no Amazon, apenas 2 cumprem todas as etapas para efetivamente comprar algum item. Sobre esses 2% o Amazon sabe quase tudo, o grande desafio capturar os dados dos 98% dos que no chegaram ao fim. Os Vs do Big Data Volume Velocidade Variedade Veracidade Valor Modelagem de dados para Data Warehousing Um modelo de dados bem estruturado prover empresa a capacidade de extrair as informaes certas das mais diferentes formas e maneiras, independente da ferramenta ou do grau de complexidade exigido nas consultas. Sem uma estrutura bem elaborada, a enorme quantidade de informaes pode tornar as consultas muito lentas, podendo tambm tornar inviveis algumas operaes de consulta. Modelagem de dados para Data Warehousing Sistema OLAP On Line Analytical Processing Permite aos usurios de alto nvel, como gerentes e analistas de negcio, navegarem entre os dados da empresa com maior facilidade, proporcionando uma viso multi-dimensional desses dados. O sistema OLAP fornece uma viso multi-dimensional dos dados, no importando como estes dados esto fisicamente armazenados. Os dados so percebidos pelo usurio como um cubo multi-dimensional onde cada clula contm um valor ou medida. Modelagem de dados para Data Warehousing Sistema Transacional X Sistema Analtico Caracterstica Sistemas Transacionais (OLTP) Sistemas Analticos (OLAP) Atualizaes Mais frequentes Menos freqentes Tipo de Informao Detalhes Agrupamento Quantidade de Dados Poucos Muitos Preciso Dados atuais Dados histricos Complexidade Baixa Alta Consistncia Microscpica Global Exemplos CRM, ERP, Supply Chain MIS, DSS, EIS Terminologia Linhas e Colunas Dimenses, Medidas e Fatos Modelagem de dados para Data Warehousing *Consultas ad-hoc: consultas com acesso casual nico e tratamento dos dados segundo parmetros nunca antes utilizados Sistema Transacional X Sistema Analtico Caracterstica Sistemas Transacionais (OLTP) Sistemas Analticos (OLAP) Usurios Tpicos Usurios em Geral Gerentes, Analistas de Negcios Aplicao Operaes do Dia-a-Dia Anlises de Negcios Interao do Usurio Pr-determinado Ad-hoc* Caractersticas de Trabalho Leitura/Gravao Leitura Unidade de Trabalho Transao Consulta Processamento Orientado a processos Orientado a assuntos Atualizao Um registro por vez Vrios registros por vez Modelagem de dados para Data Warehousing Banco de Dados Multi-dimensional Modelagem de dados para Data Warehousing Banco de Dados Multi-dimensional Modelagem de dados para Data Warehousing Banco de Dados Multi-dimensional Modelagem de dados para Data Warehousing Modelo Relacional Surgiu para atender sistemas transacionais que possuem operaes atmicas (que devem ocorrer por completo ou ento serem desfeitas) predefinidas, geralmente, com um grande nmero de usurios simultneos realizando operaes repetidamente. Modelo Dimensional Surgiu para atender sistemas de processamento analtico, com consultas para planejamento ttico e estratgico da empresa. Para melhor desempenho nas consultas, h redundncia planejada dos dados, compensando os gastos com armazenamento e atualizao das informaes. As atualizaes so feitas periodicamente em batch, no havendo a necessidade de controle de concorrncia. Os usurios somente realizam consultas na base de dados, podendo extrair e formatar seus prprios relatrios, no dependendo da equipe de tecnologia para isso. Modelagem de dados para Data Warehousing Modelo Dimensional Formado por trs elementos bsicos Dimenses Fatos Medidas Modelagem de dados para Data Warehousing Modelagem de dados para Data Warehousing Modelos de dados Avanados para aplicaes avanadas Temporais Ativos Multimdia Dedutivos Conceito de Banco de Dados Temporais Tipos de Tempo Tempo Instantneo Tempo de uma Transao Tempo de Validade Tempo Bi-temporal Conceito de Banco de Dados Temporais Ordem do Tempo Ordem Linear Forma mais usual de ordenao temporal. Um dado com no mximo um sucessor e um predecessor. Exemplo: evoluo do salrio de um empregado. Ordem Ramificada Um dado pode ter vrios sucessores e/ou predecessores Exemplos: alternativas para futuro estado de um paciente que j possui um histrico de passagens no hospital por uma determinada doena (futuro ramificado). Hiptese para a evoluo do homem at os dias de hoje (passado ramificado). Ordem Circular Um conjunto de dados se repete periodicamente em uma certa ordem. Exemplo: perodos de promoo de uma loja, vero, pascoa, dia das mes, Outono//Inverno, dias dos pais, natal, queima de estoque. Banco de Dados Ativos Banco de Dados Ativos (BDA) Definio das regras ou gatilhos Seu correspondente modelo de execuo Otimizao. Uso dos Sistemas Ativos Suporte automtico ao usurio Notificao Execuo automtica de procedimentos Provimento de valores default Funcionalidade do modelo de dados Manuteno da integridade Proteo Uso dos Sistemas Ativos Gerenciamento dos recursos Otimizao do armazenamento fsico Gerenciamento de vises Regras e Gatilhos Regras E-C-A Evento Condio Ao Regras E-C-A: Componentes Conceito de Banco de Dados Multimdia Coleo controlada de itens de dados multimdia, como imagem, udio e vdeo. Dados complexos, como imagem, vdeo e texto livre, so diferentes dos dados alfa-numricos clssicos, em termos tanto de apresentao quanto de semntica. Conceito de Banco de Dados Multimdia Processamento de Dados Multimdia O dado multimdia requer um processamento mais elaborado para extrair informaes de seu contedo O contedo do dado multimdia capturado por tcnicas variadas, diferentes entre si (por exemplo: o processamento digital de imagens). Pesquisas feitas em bancos de dados multimdia geralmente no podem ser retornadas s com uma resposta textual. A resposta a uma consulta pode ser uma apresentao multimdia complexa; Um usurio que faz uma pesquisa pode desejar modific-la, e importante que seja possvel alterar de forma incremental a apresentao multimdia original, de modo a permitir seu reuso, ao invs de criar uma nova apresentao desde o incio. Conceito de Banco de Dados Temporais Geralmente, todo sistema de Banco de Dados trata de informaes relativas a tempo. Um exemplo clssico um controle acadmico onde se deve armazenado o histrico de cada aluno, como ano e semestre cursado. Mas os desenvolvedores normalmente no se preocupam especificamente com esse conceito. Devido, talvez, a sua complexidade, tratam essa informao como algo que no merea ateno especial. http://lms.ead1.com. br/webfolio/Mod3160/mod_topicos_avancados_em_banco_de_dados_v1.pdf Conceito de Banco de Dados Dedutvel Bancos de dados dedutivos fornecem um mecanismo para derivar dados que no esto explicitamente armazenados no banco de dados (conhecidos como dados virtuais ou dados derivados). So mais poderosos e expressivos que as vises, embora mais problemticos para serem suportados [LT92]. No existe uma diviso bvia entre os bancos de dados dedutivos e os ativos. A principal diferena est baseada no modelo de execuo. No primeiro tipo, geralmente a preocupao a derivao de informao, e as regras so executadas explicitamente pela aplicao. No segundo, as regras (ou gatilhos) so disparadas como efeito colateral das aes normais do banco de dados [Wid93]. XML Dados Estruturados Dados Semi estruturados Heterogneos Irregulares auto-descritivos Dados No estruturados O que so? Onde so armazenados? O que BLOB? Exemplos Bancos de dados e Web Banco de dados e Web Documentos de hyperlink HTML Cdigo HTML Evoluo da Internet XML XML XML bem formatado Estrutura do XML Exemplos de Regras HTML X XML 3 tipos principais de XML Data-Centric: XML centrado em dados; Document-Centric: XML centrado em documentos; Hibrid: XML que mescla dados e documentos. APIs XQuery Software Revisando Data Warehouse Data Mart Big Data Data Mining Concluso Referncias http://www.efagundes.com/Artigos/O%20que%20eum%20data%20warehouse.htm http://www.uniritter.edu. br/graduacao/informatica/sistemas/downloads/tcc2k9/TCCII_Andre_2009_2.pdf http://meusite.mackenzie.com.br/rogerio/tgi/2004ModelagemDW.pdf http://www.inf.unioeste.br/~olguin/4458-semin/G8-monografia.pdf http://www.documentar.com.br/tag/big-data/ http://www.dct.ufms.br/~mzanusso/Data_Mining.htm http://www.tecmundo.com.br/programacao/1762-o-que-e-xml-.htm