Documente Academic
Documente Profesional
Documente Cultură
Geociências
Análise Multivariada de dados geológicos
para a tomada de decisão
Belo Horizonte – MG
Agosto de 2019
Sumário
1 Apresentação......................................................................................................... 3
Referências ................................................................................................................ 16
As estatísticas de décadas atrás, por exemplo, não poderiam ser utilizadas para
analisar a grande quantidade de informação que temos hoje e na velocidade de que o
mercado precisa, dada a sua alta escalabilidade. Em resumo, é aí que reside o poder
do Data Science: prever o que os dados coletados podem representar no futuro, em
vez de apenas mostrar estatísticas ou previsões de curto prazo. As análises estatísticas
focam e analisam o passado, preocupando-se com o histórico apenas em seu aspecto
analítico, porém o objetivo de aplicar Data Science sobre os dados é descobrir padrões
implícitos nos dados e realizar as predições necessárias para apoio a tomada de
decisão.
Hoje, a análise de dados tradicional busca prever tendências, mas fazendo uso de
modelos de dados individuais que — apesar de úteis — dependem de questões muito
bem definidas para se atingir bons resultados.
E isso é possível não apenas lançando números em um relatório, mas aplicando mais
inteligência, visões e possibilidades no planejamento de negócios, seja na forma de
análise de históricos ou na previsão de tendências.
Trata-se, em partes, de uma extensão direta da análise de uma única variável: análise
descritiva (gráficos, medidas descritivas, etc) e inferencial (ajuste de distribuições,
testes de hipóteses, etc).
Segundo Pereira (2017), a análise das componentes principais, ou PCA (do inglês
Pricipal Component Analysis) é uma técnica onde a partir n observações de um número
de p variáveis, é analisado se é possível representar adequadamente esta informação
com um número menor de variáveis, construídas a partir de combinações lineares das
variáveis originais.
Neste curso, a PCA será aplicada como etapa intermediária para análise de modelos
de regressão múltipla, visando a simplificação deste mediante a redução de variáveis.
eBook – Data Science em Geociências 6/16
2.2 Análise de agrupamentos
Figura 2.2 Análise de agrupamento aplicados aos escores de uma PCA (Pereira, 2017)
Neste curso, a análise de agrupamento será aplicada como etapa intermediária para
análise de modelos de regressão múltipla, de modo separar as bases de dados em
subgrupos, visando uma maior acertividade nos modelos de regressão.
Neste curso, a análise discriminante será aplicada como etapa intermediária para
análise de modelos de regressão múltipla, visando validar as análises de agrupamentos
realizadas.
Uma análise de regressão gera uma equação para descrever a relação estatística entre
uma ou mais preditoras e a variável de resposta e para predizer novas observações. A
regressão linear normalmente usa o método de estimativa de mínimos quadrados
ordinários que deriva a equação minimizando a soma dos resíduos quadrados.
Com volumes de dados expandindo além dos níveis de petabytes e exabytes em muitas
disciplinas científicas, o papel do big data na pesquisa científica está se tornando cada
vez mais aparente. De acordo com um artigo da International Data Corporation (IDC),
a quantidade total de dados digitais criados, replicados e consumidos mais do que
dobra a cada dois anos. Havia cerca de 4,4 zettabytes (ZB) de dados criados, replicados
e consumidos em todo o mundo em 2013. A IDC estima que até o ano 2025, a Figura 1
chegará a 163 ZB (Reinsel, Gantz e Rydning, 2017 Reinsel, D., Gantz , J., & Rydning, J.
(2017) Data 2025: A evolução dos dados para a vida crítica não se concentra em
grandes dados Framingham: IDC Analyse the Future.
A pesquisa em big data é diferente da pesquisa lógica tradicional. Ele usa indução
analítica aplicada a uma grande quantidade de dados para pesquisar, comparar,
agrupar e classificar estatisticamente. Envolve análise de correlação e implica que
pode haver certa regularidade na relação entre os valores de duas ou mais variáveis;
também visa descobrir redes correlacionadas ocultas em conjuntos de dados (Li &
Cheng, 2012 Li, G., & Cheng, X. (2012). Status de pesquisa e pensamento científico de
big data. Boletim da Academia Chinesa de Ciências, 27 ( 6), 647-657.
ALER, J.; DU MONZA, J.; ARNOULD, M.; Evaluation of blast fragmentation efficiency
and its prediction by multivariate analysis procedures. International Journal of Rock
Mechanics Mining Science & Geomechanical Abstracts, v. 33, n. 2, p. 189-196, 1996.
KULATILAKE, P.H.S.W.; QIONG, Wu; HUDAVERDI, T.; KUZU, C. Mean particle size
prediction in rock blast fragmentation using neural networks. Engineering Geology, v.
114, p.298-311, jun.2010.