Análise de Dados Multivariada em Geociências

Data Science em
Geociências
Análise Multivariada de dados geológicos
para a tomada de decisão
Paulo Filipe Trindade Lopes
Belo Horizonte – MG
Agosto de 2019
Sumário
1 Apresentação......................................................................................................... 3
2 Estatística multivariada .......................................................................................... 5
2.1 Análise das componentes principais ................................................................ 5
2.2 Análise de agrupamentos ................................................................................ 7
2.3 Análise discriminante ...................................................................................... 7
2.4 Técnicas de regressão múltipla ........................................................................ 8
3 Big data para geociências .................................................................................... 10
4 Por que os cientistas de dados estão em alta nas geociências? ........................... 14
4.1 Eles são especializados, especialistas interdisciplinares................................. 14
4.2 Eles sabem como codificar............................................................................. 14
4.3 Eles entendem a reprodutibilidade e a ciência aberta ................................... 14
4.4 Eles têm habilidades de pensamento crítico .................................................. 15
4.5 Oportunidades em Data Science.................................................................... 15
Referências ................................................................................................................ 16
eBook – Data Science em Geociências 2/16

1 Apresentação
Sucintamente, Data Science envolve disciplinas diversas como estatística,

computação, conhecimentos de negócio e matemática e se refere a processos,
métodos científicos e técnicas com o intuito de extrair informações relevantes para o
negócio a partir do enorme volume de dados do Big Data. Significa também ter
disponível a capacidade de perceber rotas alternativas, oportunidades de mercado e
direções a partir de informações distintas.
As estatísticas de décadas atrás, por exemplo, não poderiam ser utilizadas para
analisar a grande quantidade de informação que temos hoje e na velocidade de que o
mercado precisa, dada a sua alta escalabilidade. Em resumo, é aí que reside o poder
do Data Science: prever o que os dados coletados podem representar no futuro, em
vez de apenas mostrar estatísticas ou previsões de curto prazo. As análises estatísticas
focam e analisam o passado, preocupando-se com o histórico apenas em seu aspecto
analítico, porém o objetivo de aplicar Data Science sobre os dados é descobrir padrões
implícitos nos dados e realizar as predições necessárias para apoio a tomada de
decisão.
Hoje, a análise de dados tradicional busca prever tendências, mas fazendo uso de
modelos de dados individuais que — apesar de úteis — dependem de questões muito
bem definidas para se atingir bons resultados.
Enquanto isso, o Data Science está um passo à frente e procura encontrar

conhecimento relevante partindo simplesmente de uma bruta e gigantesca massa de
dados que pode ser utilizada na tomada de importantes decisões.
E isso é possível não apenas lançando números em um relatório, mas aplicando mais
inteligência, visões e possibilidades no planejamento de negócios, seja na forma de
análise de históricos ou na previsão de tendências.

Assim, se o seu objetivo é tomar mais decisões de longo prazo na sua companhia ou
fazer estimativas ainda mais eficazes, é importante considerar o uso da Ciência de
Dados na sua companhia.

2 Estatística multivariada
Para se descrever adequadamente o desmonte de rochas, tanto do ponto de vista

operacional quanto fenomenológico, é necessário considerar, simultaneamente, os
dados procedentes de mais de uma variável.
Segundo Pereira (2017), A análise multivariada de dados consiste em um conjunto de

técnicas estatísticas para análise simultânea de dados provenientes de várias variáveis.
Trata-se, em partes, de uma extensão direta da análise de uma única variável: análise
descritiva (gráficos, medidas descritivas, etc) e inferencial (ajuste de distribuições,
testes de hipóteses, etc).
A grande importância em se realizar análises multivariadas encontra-se na

possibilidade de extrair a informação presente no relacionamento conjunto das
variáveis estudadas.
2.1 Análise das componentes principais
Segundo Pereira (2017), a análise das componentes principais, ou PCA (do inglês
Pricipal Component Analysis) é uma técnica onde a partir n observações de um número
de p variáveis, é analisado se é possível representar adequadamente esta informação
com um número menor de variáveis, construídas a partir de combinações lineares das
variáveis originais.

Figura 2.1 Redução da dimensionalidade usando a técnica de componentes principais
(Pereira, 2017)
Os principais objetivos da PCA são:
 Redução da dimensionalidade dos dados

 Obtenção de combinações lineares interpretáveis das variáveis originais
 Descrição e entendimento da estrutura de correlação entre as variáveis, atravás
de algumas combinações lineares destas
É uma técnica amplamente utilizada em todos ás áreas do conhecimento, e por fim,

valé ressaltar nesta breve revisão que a PCA:
Não pressupõe normalidade dos dados, embora componentes derivadas de

populações normais tenham interpretaçõess úteis.
Com frequência, revela relações insuspeitas, permitindo interpretações que não

seriam obtidas preliminarmente
Em algumas aplicações, os componentes da PCA configuram o objetivo final do

estudo. Em outras, servem como passo intermediário para realização de outras
análises, como regressão, classificação, agrupamento, etc
Neste curso, a PCA será aplicada como etapa intermediária para análise de modelos
de regressão múltipla, visando a simplificação deste mediante a redução de variáveis.
2.2 Análise de agrupamentos
Pereira (2017), define a análise de agrupamentos (Cluster Analysis, do inglês), como

uma técnica estatística cujo objetivo é o agrupamento de observações produzindo
grupos homogêneos internamente e heterogêneos externamente.
Figura 2.2 Análise de agrupamento aplicados aos escores de uma PCA (Pereira, 2017)
Neste curso, a análise de agrupamento será aplicada como etapa intermediária para
análise de modelos de regressão múltipla, de modo separar as bases de dados em
subgrupos, visando uma maior acertividade nos modelos de regressão.
2.3 Análise discriminante
Pereira (2017), define a análise discriminante (Discriminant Analysis, do inglês) como

uma técnica estatística cujo objetivo cd se distinguir estatisticamente dois ou mais
grupos de indivíduos, previamente definidos a partir de características conhecidas
para todos os membros dos grupos.

Figura 2.3 Fronteiras de classificação para as funções discriminantes para as variáveis de um
banco de dados tomadas duas a duas (Pereira, 2017)
Neste curso, a análise discriminante será aplicada como etapa intermediária para
análise de modelos de regressão múltipla, visando validar as análises de agrupamentos
realizadas.
2.4 Técnicas de regressão múltipla
Segundo Pereira (2017), As técnicas de regressão múltipla modelam a relação entre

variáveis independentes categóricas ou contínuas e uma variável resposta, e usam o
modelo ajustado para predizer valores de resposta para novas observações.
Uma análise de regressão gera uma equação para descrever a relação estatística entre
uma ou mais preditoras e a variável de resposta e para predizer novas observações. A
regressão linear normalmente usa o método de estimativa de mínimos quadrados
ordinários que deriva a equação minimizando a soma dos resíduos quadrados.

A regressão linear múltipla examina as relações lineares entre uma resposta contínua
e duas ou mais preditoras.
Se o número de preditoras for grande, antes de ajustar um modelo de regressão com

todas as preditoras, deve-se usar técnicas de seleção para remover preditoras não
associadas às respostas.
Variáveis de interesse em um experimento (aquelas que são medidas ou observadas)

são chamadas de variáveis de resposta ou dependentes. Outras variáveis, no
experimento que afetam a resposta e podem ser definidas ou medidas pelo
experimentador, são chamadas preditoras, explicativas ou independentes.
Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da

construção de modelos para identificar um subconjunto útil de preditores. O processo
adiciona sistematicamente a variável mais significativa ou remove a variável menos
significativa durante cada etapa.

3 Big data para geociências
Com volumes de dados expandindo além dos níveis de petabytes e exabytes em muitas
disciplinas científicas, o papel do big data na pesquisa científica está se tornando cada
vez mais aparente. De acordo com um artigo da International Data Corporation (IDC),
a quantidade total de dados digitais criados, replicados e consumidos mais do que
dobra a cada dois anos. Havia cerca de 4,4 zettabytes (ZB) de dados criados, replicados
e consumidos em todo o mundo em 2013. A IDC estima que até o ano 2025, a Figura 1
chegará a 163 ZB (Reinsel, Gantz e Rydning, 2017 Reinsel, D., Gantz , J., & Rydning, J.
(2017) Data 2025: A evolução dos dados para a vida crítica não se concentra em
grandes dados Framingham: IDC Analyse the Future.
Na atual era do big data, a competitividade nacional será refletida no tamanho,

qualidade e aplicabilidade dos dados de um país. O big data tornou-se uma
manifestação da soberania informacional; será o próximo tópico do debate
internacional e desempenhará um papel significativo na defesa da fronteira, costeira
e aérea (Fang, 2013 Fang, J. (2013). A ciência e a engenharia de redes enfrentam um
novo desafio e desenvolvem oportunidades sob a onda impacto do big data, Jornal
Chinês da Natureza, 35 (5), 345-354.

Figura 3.1 Expectativa de crescimento dos dados: 2016 até 2025
O Big Data começou a influenciar significativamente os padrões globais de produção,

circulação, distribuição e consumo. Está mudando os métodos de produção, os estilos
de vida, os mecanismos de operação econômica e os modelos de governança dos
países da humanidade. O big data ocupa o terreno estratégico elevado na era das
economias orientadas pelo conhecimento e é um novo recurso estratégico para todas
as nações.
As contribuições do Big Data para as descobertas científicas começaram a ser

reconhecidas. Em um caso, os cientistas do CERN analisaram os registros de 800
trilhões de colisões de partículas (big data) no processo de tentar encontrar a partícula
de Higgs. Conjuntos de dados sem precedentes, gerados, detectados e colhidos de
experimentos, observações e simulações, trouxeram grandes oportunidades de
progresso científico por dois motivos:
i. Enormes conjuntos de dados podem servir como insumos importantes e apoiar

o ajuste e validação de teorias atuais que se relacionam com importantes
problemas científicos, levando a novas descobertas. Um bom exemplo é o novo

paradigma de “big data meets big models” que é importante em grandes
problemas inversos.
ii. Os conjuntos de dados massivos são capazes de fornecer fontes infinitas de
novos conhecimentos sem a necessidade de modelar fenômenos científicos.
Isso tem sido chamado de quarto paradigma - descoberta científica com uso
intensivo de dados. Não há, portanto, nenhuma dúvida de que os big data irão
mudar significativamente a maneira como as descobertas científicas são feitas
no futuro. Os cientistas devem estar preparados para acolher uma nova era na
qual os big data terão um papel importante e poderão dominar as metodologias
usadas na pesquisa científica.
A pesquisa em big data é diferente da pesquisa lógica tradicional. Ele usa indução
analítica aplicada a uma grande quantidade de dados para pesquisar, comparar,
agrupar e classificar estatisticamente. Envolve análise de correlação e implica que
pode haver certa regularidade na relação entre os valores de duas ou mais variáveis;
também visa descobrir redes correlacionadas ocultas em conjuntos de dados (Li &
Cheng, 2012 Li, G., & Cheng, X. (2012). Status de pesquisa e pensamento científico de
big data. Boletim da Academia Chinesa de Ciências, 27 ( 6), 647-657.
Assim, pode-se observar que as características substantivas da computação de grandes

volumes de dados compreendem uma mudança de paradigma da ciência orientada
por modelos para a ciência orientada por dados, bem como o estabelecimento de uma
abordagem científica com uso intensivo de dados. A pesquisa científica empregou a
ciência baseada na observação desde o início, incluindo a ciência experimental que
começou há milhares de anos, a ciência teórica que surgiu no século XVII e o paradigma
da computação surgido no século XX. Na era do big data de hoje, surgiu um novo
paradigma de descoberta científica com uso intensivo de dados que é menos
dependente de modelos e conhecimento a priori (Guo, Wang, Chen e Liang, 2014 Guo,
H., Wang, L., Chen, F., & Liang, D. (2014) Dados científicos e terra digital científicos

Boletim da ciência chinesa, 59 (35), 5066–5073.10.1007 / s11434-014-0645-3. Ao
buscar relacionamentos em grandes quantidades de dados, novos modelos, novos
conhecimentos e novas leis podem ser descobertos e explorados.

4 Perspectivas para os cientistas de dados
Por que os cientistas de dados estão em alta nas geociências?
Aqui estão algumas características e habilidades de alto nível que os gerentes de

contratação procuram em candidatos a emprego. Essas características podem ser
difíceis de encontrar, e é por isso que os cientistas de dados da Terra estão em
demanda.
4.1 Eles são especializados, especialistas interdisciplinares
Os candidatos com experiência e credenciais profissionais em várias disciplinas são

frequentemente muito procurados. Quando solicitados a descrever as habilidades e a
perícia de um candidato ideal para um trabalho em sua organização, um entrevistado
da pesquisa destacou a sinergia entre a ciência de dados e a ciência da Terra
4.2 Eles sabem como codificar
Tradicionalmente, os profissionais das ciências da Terra seguiam um percurso de

carreira linear, acumulando experiência em geologia, ecologia, biologia, etc. Cientistas
da terra que integram habilidades de codificação e programação científica em seu
repertório são procurados. Um participante da pesquisa afirmou que procurava
candidatos que possuíam.
4.3 Eles entendem a reprodutibilidade e a ciência aberta
De acordo com alguns gerentes de contratação, simplesmente ser capaz de codificar

não é suficiente. Os entrevistados da pesquisa explicaram que os candidatos devem
ser capazes de codificar de uma maneira que seja reproduzível e fácil para os outros
entenderem. Um gerente de contratação observou que os candidatos devem ser:
Capaz de escrever código de pesquisa, elegante e reproduzível, em R ou Python.

4.4 Eles têm habilidades de pensamento crítico
Habilidades de pensamento crítico envolvem pensar além das abordagens

tradicionais; isso pode ser exibido por meio da experiência comprovada de
comunicação e colaboração entre departamentos ou disciplinas. Empregados
pesquisados observaram que além das habilidades em ciências de dados, eles buscam
candidatos com capacidade de pensar criticamente e usar abordagens
interdisciplinares para resolver problemas.
Em linhas gerais, a combinação de ciência de dados e habilidades em ciências da Terra

é um recurso para quem procura emprego no mercado atual. Empregos cientista de
dados da terra pode ser o nicho mais lucrativo no cenário de trabalho de cientista de
dados.
4.5 Oportunidades em Data Science
Há uma tremenda oportunidade na indústria e na academia para funcionários com

experiência em ciências da Terra e ciência de dados, especialmente quando
combinados com a capacidade de colaborar entre disciplinas.
Além da estabilidade e do sucesso na carreira, os especialistas nessa interseção

específica de disciplinas podem estar preparados de maneira única para solucionar
alguns dos desafios socioeconômicos e ambientais mais prementes do mundo.

Referências
ALER, J.; DU MONZA, J.; ARNOULD, M.; Evaluation of blast fragmentation efficiency
and its prediction by multivariate analysis procedures. International Journal of Rock
Mechanics Mining Science & Geomechanical Abstracts, v. 33, n. 2, p. 189-196, 1996.
HUDAVERDI, T.; KULATILAKE, P.H.S.W.; KUZU, C. Prediction of blast fragmentation

using multivariate analysis procedures. International Journal for Numerical and
Analytical Methods in Geomechanics, v. 35, p. 1318-1333, ago. 2010.
KULATILAKE, P.H.S.W.; QIONG, Wu; HUDAVERDI, T.; KUZU, C. Mean particle size
prediction in rock blast fragmentation using neural networks. Engineering Geology, v.
114, p.298-311, jun.2010.
PEREIRA, T. M. Estatística Multivariada. Uma abordagem aplicada utilizando o software

R. Universidade Federal de Ouro Preto, 2017
SHARMA, Suresh Kumar; RAI, Piyush. Establishment of blasting design parameters

influencing mean fragment size using state-of-art statistical tools and techniques.
Measurement, v. 96, p. 34-51, jan.2017.

Análise de Dados Multivariada em Geociências

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Análise de Dados Multivariada em Geociências

Încărcat de

Drepturi de autor:

Formate disponibile

Data Science em

Paulo Filipe Trindade Lopes

2 Estatística multivariada .......................................................................................... 5

2.1 Análise das componentes principais ................................................................ 5

2.2 Análise de agrupamentos ................................................................................ 7

2.3 Análise discriminante ...................................................................................... 7

2.4 Técnicas de regressão múltipla ........................................................................ 8

3 Big data para geociências .................................................................................... 10

4 Por que os cientistas de dados estão em alta nas geociências? ........................... 14

4.1 Eles são especializados, especialistas interdisciplinares................................. 14

4.2 Eles sabem como codificar............................................................................. 14

4.3 Eles entendem a reprodutibilidade e a ciência aberta ................................... 14

4.4 Eles têm habilidades de pensamento crítico .................................................. 15

4.5 Oportunidades em Data Science.................................................................... 15

eBook – Data Science em Geociências 2/16

Sucintamente, Data Science envolve disciplinas diversas como estatística,

Enquanto isso, o Data Science está um passo à frente e procura encontrar

eBook – Data Science em Geociências 3/16

eBook – Data Science em Geociências 4/16

Para se descrever adequadamente o desmonte de rochas, tanto do ponto de vista

Segundo Pereira (2017), A análise multivariada de dados consiste em um conjunto de

A grande importância em se realizar análises multivariadas encontra-se na

2.1 Análise das componentes principais

eBook – Data Science em Geociências 5/16

Os principais objetivos da PCA são:

 Redução da dimensionalidade dos dados

É uma técnica amplamente utilizada em todos ás áreas do conhecimento, e por fim,

Não pressupõe normalidade dos dados, embora componentes derivadas de

Com frequência, revela relações insuspeitas, permitindo interpretações que não

Em algumas aplicações, os componentes da PCA configuram o objetivo final do

Pereira (2017), define a análise de agrupamentos (Cluster Analysis, do inglês), como

2.3 Análise discriminante

Pereira (2017), define a análise discriminante (Discriminant Analysis, do inglês) como

eBook – Data Science em Geociências 7/16

2.4 Técnicas de regressão múltipla

Segundo Pereira (2017), As técnicas de regressão múltipla modelam a relação entre

eBook – Data Science em Geociências 8/16

Se o número de preditoras for grande, antes de ajustar um modelo de regressão com

Variáveis de interesse em um experimento (aquelas que são medidas ou observadas)

Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da

eBook – Data Science em Geociências 9/16

Na atual era do big data, a competitividade nacional será refletida no tamanho,

eBook – Data Science em Geociências 10/16

O Big Data começou a influenciar significativamente os padrões globais de produção,

As contribuições do Big Data para as descobertas científicas começaram a ser

i. Enormes conjuntos de dados podem servir como insumos importantes e apoiar

eBook – Data Science em Geociências 11/16

Assim, pode-se observar que as características substantivas da computação de grandes

eBook – Data Science em Geociências 12/16

eBook – Data Science em Geociências 13/16

Por que os cientistas de dados estão em alta nas geociências?

Aqui estão algumas características e habilidades de alto nível que os gerentes de

4.1 Eles são especializados, especialistas interdisciplinares

Os candidatos com experiência e credenciais profissionais em várias disciplinas são

4.2 Eles sabem como codificar

Tradicionalmente, os profissionais das ciências da Terra seguiam um percurso de

4.3 Eles entendem a reprodutibilidade e a ciência aberta

De acordo com alguns gerentes de contratação, simplesmente ser capaz de codificar

Capaz de escrever código de pesquisa, elegante e reproduzível, em R ou Python.

eBook – Data Science em Geociências 14/16

Habilidades de pensamento crítico envolvem pensar além das abordagens

Em linhas gerais, a combinação de ciência de dados e habilidades em ciências da Terra