Sunteți pe pagina 1din 34

Universidade de Brasília - Instituto de Psicologia

Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações - PSTO.

Roteiro para Exame Inicial dos Dados


Elaine Rabelo Neiva
Bartholomeu Torres Tróccoli
Gardênia Silva Abbad

Objetivo: O objetivo do presente trabalho é descrever a rotina básica de comandos para


realização de uma inspeção inicial dos dados utilizando o software SPSS, versão 13.0.
Não serão explorados todos os comandos. Apenas os essenciais para o início da análise.

Antes de qualquer análise estatística é necessário que se faça uma análise exploratória dos dados coletados.
Esta análise tem duas finalidades principais: (1) descrever e explorar as características principais dos
resultados sem uma preocupação exclusiva com os objetivos ou hipóteses do trabalho (o que não significa
que não possam ocorrer conjuntamente), e (2) investigar se um conjunto de pressupostos estatísticos está
presente nos dados. Neste último caso, verifica-se o ajustamento entre o conjunto de dados e pressupostos
estatísticos fundamentais para o uso correto das diversas técnicas estatísticas (normalidade de distribuição
das variáveis, presença de casos extremos, homocedasticidade, multicolinearidade, entre outros). Neste
texto temos o segundo objetivo (2) como nossa atividade principal. Para tanto, vamos utilizar o banco de
dados fornecido no livro de Hair, Anderson, Tatham e Black (2005) denominado HATCO. Na figura 1
abaixo está uma reprodução parcial desse banco de dados.

Figura 1 – Ilustração do banco de dados HATCO

São as seguintes as variáveis relacionadas no banco de dados HATCO:

Definições e codificação das variáveis


1. Percepções sobre a HATCO (empresa fictícia fornecedora industrial); medidas
através de uma escala gráfica de 10 cm foi desenhada entre os pontos: Ruim e
Excelente. Os respondentes marcavam qualquer ponto da linha e a distância em cm
era anotada. As respostas foram arredondadas para uma casa decimal. São sete os
atributos avaliados pelos respondentes:
X1 – Velocidade de Entrega: tempo total necessário para entregar o produto assim que a
encomenda foi confirmada;
X2 – Nível de Preço: nível percebido de preço cobrado por fornecedores do produto;
X3 – Flexibilidade d Preço: disposição percebida de representantes da HATCO em
negociar preços em todos os tipos de compras;
X4 – Imagem do fabricante: Imagem geral do fabricante ou fornecedor;
X5 – Serviço Geral: nível geral de serviço necessário para manter uma relação satisfatória
entre fornecedor e comprador;
X6 – Imagem da Força de Vendas: imagem geral da força de vendas do fabricante;
X7 – Qualidade do Produto: nível percebido de qualidade de um produto em particular
(funcionamento ou produtividade).

2. Resultados das Compras: duas medidas que refletiram os resultados das relações de
compra dos respondentes com a HATCO –
X9 – Nível de Uso – quanto do produto total da empresa é comprado da HATCO, medido
em uma escala de 100 pontos percentuais, que varia de zero a 100%;
X10 – Nível de Satisfação: nível de satisfação do comprador com as compras que realizou
junto à HATCO, medido através da mesma escala gráfica de percepções utilizada nos itens
X1 a X7.

3. Características do Comprador: cinco características, algumas métricas e outras não


métricas.
X8. Tamanho da empresa: tamanho em relação a outras empresas (1=grande e
0=pequena);
X11. Especificação de compra: o quanto um comprador em particular avalia cada compra
separadamente (análise do valor total) versus uso de especificações de compra, as quais
detalham precisamente as características procuradas do produto (1= emprega análise do
valor total, avaliando cada produto em separado e 0 = uso de especificação de compra);
X12. Estrutura de Aquisição: método de adquirir ou comprar produtos em uma empresa
em particular. (1 = aquisição centralizada; 0 = aquisição não centralizada);
X13. Tipo de indústria: 1 = indústria; 0 = outras indústrias a que pertence o cliente;
X14. Tipo de situação de compra: situação de compra enfrentada pelo comprador. (1 =
nova tarefa; 2 = nova compra modificada; 3 =nova compra simples).
Fonte: Hair, Anderson, Tatham e Black (2005).

Este documento aborda os passos para realização de exame inicial de dados e serão realizadas as análises e
serão abordados os tópicos para tratamento dos casos omissos e extremos. Na segunda parte serão
apresentados recursos para análise de pressupostos estatísticos. Serão realizadas análises a partir do SPSS e
serão comentados os resultados e as possíveis decisões a serem tomadas.

PARTE I – ANÁLISE DE DADOS AUSENTES E CASOS EXTREMOS

1.Passos para a Análise Exploratória dos Dados

Uma lista do que fazer na análise exploratória dos dados está nos itens abaixo. Esses passos, entretanto, não
são definitivos. Em alguns casos, por exemplo, a análise preliminar dos dados pode ser feita por meio do
exame dos resíduos (diferenças entre o estimado e o observado). Nestes casos, deve-se realizar a análise
estatística principal em primeiro lugar, ao mesmo tempo em que se recorre a técnicas predominantemente
gráficas para a análise dos pressupostos. Portanto, os passos devem ser compreendidos como uma sugestão
de questões que devem ser observadas pelo pesquisador. Várias modificações e adaptações podem e devem
ser feitas.

1.1 Inspecionar as estatísticas descritivas univariadas em busca de erros de digitação, efetuando análise de:
a. Valores fora da amplitude normal
b. Médias e desvios padrão
c. Quando as médias forem muito grandes e os desvios padrão muito pequenos, verificar os
coeficientes de variação (desvio padrão dividido pela média). Realizar transformações quando o coeficiente
de variação for muito pequeno (0,0001 ou menos). As transformações dizem respeito a alterações no cálculo
da variável para corrigir desvios de normalidade, por exemplo.

1.2. Para obter as estatísticas descritivas univariadas e verificar possíveis erros de digitação deve-se obter
distribuições de freqüência de todas as variáveis por meio dos seguintes comandos do SPSS:

Analyse
Descriptives
Frequencies

Abre-se, então, a janela Frequencies reproduzida abaixo:

Figura 2: Janela Frequencies

Observe-se que na janela acima, figura 2, todas as variáveis, exceto a variável ID, foram transferidas
para a caixa Variable(s). Em seguida, clica-se no botão Statistics para abrir a próxima janela
Frequencies: Statistics:

Figura 3: Janela Frequencies: Statistics

Na janela acima, figura 3, foram escolhidas algumas medidas de tendência central (mean, median),
de dispersão (std. Deviation, minimum, maximum) e as duas medidas de distribuição (skewness, kurtosis).
Skewness (assimetria) diz respeito à similaridade das metades da distribuição, enquanto que Kurtosis
(curtose) diz respeito ao achatamento da mesma. Continuando, clica-se em seguida no botão Continue para
voltar à janela Frequencies:Statistics onde é escolhida a opção Charts, abrindo-se a próxima janela
Frequencies: Charts:

Figura 4: Frequencies: Charts

Na janela Frequencies: Charts acima foram escolhidas as opções Histograms: With normal
curve. Para finalizar essa primeira análise deve-se clicar no botão Continue da janela Frequencies: Charts
para voltar a janela original Frequencies onde com mais um clique no botão OK, obtém-se os resultados
relativos a análise descritiva. A seguir estão apresentados alguns dos resultados, a título de exemplo.

Após essa análise serão apresentados os resultados gráficos para averiguar dados omissos na variável.

Resultados da variável: Velocidade de Entrega (Delivery Speed)

Gráfico com o histograma da variável

Delivery Speed

20

15
Frequency

10

Mean = 3,515
Std. Dev. = 1,3207
0 N = 100
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0

Delivery Speed

Ao observar o gráfico é possível perceber que a distribuição, de maneira geral, obedece aos
parâmetros da curva normal. Sua distribuição de freqüência é bastante ampla com valores que variam de
0,00 até 6,1. As freqüências de cada valor são baixas. É possível perceber também que a distribuição é bi-
modal (possui dois números com maior freqüência).

Tabela da Distribuição de frequência

Tabela 1: Distribuição de freqüência da variável Delivery Speed


Delivery Speed
Frequency Percent Valid Percent Cumulative Percent
Valid ,0 1 1,0 1,0 1,0
,6 1 1,0 1,0 2,0
1,0 1 1,0 1,0 3,0
1,1 1 1,0 1,0 4,0
1,3 1 1,0 1,0 5,0
1,6 2 2,0 2,0 7,0
1,8 2 2,0 2,0 9,0
1,9 3 3,0 3,0 12,0
2,0 2 2,0 2,0 14,0
2,1 1 1,0 1,0 15,0
2,3 3 3,0 3,0 18,0
2,4 6 6,0 6,0 24,0
2,5 2 2,0 2,0 26,0
2,6 2 2,0 2,0 28,0
2,7 1 1,0 1,0 29,0
2,8 3 3,0 3,0 32,0
2,9 2 2,0 2,0 34,0
3,0 5 5,0 5,0 39,0
3,1 4 4,0 4,0 43,0
3,2 1 1,0 1,0 44,0
3,3 2 2,0 2,0 46,0
3,4 6 6,0 6,0 52,0
3,5 1 1,0 1,0 53,0
3,6 3 3,0 3,0 56,0
3,7 3 3,0 3,0 59,0
3,8 2 2,0 2,0 61,0
3,9 1 1,0 1,0 62,0
4,0 3 3,0 3,0 65,0
4,1 3 3,0 3,0 68,0
4,2 2 2,0 2,0 70,0
4,3 2 2,0 2,0 72,0
4,5 2 2,0 2,0 74,0
4,6 2 2,0 2,0 76,0
4,7 2 2,0 2,0 78,0
4,8 1 1,0 1,0 79,0
4,9 3 3,0 3,0 82,0
5,0 2 2,0 2,0 84,0
5,1 2 2,0 2,0 86,0
5,2 3 3,0 3,0 89,0
5,3 2 2,0 2,0 91,0
5,4 2 2,0 2,0 93,0
5,5 2 2,0 2,0 95,0
5,6 1 1,0 1,0 96,0
5,8 1 1,0 1,0 97,0
5,9 1 1,0 1,0 98,0
6,0 1 1,0 1,0 99,0
6,1 1 1,0 1,0 100,0
Total 100 100,0 100,0
A tabela com as estatísticas dos dados de cada variável (ver tabela abaixo) traz o percentual de
dados ausentes, média, mediana, e dados de achatamento e skewness. Verifique o percentual de dados
ausentes, que devem estar abaixo de 5 ou 10% (ver Hair e Cols, 2005; Tabachnick e Fidel, 2000). . Verifique
os dados da distribuição de cada variável por meio de gráficos. Há a necessidade de considerar todas as
informações conjuntamente (números e gráficos)! A análise conjunta de números e gráficos possibilita uma
avaliação melhor do índice de dados omissos e uma análise preliminar do impacto deles na normalidade da
variável. O arquivo HATCO não apresenta dados omissos, contudo, algumas alterações no arquivo foram
feitas para que a análise dos dados ausentes pudesse ser realizada. Outra tabela foi retirada após a alteração
no banco de dados

Como pode ser observado na tabela, o arquivo Hatco.sav não apresenta missing.

Delivery Price Level Price Flexibility Manufac Service Salesfor Product Firm Usage Level Satisfacti Specifica Structure Type of Typ
Speed turer ce Quality Size on Level tion of Industry Buy
Image Image Buying Procure (SIC) Situ
ment

Valid 100 100 100 100 100 100 100 100 100 100 100 100 100 1

Missing

Mean 3,515 2,364 7,894 5,248 2,916 2,665 6,971 ,40 46,100 4,771 ,60 ,50 ,50 2,

Median 3,400 2,150 8,050 5,000 3,000 2,600 7,150 ,00 46,500 4,850 1,00 ,50 ,50 2,

Std. Deviation 1,3207 1,1957 1,3865 1,1314 ,7513 ,7709 1,5852 ,492 8,9888 ,8556 ,492 ,503 ,503 ,8

Skewness -,085 ,469 -,289 ,218 -,373 ,493 -,229 ,414 -,063 ,089 -,414 ,000 ,000 ,0

Std. Error of ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,241 ,2
Skewness
Kurtosis -,511 -,509 -1,073 ,085 ,141 ,107 -,850 -1,866 -,725 -,763 -1,866 -2,041 -2,041 -1,

Std. Error of ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,478 ,4
Kurtosis
Minimum ,0 ,2 5,0 2,5 ,7 1,1 3,7 25,0 3,2 1

Maximum 6,1 5,4 10,0 8,2 4,6 4,6 10,0 1 65,0 6,8 1 1 1 3

Ao realizar a análise descritiva utilizando o arquivo HATCO_MISSING (repetir o processamento efetuado até
o momento) obtém-se o resultado apresentado a seguir. Aqui é possível perceber os índices de dados
omissos do banco. Alguns índices de dados omissos ficaram acima de 5%, alcançando índices superiores a
20%. As variáveis Price Level, Price Flexibility, Manufature Image, Service, Salesforce Image, Usage Level e
Structure of Procurement possuem indices de dados omissos acima de 5%. Os casos em que estão acima de
10%, há situação começa apresentar problemas. Nesses casos é necessária a análise de aleatoriedade dos
dados omissos e avaliação das possibilidades de retirada e/ou substituição.
Statistics

Type of
Delivery Price Manufacturer Salesforce Product Satisfaction Specification Structure of Type of Buying
Speed Price Level Flexibility Image Service Image Quality Firm Size Usage Level Level Buying Procurement Industry (SIC) Situation
N Valid 96 91 80 87 91 83 75 99 89 100 96 88 99 100
Missing 4 9 20 13 9 17 25 1 11 0 4 12 1 0
Mean 3,499 2,377 7,800 5,224 2,864 2,670 6,979 ,40 46,236 4,771 ,59 ,49 ,49 2,00
Median 3,400 2,200 7,900 5,000 3,000 2,500 7,200 ,00 47,000 4,850 1,00 ,00 ,00 2,00
Mode 2,4a 2,0 8,7a 4,5 3,0a 2,5 8,4 0 47,0a 3,7 1 0 0 1a
Std. Deviation 1,2796 1,2169 1,3774 1,1167 ,7554 ,7488 1,6290 ,493 9,1204 ,8556 ,494 ,503 ,503 ,829
Skewness -,102 ,453 -,239 ,164 -,309 ,386 -,309 ,397 -,091 ,089 -,388 ,046 ,021 ,000
Std. Error of Skewness ,246 ,253 ,269 ,258 ,253 ,264 ,277 ,243 ,255 ,241 ,246 ,257 ,243 ,241
Kurtosis -,448 -,541 -1,137 ,245 ,090 ,155 -,854 -1,881 -,701 -,763 -1,889 -2,045 -2,041 -1,546
Std. Error of Kurtosis ,488 ,500 ,532 ,511 ,500 ,523 ,548 ,481 ,506 ,478 ,488 ,508 ,481 ,478
Minimum ,0 ,2 5,0 2,5 ,7 1,1 3,7 0 25,0 3,2 0 0 0 1
Maximum 6,1 5,4 9,9 8,2 4,6 4,6 10,0 1 65,0 6,8 1 1 1 3
a. Multiple modes exist. The smallest value is shown

2. Análise da qualidade do banco de dados por meio do MVA

O objetivo deste tópico é avaliar a quantidade e distribuição dos dados ausentes e o preenchimento
inadequado do questionário ou instrumento, além de identificar e eliminar casos problemáticos, substituir
dados ausentes. Um caso omisso é problemático quando ele indica que os dados faltosos estão numa
proporção alta, não são aleatórios e podem afetar algumas propriedades da variável. Na maioria das vezes,
os dados faltosos interferem na normalidade e na homocedasticidade. Uma maneira de avaliar se os dados
omissos são aleatórios é por meio da avaliação que ocorre no MVA.

2.1. O módulo MVA – Missing Value Analysis permite fazer uma análise acurada dos casos ausentes e ele é
acessado a partir dos seguintes comandos:

Analyse
Missing values analysis

Na primeira janela, separar as variáveis categóricas (não-métricas) das variáveis quantitativas (métricas).
Após esse preenchimento, clica-se na opção Descriptives e uma nova janela será aberta. Nessa janela,
serão mostradas as opções de análise para os dados ausentes. Tal procedimento pode ser observado na
figura 5. Nesta janela também é possível realizar alterações no banco de dados por meio das opções
Estimation. Nessas opções os dados omissos são tratados ou substituídos ao usar as opções Listwise,
Pairwise, EM ou Regression.
Figura 5: Missing Value Analysis

Após clicar na opção Descriptives, outra janela é aberta, conforme ilustra a figura 6. Nesta janela,
selecione todas as opções, o que garantirá uma análise da aleatoriedade dos dados omissos. O padrão do
SPSS já traz um percentual de missings acima de 5%.

Figura 6: Missing Value Analysis - Descriptives

Para retornar a tela da figura 5, clique na opção Continue. Na janela da figura 5, selecione a opção OK. Os
resultados das análises pelo módulo MVA são apresentados a seguir. A primeira tabela Univariate Statistics
fornece informações sobre o número de casos válidos de cada variável, a média, o desvio-padrão, a
contagem e percentual de casos ausentes e número de casos extremos (altos e baixos, considerando a
escala). Os dados observados anteriormente são repetidos por essa tabela.

Univariate Statistics

Std. Missing No. of Extremes(a)


N Mean Deviation Count Percent Low High
x1 96 3,499 1,2796 4 4,0 0 0
x2 91 2,377 1,2169 9 9,0 0 0
x3 80 7,800 1,3774 20 20,0 0 0
x10 100 4,771 ,8556 0 ,0 0 0
x7 75 6,979 1,6290 25 25,0 0 0
x6 83 2,670 ,7488 17 17,0 1 2
x4 87 5,224 1,1167 13 13,0 0 0
x5 91 2,864 ,7554 9 9,0 1 0
x9 89 46,236 9,1204 11 11,0 0 0
x13 99 1 1,0
x14 100 0 ,0
x8 99 1 1,0
x12 88 12 12,0
x11 96 4 4,0
a Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

A próxima tabela faz uma análise diferença de médias entre os casos omissos e os casos válidos
de cada variável. Tal procedimento é realizado apenas para as variáveis com índices de dados
omissos acima de 5%. Esse procedimento avalia a aleatoriedade dos dados omissos. Para cada
par de variáveis quantitativas, há a estimação da diferença de médias para os grupos de dados
omissos e dados presentes. As probabilidades marcadas em amarelo ilustram os casos em que há
diferenças de médias para os grupos de dados ausentes e presentes. Essa diferença de médias
pode indicar algum parâmetro não aleatório nos dados omissos. Em síntese, as seguintes
combinações entre variáveis apresentam diferenças de médias:
X4 e X5
X6 e X1, X3, X7
X9 e X7
X12 e X4, X9
Portanto, essas combinações mostradas anteriormente necessitam serem avaliadas de uma maneira mais
acurada. Por meio de correlações, por exemplo.
Separate Variance t Testsa

x10
x1

x2

x3

x4

x5

x6

x7

x9
t -,4 . -,9 ,4 ,0 ,7 -,6 -,8 -1,2
df 8,9 . 10,4 23,6 8,1 9,7 4,4 7,9 11,3
P(2-tail) ,710 . ,382 ,662 ,969 ,525 ,559 ,420 ,273
# Present 87 91 71 78 83 78 70 81 91
# Missing 9 0 9 9 8 5 5 8 9
Mean(Present) 3,478 2,377 7,752 5,233 2,863 2,676 6,941 45,926 4,747
x2

Mean(Missing) 3,700 . 8,178 5,144 2,875 2,580 7,500 49,375 5,011


t -,7 ,8 . -,9 ,3 -,5 1,1 ,2 -1,1
df 29,7 27,6 . 21,6 19,9 23,7 23,4 26,3 27,1
P(2-tail) ,497 ,434 . ,386 ,738 ,609 ,281 ,865 ,273
# Present 76 71 80 69 74 65 59 70 80
# Missing 20 20 0 18 17 18 16 19 20
Mean(Present) 3,453 2,435 7,800 5,158 2,880 2,645 7,088 46,329 4,720
x3

Mean(Missing) 3,675 2,170 . 5,478 2,794 2,761 6,575 45,895 4,975


t ,1 -,9 ,6 . -1,1 -,5 -,4 ,0 -,3
df 12,6 15,3 14,6 . 11,9 11,5 12,5 15,4 15,2
P(2-tail) ,888 ,383 ,574 . ,297 ,644 ,666 ,967 ,732
# Present 85 78 69 87 81 72 65 77 87
# Missing 11 13 11 0 10 11 10 12 13
Mean(Present) 3,506 2,326 7,832 5,224 2,836 2,650 6,948 46,221 4,759
x4

Mean(Missing) 3,445 2,685 7,600 . 3,090 2,800 7,180 46,333 4,854


t -,7 -,7 1,3 -2,1 . -1,5 ,2 -1,6 -2,3
df 8,3 7,7 5,5 7,3 . 9,8 6,7 13,9 10,1
P(2-tail) ,510 ,523 ,254 ,077 . ,158 ,874 ,122 ,042
# Present 88 83 74 81 91 74 68 81 91
# Missing 8 8 6 6 0 9 7 8 9
Mean(Present) 3,472 2,341 7,868 5,181 2,864 2,624 6,991 45,951 4,715
x5

Mean(Missing) 3,800 2,750 6,967 5,800 . 3,044 6,857 49,125 5,333


t -1,9 ,8 -2,4 ,5 -,1 . 11,8 -1,1 ,0
df 22,4 20,0 24,9 17,3 24,4 . 60,7 34,1 26,1
P(2-tail) ,077 ,424 ,023 ,602 ,910 . ,000 ,274 ,975
# Present 82 78 65 72 74 83 73 72 83
# Missing 14 13 15 15 17 0 2 17 17
Mean(Present) 3,420 2,412 7,646 5,260 2,859 2,670 7,040 45,819 4,770
x6

Mean(Missing) 3,964 2,169 8,467 5,053 2,882 . 4,750 48,000 4,776


t -1,2 ,0 -1,6 -,3 ,0 -,3 . -,8 -,3
df 38,8 35,8 40,0 28,7 43,5 10,2 . 56,4 41,5
P(2-tail) ,233 ,969 ,107 ,729 ,991 ,769 . ,455 ,784
# Present 74 70 59 65 68 73 75 64 75
# Missing 22 21 21 22 23 10 0 25 25
Mean(Present) 3,419 2,374 7,659 5,195 2,863 2,658 6,979 45,828 4,757
x7

Mean(Missing) 3,768 2,386 8,195 5,309 2,865 2,760 . 47,280 4,812


t 1,0 -,1 ,6 ,3 -,4 -,6 1,8 . ,0
df 11,5 11,6 11,1 10,5 14,7 11,5 15,1 . 12,5
P(2-tail) ,335 ,927 ,533 ,802 ,693 ,558 ,085 . ,977
# Present 86 81 70 77 81 72 64 89 89
# Missing 10 10 10 10 10 11 11 0 11
Mean(Present) 3,542 2,373 7,841 5,238 2,856 2,644 7,106 46,236 4,772
Mean(Missing)
3,130 2,410 7,510 5,120 2,930 2,836 6,236 . 4,764
x9

t 1,1 ,4 1,7 2,0 1,8 1,0 ,1 2,7 1,7


df 16,5 10,6 8,3 8,0 9,4 12,6 14,8 20,7 14,5
P(2-tail) ,269 ,716 ,117 ,083 ,109 ,342 ,904 ,013 ,109
# Present 84 81 73 79 82 72 64 77 88
# Missing 12 10 7 8 9 11 11 12 12
Mean(Present) 3,546 2,396 7,864 5,310 2,915 2,704 6,988 46,974 4,823
x12

Mean(Missing) 3,167 2,220 7,129 4,375 2,400 2,445 6,927 41,500 4,392
For each quantitative variable, pairs of groups are formed by indicator variables (present, missing).
a. Indicator variables with less than 5% missing are not displayed.

A seguir, o output do SPSS apresenta tabelas com análises da combinação entre cada variável
categórica do banco com outras variáveis do banco. Nessas tabelas é possível avaliar o percentual de dados
omissos em cada grupo das variáveis categóricas, considerando as variáveis quantitativas. Cada percentual
de dados ausentes acima de 5% em um dos grupos da variável categórica merece ser avaliado
minuciosamente. Aqui somente serão apresentados para a variável X13 – Tipo de Empresa. Todas as
variáveis apresentam percentuais de dados ausentes acima de 5%, incluindo os grupos da variável tipo de
firma.

x13

Missing

FIRM FIRM
TYPE TYPE
Total ONE TWO SysMis
x2 Present Count 91 47 43 1
Percent 91,0 94,0 87,8 100,0
Missing % SysMis 9,0 6,0 12,2 ,0
x3 Present Count 80 38 41 1
Percent 80,0 76,0 83,7 100,0
Missing % SysMis 20,0 24,0 16,3 ,0
x7 Present Count 75 39 35 1
Percent 75,0 78,0 71,4 100,0
Missing % SysMis 25,0 22,0 28,6 ,0
x6 Present Count 83 42 40 1
Percent 83,0 84,0 81,6 100,0
Missing % SysMis 17,0 16,0 18,4 ,0
x4 Present Count 87 41 46 0
Percent 87,0 82,0 93,9 ,0
Missing % SysMis 13,0 18,0 6,1 100,0
x5 Present Count 91 45 46 0
Percent 91,0 90,0 93,9 ,0
Missing % SysMis 9,0 10,0 6,1 100,0
x9 Present Count 89 44 45 0
Percent 89,0 88,0 91,8 ,0
Missing % SysMis 11,0 12,0 8,2 100,0
x12 Present Count 88 42 45 1
Percent 88,0 84,0 91,8 100,0
Missing % SysMis 12,0 16,0 8,2 ,0
Indicator variables with less than 5% missing are not displayed.

A última tabela traz uma análise do percentual de missings (dados ausentes) em cada combinação de
variáveis métricas.
Percent Mismatch of Indicator Variables.(a,b)

x2 x5 x12 x4 x9 x6 x7 x3
x2 9,00
x5 16,00 9,00
x12 17,00 15,00 12,00
x4 22,00 16,00 17,00 13,00
x9 18,00 18,00 23,00 22,00 11,00
x6 18,00 26,00 27,00 26,00 28,00 17,00
x7 26,00 30,00 35,00 32,00 36,00 12,00 25,00
x3 29,00 23,00 22,00 29,00 29,00 33,00 37,00 20,00
The diagonal elements are the percentages missing, and the off-diagonal elements are the mismatch
percentages of indicator variables.
a Variables are sorted on missing patterns.
b Indicator variables with less than 5% missing values are not displayed.

Um outro recurso na análise de casos ausentes é a identificação de dados ausentes por sujeito. Tal
procedimento oferece uma indicação de quantos sujeitos podem ser candidatos a retirada do banco.

Para verificar o número de dados ausentes por sujeito, é possível usar os seguintes comandos do SPSS.

Transform
Count

Figura 6.1 – Janela Count Occurences

Na janela da figura 6.1, inserir o nome e o rótulo da variável a ser criada que apresentará o percentual de
dados ausentes por sujeito. Selecione Define Values para indicar os comandos que orientarão a contagem
por sujeito/caso. Na nova janela, figura 6.2, selecione System-missing e clique no Add. Aparecerá no
espaço ao lado o SYSMIS. Selecione Continue e depois OK.
Figura 6.2 – Janela Values to Count

Ao realizar essas rotinas, aparecerá no banco de dados uma nova variável com a contagem de dados
ausentes por sujeito. No que se refere ao sujeito 1, das quatorze respostas que ele deveria apresentar no
banco, afinal são quatorze variáveis, uma (1) é um dado ausente.

Figura 6.3 – Nova variável no banco de dados

Esses procedimentos auxiliam o pesquisador a realizar uma análise de possível padrão de dados ausentes no
banco de dados.

3. Correlações entre dados ausentes de variáveis


Um outro mecanismo para detectar padrões entre as variáveis é a avaliação de correlações entre os casos de
dados ausentes. Para realizar as correlações entre variáveis que apresentam dados ausentes, é necessário
criar variáveis fictícias para as variáveis a serem correlacionadas. Esse procedimento acontece por meio da
rotina Transform.

Transform
Compute Variable

Figura 7 – Janela Compute Variable

Após abrir a janela, dar um nome para a nova variável (V2dummy), escolher a opção Missing Values e, no
quadro abaixo, escolher novamente a opção Missing. Clicar na seta central para escolher o comando
MISSING (variable). Com esse comando será criada uma variável ao final do banco de dados, em que as
observações com casos faltosos (missing) estarão preenchidas com o número 1 e as observações com casos
completos estarão preenchidas com o número 0. A seguir escolher a variável que se deseja analisar. No
exemplo utilizamos a V1. É necessário que o procedimento seja realizado para as duas variáveis como
mostra a figura 8.
Figura 8 – Ilustração das variáveis dummy

Após a criação das duas variáveis fictícias a serem correlacionadas, é necessário pedir uma
correlação de Spearman. A correlação de Spearman é mais indicada para variáveis categóricas. Esse
procedimento é ilustrado pela figura 9 que mostra a correlação entre as duas variáveis dummy. O
procedimento inicial na rotina Analyse.

Analyse
Correlate
Bivariate

Figura 9 – Janela Bivariate Correlations

Ao abrir a janela, escolher as variáveis criadas e marcar a opção Spearman. No output, as


informações podem ser verificadas. Não há correlação significativa, então os dados ausentes são aleatórios.
Uma correlação é significativa quando ocorrem valores (coeficientes de correlação) acima de zero (podem
ser negativos ou positivos) e o índice de significância estatística está abaixo de 0,05.
4. Estimação de Dados Ausentes
Quando não há opção de retirada dos casos no banco de dados, é possível usar algumas técnicas de
estimação dos dados ausentes. A estimação dos dados ou substituição é indicada em alguns casos
específicos que precisam ser conhecidos no Hair e cols. (2005).

4.1. Estimação pelo MVA

No próprio comando do MVA existem as opções de estimação dos dados ausentes. Na opção estimação, você
terá a análise dos parâmetros para substituição dos dados ausentes pelos métodos apresentados no capítulo:
listwise, pairwise, EM e regressão.

Figura 10- Janela MVA

Após abrir a janela da figura 10 e inserir as variáveis nos seus respectivos espaços, escolher o método de
estimação apresentados no capítulo: listwise, pairwise, EM e regressão, conforme ilustra a figura 11.
Nessa mesma janela, selecione a opção Variables para indicar quais variáveis serão estimadas. Pelo padrão
do SPSS, esses cálculos serão realizados para as variáveis quantitativas. No exemplo, foi selecionada a
estimação Regression. Selecione a opção Regression para salvar as novas variáveis criadas em outro
banco de dados, conforme ilustra a figura 12.
Figura 11- Janela MVA e Estimação

Ao abrir a janela da figura 12, será indicado um espaço para salvar o novo arquivo a ser criado.

Figura 12 – Janela MVA: Regression


Crie um novo arquivo de dados, conforme mostra a figura 13.
Figura 13- MVA: Save to File

A figura 14 ilustra o novo banco de dados com todos os casos estimados.

Figura 14 – Ilustração do novo banco de dados

No output serão apresentados os parâmetros que foram utilizados para estimar os novos casos. Aqui não
serão analisados esses outputs.
4.2.Estimação pelo Replace

Outra forma de substituição é a criação de novas variáveis a partir da média e de outros cálculos. Nesse
caso é solicitada a substituição dos dados ausentes pela Média ou por variantes da média. Assim, adota-se a
opção de criar outras variáveis, ao invés de substituir diretamente pela média. Na opção Transform/
Replace Missing Value, é aberta uma janela em que você irá escolher as variáveis para substituição e o
método de substituição. Esse procedimento está na figura 15.

Transform
Replace Missing Value

Figura 15 – Janela Replace Missing Values

Ao abrir a janela selecione todas as variáveis a serem substituídas e selecione o método de


substituição. A opção default é o método séries mean. Será criada no banco de dados uma nova variável
em que todos os seus dados ausentes são substituídos pela média de cada variável, considerando todos os
seus valores válidos. Na figura 16 está a ilustração da nova variável criada.

Figura 16 – Ilustração do banco de dados com a nova variável sem dados ausentes.
5. Identificar e tomar providências a respeito dos casos extremos (outliers)

Os casos extremos podem ser univariados, bivariados ou multivariados. Aqui serão ilustrados
procedimentos para identificar casos extremos univariados, bivariados e multivariados. No caso dos outliers
multivariados é necessário investigar se não se trata de uma sub-amostra.
a. Outliers univariados
b. Outliers bivariados
c. Outliers multivariados (verificar se não se trata de uma sub-amostra)

5.1 Somatório dos Valores para Outliers Univariados

Para identificar casos extremos, inicialmente, existe o procedimento de verificar os valores das respostas de
cada sujeito, considerando o total possível da escala (ex. escala de 10 pontos, 7 itens do questionário = 70
pontos; valor mínimo= 7 pontos). Criar uma nova variável com o somatório das respostas de cada sujeito e
verificar sujeitos com valores muito altos e muito baixos. Esse procedimento permite identificar casos
extremos. Valores muito altos estão próximos ao total do somatório e valores muito baixo se situam abaixo
ou em torno do valor mínimo do somatório. Para realizar esse somatório serão somadas as sete primeiras
variáveis do banco HATCO – Percepção sobre a HATCO (escala de 10 pontos e 7 atributos = 70 pontos) (x1,
X2, X3, X, 4, X5, X, 6, X7). Esses procedimentos se encontram na figura 17.

Figura 17 – Janela Compute Variable

Uma nova variável será criada no banco de dados como mostra a figura 18.
Figura 18 – Ilustração da variável somatório

5.2 Análise pelos Gráficos


A segunda opção é o exame gráfico das variáveis presentes no banco de dados. Para extrair gráficos stem
and leaf e boxplot, as melhores opções são pela rotina explore do menu analyse.

Analyse
Descriptives
Explore

Ao escolher essa opção abre-se uma janela e as variáveis a serem analisadas por meio de gráficos deverão
ser inseridas no espaço de dependent variable. A opção plots deverá ser marcada na janela. Depois,
clique na opção plots e abrir-se-á uma nova janela. Ao abrir a janela, marque as opções boxplot (factors
together) e stem and leaf. Essa rotina se encontra na figura 19.

Figura 19 – Janela Explore


Ao selecionar a opção Plots, será aberta uma nova janela com as opções de gráficos. Selecione Boxplots –
Factor levels together e Descriptive – Stem-and-leaf, conforme mostra a figura 20.

Figura 20 – Janela
Explore: Plots

No arquivo output, serão apresentados os gráficos para todas as variáveis. Somente será analisado o
gráfico para a variável Salesforce Image por se tratar de uma variável que apresenta casos extremos. Na
primeira tabela é apresentada uma visão geral dos casos. Como pode ser visto, não há dados ausentes na
variável.

Case Processing Summary

Cases
Valid Missing Total
N Percent N Percent N Percent
Salesforce Image 100 100,0% 0 ,0% 100 100,0%

Em seguida, é apresentado o gráfico Ramo e Folha. Há uma freqüência superior a 4,00 para os casos
extremos. Eles assumem valores superiores a 4,4.

Salesforce Image Stem-and-Leaf Plot

Frequency Stem & Leaf


1,00 1. 1
1,00 1. 3
6,00 1 . 444455
5,00 1 . 67777
4,00 1 . 8999
5,00 2 . 11111
11,00 2 . 22223333333
16,00 2 . 4445555555555555
15,00 2 . 666666667777777
7,00 2 . 8888999
7,00 3 . 0000011
4,00 3 . 2222
3,00 3 . 444
2,00 3 . 67
5,00 3 . 88999
4,00 4 . 0000
4,00 Extremes (>=4,4)
Stem width: 1,0
Each leaf: 1 case(s)

Na análise do boxplot, esses casos ficam bem identificados por seus números no banco de dados.

5,0

5
82

4,0

3,0

2,0

1,0

Salesforce Image

Os casos 5,7, 35 e 82, são casos extremos univariados. Seus valores se encontram acima de dois desvios-
padrão, muito próximos de 2,5 desvios.

5.3. Usar os desvios-padrão como mecanismo de comparação.


Outra forma de analisar os casos extremos univariados é usar os escores padronizados das variáveis
(score Z). Esse procedimento transforma cada valor em desvios-padrão. Nesse caso, é possível avaliar se os
casos estão entre 2,5 e 4,0 desvios, conforme indica Hair e cols. (2005). Conforme ilustra a figura 21, serão
criadas novas variáveis com valores padronizados. Na janela Analyse, Descriptives, Descriptives
selecionar a opção Save standartized values as variables. Inserir todas as variáveis no espaço Variable
(s).

Analyse
Descriptives
Descriptives

Figura 21 – Janela Descriptives


Coloque todas as variáveis no campo variables. Marque a opção save standardized values as variables.
Algumas variáveis serão criadas com os desvios-padrão dos casos para cada variável. Efetue a análise de
acordo com os critérios do Hair e cols (2005). Para análise indicar entre 2,5 e 4,0 desvios-padrão. Pelo
critério dos desvios, há a detecção de casos extremos univariados. Os casos extremos podem afetar uma
única variável, por isso são chamados de univariados. Há situações em que os casos extremos afetam mais
de uma variável, podendo afetar todas as variáveis do banco. Nesse caso, são chamados de outliers
multivariados. A seguir, serão apresentados mecanismos para identificar e analisar outliers multivariados. A
figura 22 traz as novas variáveis criadas no banco.

Figura 22 – Ilustração dos escores padronizados

5.4 Identificar outlier bivariado

Graphs
Scatterplot/DOT

Ao seguir o menu, aparecerá uma janela, figura 22.1, que indica o tipo de gráfico que será elaborado.
Escolha Simple Scatter . Ainda nessa janela, escolha a opção Define. Ao abrir outra janela, insira as
variáveis a serem analisadas/associadas.

Figura 22.1 - Janela Scatter/Dot

Na janela Simple Scatter, especifique as variáveis a serem associadas. No caso Qualidade do produto e
Velocidade de entrega.
Figura 22.2 - Janela Simple Scatter

Ao clicar em Ok, o gráfico aparecerá no output. Para inserir o intervalo de confiança e especificar os casos
extremos, editar o gráfico quando clicar duas vezes sobre ele.
10,0

9,0

8,0

Product Quality

7,0

6,0

5,0

4,0

3,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0

Delivery Speed

Ao aparecer o editor de gráfico como na figura X, selecionar a opção Add a Fit Line at Total.

Figura 22.3 Editor de Gráficos


Ao selecionar essa rotina, abrirá uma janela para inserção do intervalo de confiança sobre a distribuição.
Assim, será possível observar os casos extremos ou atípicos. Ao selecionar essa janela, sempre aparecerá
uma linha que atravessará os dados, chamada de linha de ajuste dos quadrados mínimos.

Figura 22.4 – Janela Intervalo

10,0

9,0

8,0
Product Quality

7,0

6,0

5,0

4,0
R Sq Linear = 0,233

3,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0

Delivery Speed
Os casos que estiverem fora do espaço entre as linhas externas, serão casos extremos dessa distribuição.

6.0. Identificar Outlier multivariado

Os outliers multivariados serão verificados pela distância Mahalanobis. Para calcular a distância mahalanobis
será necessário usar a rotina de regressão com uma variável fictícia.
Analyse
Regression
Linear
A distância mahalanobis é obtida por meio da realização de uma regressão linear fictícia em que a VD
(variável dependente) é a variável ID (identificação do sujeito) e as VI’s serão todas as variáveis (inclusive
as transformadas). O método da regressão a utilizar é o Method: Enter, conforme mostra a figura 23.

Figura 23 – Janela Regressão Linear

Ainda na primeira janela, figura 23, marcar a opção save que permitirá assinalar a opção mahalanobis
distance.
Save
Mahalanobis
Continue
OK
Na janela Save, figura 24, há a opção mahalanobis distance. Ao marcar essas opções, o resultado será
uma nova variável. Observação: Será criada uma coluna (mah 1). Para se verificar a distância a partir da
qual os outliers serão considerados multivariados, consulta-se a tabela C4 (tabela do valor do qui-quadrado).
Para encontrar o valor a ser utilizado como referência é necessário consultar a tabela tendo como parâmetros
os graus de liberdade (número de VIs) e o valor para a probabilidade de p < 0,001. Encontra-se o valor, o
qual é usado para identificação dos outliers. No caso são 14 graus de liberdade e a probabilidade de p <
0,001. Tal valor é 36.123. A figura 24.1 mostra a distância mahalanobis criada no banco de dados.
Figura 24 – Janela Save

A figura 24.1 traz a ilustração da variável criada no banco de dados.

Figura 24.1 – Ilustração da Distância Mahalanobis no banco


Após a identificação do valor, passa-se à identificação dos casos de outliers mulivariados. A identificação
ocorre por meio da criação de uma variável dummy que indicará os valores outliers.
Transforme
Compute
Target Variable: Dummy (ou se atribui o nome que se desejar)
Numeric Expression = 0
OK
Será criada uma variável Dummy, ao final, somente com zeros. Essa variável será o mecanismo para
identificação dos outliers. Após a inserção dos zeros, haverá a substituição de alguns valores por 1. Os
valores substituídos por um indicarão os casos extremos multivariados. A figura 25 mostra como é criada a
nova variável para identificação dos casos extremos.

Figura 25 – Janela Compute

Na figura 26, há os procedimentos para diferenciar os casos extremos. Para diferenciar outlier dos não
outlier, realizar uma recodificação na variável que identificará os valores da distância mahalanobis acima de
36,123.
Transforme
Recode
Into Same Variables
Seleciona Dummy
Figura 26 – Janela Recode into Same Variable

A recodificação inclui o estabelecimento de uma condição. A figura 27 mostra que a condição é a


distância mahalanobis superior a 36,123.

If
Include if case satisfied condition
mah 1 >= ( verificar o valor na tabela, no caso 36,123)

Figura 27 – Janela Recode into Same Variables: If Cases


Obs: utilize os comandos para definir a condição desejada.

A seguir os valores acima de 36,123 serão recodificados na variável dummy pelo número 1. A figura 28
mostra a recodificação dos casos extremos pelo valor 1.

Continue
Old and New Values
Old Value . 0 > New Value .1
Add
Continue
OK
Figura 28 – Janela Recode into Same Variable: Old and New Values

Finalmente, há a opção de selecionar os casos que são considerados outliers multivariados. Selecionar os
casos considerados outliers multivariados. Na primeira janela, assinalar a opção if the condition is
satisfied. A seleção dos casos extremos ocorre na figura 29.

Data
Select Case > if > (dummy (ou o nome que foi atribuído no passo anterior) = O)

Figura 29 – Janela Select Cases

Ao abrir uma nova janela, figura 30, inserir a condição se dummy = 0. Os casos que são outliers
serão retirados da amostra. A partir daí pode-se calcular as descritivas e fazer um teste t entre os outliers e
os outros casos. Para trabalhar com o banco a partir desse ponto, pode-se optar por filtrar ou deletar os
casos. tal medida ocorre na opção Unselected Cases Are: Filtered/Deleted. A opção deletar retira
completamente esses casos do banco de dados.
Figura 30 – Janela Select Cases: If

Para identificar as variáveis que são influenciadas pelos outliers multivariados, realizar uma nova regressão,
tendo a variável dummy como VD. Esse procedimento deve ser realizado com uma regressão logística. A
variável dependente é dicótoma. Os resultados são os mesmos. Contudo, para fins de ilustração será
realizada uma regressão linear. A figura 31 ilustra o procedimento da regressão fictícia.

Analyse
Regression
Linear
VD = Dummy, VI = Todas as variáveis da pesquisa
Method: Stepwise
OK

Figura 31: Janela Regression Linear


Nos resultados da regressão, você terá as variáveis que influenciam os casos extremos. Além disso,
outros cálculos podem ser realizados utilizando a variável dummy como indicadora dos grupos. No output da
regressão, nos coeficientes há a indicação das variáveis que influenciam os casos extremos. Desconsidere os
outros resultados do output de regressão. As variáveis indicadas em amarelo (significância abaixo de 0,05)
são aquelas que influenciam os casos extremos.

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) ,107 ,097 1,105 ,272
Delivery Speed ,448 ,034 4,204 13,144 ,000
Price Level ,460 ,035 3,907 12,979 ,000
Price Flexibility -,016 ,013 -,154 -1,221 ,225
Manufacturer Image -,030 ,016 -,245 -1,898 ,061
Service -,943 ,067 -5,036 -14,090 ,000
Salesforce Image ,014 ,021 ,077 ,685 ,495
Product Quality -,012 ,007 -,137 -1,677 ,097
Usage Level ,008 ,003 ,527 2,906 ,005
Satisfaction Level ,009 ,022 ,053 ,403 ,688
Specification Buying ,086 ,035 ,302 2,474 ,015
Structure of Procurement ,012 ,046 ,042 ,252 ,802
Type of Industry (SIC) -,009 ,018 -,034 -,531 ,597
Type of Buying Situation -,071 ,026 -,417 -2,745 ,007
a. Dependent Variable: dummy

Recomendações Práticas

A ordem na qual o exame dos dados ocorre pode ser modificada provocando diferentes resultados.
Em uma situação onde existem variáveis com distribuições não normais e outliers em potencial, pode-se
transformar as variáveis ou eliminar os casos outliers primeiro. A transformação de variáveis em primeiro
lugar em geral diminui o número de outliers. A eliminação ou modificação dos outliers em primeiro lugar
pode diminuir o número de variáveis com distribuições não normais. Embora autores tais como Tabachnick e
Fidell prefiram as transformações em primeiro lugar, é recomendável verificar se os outliers multivariados
(quando houver) não constituem outra população. Neste caso, é recomendável eliminá-los da análise antes
de examinar as distribuições.

S-ar putea să vă placă și