Documente Academic
Documente Profesional
Documente Cultură
Version 2.16
Manual de Referncia1
yvind Hammer
Natural History Museum
University of Oslo
http://folk.uio.no/ohammer/past/
1999-2012
1
Traduo feita por Pavel Dodonov pdodonov@gmail.com; revisado por Matheus Gonalves dos Reis.
Ambos doutorandos do Programa de Ps-Graduao em Ecologia e Recursos Naturais, Universidade
Federal de So Carlos (UFSCar).
1
Sumrio
Sumrio ............................................................................................................................... 2
Bem-Vinda(o) ao PAST! .................................................................................................... 7
Instalao ............................................................................................................................ 8
A planilha e o menu Edit (Editar) ....................................................................................... 9
Inserindo dados ............................................................................................................... 9
Selecionando reas.......................................................................................................... 9
Movendo uma linha ou uma coluna.............................................................................. 10
Renomeando linhas e colunas....................................................................................... 10
Aumentando o tamanho da matriz ................................................................................ 10
Recortar, copiar, colar................................................................................................... 11
Remover........................................................................................................................ 11
Agrupando (colorindo) colunas .................................................................................... 11
Escolhendo tipos de dados para as colunas................................................................... 12
Remover linhas/colunas no-informativas Remove uninformative rows/columns ... 12
Transpor - Transpose .................................................................................................... 12
Colunas agrupadas para dados multivariados Grouped columns to multivar............ 13
Linhas agrupadas para multivariado Grouped rows to multivar................................ 13
Empilhar linhas agrupadas em colunas Stack colored rows into columns ................ 13
Eventos para amostras Events to samples (RASC to UA)......................................... 13
Carregando e salvando dados........................................................................................ 14
Importando dados do Excel .......................................................................................... 15
Lendo e escrevendo arquivos Nexus............................................................................. 15
Importando arquivos de texto ....................................................................................... 15
Contador Counter....................................................................................................... 16
Transform menu (Transformaes de dados) ................................................................... 17
Logaritmo...................................................................................................................... 17
Remover tendncia remove trend .............................................................................. 17
Subtrair mdia Subtract mean.................................................................................... 17
Box-Cox........................................................................................................................ 17
Porcentagem de linhas Row percentage .................................................................... 18
Normalizar comprimento por linha Row normalize length ....................................... 18
Abundncia para presena/ausncia Abundance to presence/absence ...................... 18
Ecaixe de Procrustes Procrustes fitting...................................................................... 18
Encaixe de Bookstein (Bookstein fitting) ..................................................................... 19
Projetar para espao tangente........................................................................................ 19
Remover tamanho de pontos de referncia (Remove size from landmarks) ................ 19
Transformar pontos de referncia (Transform landmarks)........................................... 20
Remover tamanho de distncias (Remove size from distance) .................................... 20
Ordenar crescente e decrescente (Sort ascending and descending) .............................. 20
Ordenar por cor (Sort on color) .................................................................................... 21
Diferena entre colunas (Column difference)............................................................... 21
Interpolao regular (Regular interpolation) ................................................................ 21
Avaliar expresso (Evaluate expression) ...................................................................... 21
Plot Menu (Grficos) ........................................................................................................ 22
2
Grfico (Graph)............................................................................................................. 22
Grfico XY (XY graph) ................................................................................................ 23
Histograma (Histogram) ............................................................................................... 25
Grfico de barras / boxplot (Bar chart/box plot)........................................................... 26
Percentis (Percentiles)................................................................................................... 27
Grfico de probabilidade normal (Normal probability plot)......................................... 28
Ternrio (Ternary) ........................................................................................................ 29
Grfico de bolhas (Bubble plot).................................................................................... 30
Sobrevivncia (Survivorship) ....................................................................................... 31
Pontos de referncia (Landmarks) ................................................................................ 31
Pontos de referncia 3D (Landmarks 3D) .................................................................... 32
Matriz (Matrix) ............................................................................................................. 33
Superfcie (Surface) ...................................................................................................... 34
Statistics Menu (Estatstica univariada)............................................................................ 34
Univariada (Univariate) ................................................................................................ 35
ndices de similaridade e distncia (Similarity and distance indices)........................... 36
Tabela de correlao (Correlation table)....................................................................... 41
Var-covar ...................................................................................................................... 42
Testes F e t (duas amostras) (F and t tests (two samples))............................................ 42
Teste t (uma amostra) (t test (one sample)) .................................................................. 44
Testes F e t a partir de parmetros (F and t tests from parameters) .............................. 45
Testes pareados (t, sinal, Wilcoxon) (Paired tests (t, sign, Wilcoxon) ......................... 45
Testes de normalidade (Normality tests) ...................................................................... 47
Qui^2 (Chi^2) ............................................................................................................... 49
Coeficiente de variao (Coefficient of variation)........................................................ 50
Teste de Mann-Whitney (Mann-Whitney test) ............................................................. 52
Kolmogorov-Smirnov ................................................................................................... 53
Correlao ordinal/de rank (Rank/ordinal correlation)................................................. 54
Tabela de contingncia (Contingency table)................................................................. 55
ANOVA Uni-fatorial (One-way ANOVA) .................................................................. 56
ANOVA bifatorial (Two-way ANOVA) ...................................................................... 59
Kruskal-Wallis .............................................................................................................. 60
Teste de Friedman (Friedman test) ............................................................................... 61
ANCOVA unifatorial (One-way ANCOVA) ............................................................... 62
Estatsticas de sequncia gentica (Genetic sequence stats)......................................... 63
Anlise de sobrevivncia (curvas de Kaplan-Meier, teste log-rank etc) (Survival
analysis (Kaplan-Meier curves, log-rank test etc.) ....................................................... 64
Riscos / probabilidades (Risks / odds).......................................................................... 65
Combinar erros (Combine errors)................................................................................. 66
Multivar menu (Multivariada) .......................................................................................... 68
Componentes principais (Principal components) ......................................................... 68
Coordenadas principais (Principal coordinates) ........................................................... 73
Escalonamento multidimensional no-mtrico (Non-metric MDS) ............................. 74
Anlise de correspondncia (Correspondence analysis)............................................... 75
Anlise de correspondncia destendenciada (Detrended correspondence analysis)..... 76
Correspondncia cannica (Canonical correspondence) .............................................. 77
3
Anlise de fator CABFAC (CABFAC factor analysis) ................................................ 78
Mnimos quadrados parciais de dois blocos (Two-block PLS) .................................... 78
Seriao (Seriation)....................................................................................................... 79
Anlise de agrupamento (Cluster analysis)................................................................... 80
Agrupamento de vizinho (Neighbour joining).............................................................. 81
Agrupamento por K-medias (K-means clustering)....................................................... 82
Normalidade multivariada (Multivariate normality) .................................................... 83
Discriminantes (Discriminant)/Hotelling...................................................................... 84
Hotelling pareado (Paired hotelling)............................................................................. 85
Permutao de dois grupos (Two-group permutation) ................................................. 86
M de Box (Boxs M)..................................................................................................... 86
MANOVA/CVA ........................................................................................................... 87
ANOSIM unifatorial (One-way ANOSIM) .................................................................. 90
ANOSIM bifatorial (Two-way ANOSIM) ................................................................... 91
NPMANOVA unifatorial (One-way NPMANOVA) ................................................... 92
NPMANOVA bifatorial (Two-way NPMANOVA)..................................................... 93
Teste de Mantel (Mantel test) e teste parcial de Mantel (partial Mantel test) .............. 94
SIMPER ........................................................................................................................ 95
Calibrao a partir de CABFAC (Calibration from CABFAC).................................... 96
Calibrao a partir de timos (Calibration from optima).............................................. 96
Tcnica de Anlogo Moderno (Modern Analog Tecnhique)........................................ 97
Model menu (Modelagem) ............................................................................................... 99
Linear ............................................................................................................................ 99
Linear, uma independente, n dependentes (regresso multivariada) (Linear, onde
independent, n dependent (multivariate regression)).................................................. 101
Linear, n independentes, uma dependente (regresso mltipla) (Linear, n independent,
one dependente (multiple regression))........................................................................ 102
Linear, n independentes, n dependentes (regresso mltipla multivariada) (Linear, n
independent, n dependent (multivariate multiple regression)..................................... 103
Regresso polinomial (Polynomial regression) .......................................................... 104
Regresso sinusoidal (Sinusoidal regression)............................................................. 105
Logistic / Bertalanffy / Michaelis-Menten / Gompertz............................................... 107
Modelo Linear Generalizado (Generalized Linear Model) ........................................ 108
Alisamento polinomial (Smoothing spline) ................................................................ 109
Alisamento LOESS (LOESS smoothing) ................................................................... 111
Anlise de mistura (Mixture analysis) ........................................................................ 111
Modelos de abundncia (Abundance models) ............................................................ 113
Empacotamento de espcies (Gaussiano) (Species packing (Gaussian)) ................... 115
Espiral logartmica (Logarithmic spiral)..................................................................... 116
Diversity menu (Diversidade)......................................................................................... 117
ndices de diversidade (Diversity indices).................................................................. 117
Riqueza quadrtica ou por parcela (Quadrat richness) ............................................... 119
Diversidade beta (Beta diversity)................................................................................ 121
Distino taxonmica (Taxonomic distinctness) ........................................................ 122
Rarefao individual ................................................................................................... 123
Rarefao por amostra (Sample rarefaction) (Mao tau) ............................................. 124
4
Anlise SHE (SHE analysis)....................................................................................... 126
Comparar diversidades (Compare diversities)............................................................ 127
Teste t de diversidade (Diversity t test) ...................................................................... 127
Perfis de diversidade (Diversity profiles) ................................................................... 128
Time series menu (Sries temporais).............................................................................. 130
Anlise espectral (Spectral analysis) .......................................................................... 130
Anlise espectral REDFIT (REDFIT spectral analysis) ............................................. 131
Anlise espectral de afunilamento mltiplo (Multitaper spectral analysis)................ 132
Autocorrelao (Autocorrelation)............................................................................... 133
Correlao cruzada (Cross-correlation) ...................................................................... 134
Autoassociao (Autoassociation) .............................................................................. 135
Wavelet (Wavelet transform)...................................................................................... 136
Transformao de Fourier de tempos curtos (Short-time Fourier transform)............. 137
Transformao de Walsh (Walsh transform).............................................................. 138
Runs test (teste de sries) ........................................................................................ 139
Correlograma (e periodograma) de Mantel (Mantel correlogram (and periodogram) 141
ARMA (e anlise de interveno) (ARMA (and intervention analysis)) ................... 142
Modelo de insolao (foramento solar) (Insolation (solar forcing) model).............. 144
Eventos pontuais (Point events).................................................................................. 145
Cadeia de Markov (Markov chain) ............................................................................. 147
Filtrar (Filter) .............................................................................................................. 148
Suavizadores simples (Simple smoothers).................................................................. 149
Converso de data/tempo (Date/time conversion)...................................................... 150
Geometrical menu ........................................................................................................... 151
Direes uma amostra (Directions one sample) ................................................... 151
Direes duas amostras (Directions two samples)................................................ 153
Correlaes circulares (Circular correlations) ............................................................ 155
Esfrico uma amostra (Spherical one sample)...................................................... 156
Anlise de vizinho mais prximo do padro de pontos (Nearest neighbour point pattern
analysis) ...................................................................................................................... 156
Anlise do padro de pontos pelo K de Ripley (Ripleys K point pattern analysis) .. 158
Densidade Kernel (Kernel density)............................................................................. 159
Alinhamento de pontos (Point alignments)................................................................. 161
Autocorrelao espacial I de Moran (Spatial autocorrelation Morans I) ............ 161
Gridagem interpolao espacial (Gridding spatial interpolation)......................... 162
Transformao de coordenadas (Coordinate transformation)..................................... 165
Alometria multivariada (Multivariate allometry) ....................................................... 167
Forma de Fourier 2D (Fourier shape 2D) ............................................................. 168
Anlise elptica de forma de Fourier (Elliptic Fourier shape analysis) ...................... 168
Anlise Hangle de forma de Fourier (Hangle Fourier shape analysis)....................... 169
Anlise de autoforma (Eigenshape analysis) .............................................................. 171
Polinmios de placa fina e deformaes (Thin-plate splines and warps)................... 171
Deformaes relativas (Relative warps) ..................................................................... 172
Tamanho a partir de pontos de referncia 2D ou 3D (Size from landmarks 2D or
3D) .............................................................................................................................. 173
5
Distncia a partir de pontos de referncia 2D ou 3D (Distance from landmarks 2D
or 3D) .......................................................................................................................... 173
Todas as distncias a partir de pontos de referncia EDMA (All distances from
landmarks EDMA)................................................................................................... 173
Ligao de pontos de referncia (Landmark linking) ................................................ 174
Strat menu ....................................................................................................................... 175
Associaes unitrias (Unitary associations).............................................................. 175
Ranqueamento-Escalonamento (Ranking-Scaling) .................................................... 178
CONOP (Otimizao Restrita) ................................................................................... 179
Ordenao de Eventos de Aparecimento (Appearance Event Ordination .................. 180
Curva de diversidade (Diversity curve) ...................................................................... 180
Intervalos de confiana de extenso (Range confidence intervals) ............................ 181
Intervalos de confiana da extenso livres de distribuio (Distribution-free range
confidence intervals)................................................................................................... 181
Diagrama de carretel (Spindle diagram) ..................................................................... 182
Cladistics......................................................................................................................... 183
Anlise de parcimnia (Parsimony analysis).............................................................. 183
6
Bem-Vinda(o) ao PAST!
Se voc tiver perguntas, relatos de defeitos no programa (bugs), sugestes para melhorias
ou outros comentrios, ns ficaramos felizes em ouvir voc. Contacte-nos em
ohammer@nhm.uio.no. Para relatos de defeitos no programa, lembre-se de mandar os
dados usados, como salvos pelo PAST, juntamente com uma descrio completa das
aes que levaram ao problema.
http://folk.uio.no/ohammer/past
Referncias
Hammer, . & Harper, D.A.T. 2006. Paleontological Data Analysis. Blackwell.
Hammer, ., Harper, D.A.T., and P. D. Ryan, 2001. PAST: Paleontological Statistics
Software Package for Education and Data Analysis. Palaeontologia Electronica 4(1): 9pp.
Harper, D.A.T. (ed.). 1999. Numerical Palaeobiology. John Wiley & Sons.
7
Instalao
Instalar o PAST fcil: apenas baixe o arquivo Past.exe e coloque-o em qualquer lugar
do seu disco rgido. Clicando duas vezes no arquivo vai abrir o programa. O Windows ir
considerar isso uma quebra de segurana e perguntar se voc confia no provedor do
programa. Se voc quiser usar o programa, ter que responder que sim.
Ns sugerimos que voc crie uma pasta chamada PAST em qualquer lugar do seu disco
rgido e coloque nela todos os arquivos.
8
A planilha e o menu Edit (Editar)
O PAST tem uma interface de usurio em formato de planilha. Dados so inseridos como
uma matriz de clulas, organizada em linhas (horizontalmente) e colunas (verticalmente).
Inserindo dados
Para inserir dados em uma clula, clique na clula com o mouse e digite os dados. Isto s
possvel quando o programa est no Edit mode (Modo de edio). Para selecionar
o modo de edio, marque a caixa Edit mode acima da matriz. Quando o modo de edio
estiver desligado, a matriz bloqueada e os dados no podem ser alterados. Tambm
possvel navegar pelas clulas com as teclas de seta.
Qualquer texto pode ser inserido nas clulas, mas a maior parte das funes espera
nmeros. Tanto a vrgula (,) quanto o ponto (.) so interpretados como separadores
decimais.
Dados ausentes (missing data) so codificados por pontos de interrogao (?) ou pelo
valor -1. A no ser que a documentao para uma funo fale explicitamente que h
suporte para dados faltantes, a funo no vai lidar corretamente com os dados
ausentes, ento tome cuidado.
A conveno no PAST que itens ocupam linhas e variveis ocupam colunas. Trs
indivduos de Brachiopoda podem ento ocupar as linhas 1, 2 e 3, com seus
comprimentos e larguras nas colunas A e B. Anlise de agrupamento (cluster) sempre vai
agrupar itens, ou seja, linhas. Para anlise de associao de modo Q (Q-mode analysis of
association), amostras (stios) devem ser inseridas nas linhas e os txons2 (espcies) nas
colunas. Para alternar entre modos Q e R, linhas e colunas podem ser facilmente
intercambiadas usando a operao Transpose (transpor).
Selecionando reas
A maior parte das operaes no PAST s feita em uma rea da matriz que voc tenha
escolhido (marcado). Se voc precisar rodar uma funo que requer dados e nenhuma
rea estiver selecionada, voc receber uma mensagem de erro.
2
Embora o plural de txon seja taxa, traduzi como txons para evitar confuses com taxas no sentido de
frequncia. (NT)
9
Uma linha selecionada clicando-se no rtulo de linha (row label, a coluna da
extrema esquerda).
Uma coluna selecionada clicando-se no rtulo de coluna (column label, a linha
superior).
Linhas mltiplas so selecionadas clicando no rtulo da primeira linhas,
segurando a tecla Shift e clicando nos rtulos das linhas adicionais. Note que voc
no pode selecionar as linhas clicando e arrastando isso vai mover a primeira
coluna (veja abaixo).
Colunas mltiplas so selecionadas de modo similar, segurando Shift e clicando
nos rtulos das colunas adicionais.
A matriz inteira pode ser selecionada clicando no canto superior esquerdo da
matriz (a clula cinza vazia) ou escolhendo a opo Select all (Selecionar
tudo) no menu Edit (Editar).
reas menores dentro da matriz podem ser selecionadas clicando e arrastando,
mas isso s funciona quando o modo de edio (Edit mode) est desligado.
Uma outra forma escolher a opo Edit labels (Editar rtulos) acima da planilha. A
primeira linha e a primeira coluna agora podem ser editadas como o resto das clulas.
10
Recortar, copiar, colar
As opes para recortar, copiar e colar so encontradas no menu Edit (Editar). Voc pode
recortar/copiar dados da planilha do PAST e os colar em outros programas, por exemplo
Word e Excel. Similarmente, dados de outros programas podem ser colados na planilha
do PAST, contanto que estejam em formato de texto separado por tabulaes.
Lembre-se que blocos locais de dados (sem serem todas as linhas ou colunas) s podem
ser marcadas quando o modo de edio (Edit mode) est desligado.
Todos os mdulos com output grfico possuem um boto Copiar grfico (Copy
graphic). Este ir colocar a imagem do grfico na rea de colagem de modo que ele
possa ser colado em outros programas, por exemplo um programa de desenho para edio
da imagem. Grficos so copiados no formato Enhanced Metafile Format (EMF) no
Windows. Isso permite a edio de elementos individuais da imagem em outros
programas. Ao colar o grfico no Coreldraw, voc precisa escolher Colar especial
(Paste special) no menu Editar e escolher Enhanced metafile. Alguns programas
podem ter formas idiossincrticas de interpretar imagens EMF cuidado com coisas
engraadas acontecendo.
Remover
A funo remover (remover) no menu Edit (Editar) permite que voc remova da planilha
a(s) linha(s) ou coluna(s) escolhida(s). A rea removida no copiada para a rea de
colagem.
11
A opo Numbers to colors (Nmeros para cores) no menu Edit permite que
nmeros 1-16 em uma coluna selecionada atribuam a cor (smbolo) correspondente s
colunas.
Transpor - Transpose
A funo Transpose (Transpor), no menu Edit, ir intercambinar linhas e colunas. Isto
usado para alternar entre modos R e Q nas anlises de agrupamento (cluster),
componentes principais (principal components analysis) e seriao (seriation).
12
Colunas agrupadas para dados multivariados Grouped columns to
multivar
Converte de um formato com dados multivariados apresentados em grupos consecutivos
de N colunas para o formato do PAST, com um item por linha e todas as variveis
(variates) ao longo das colunas. Para N=2, dois espcies e quatro variveis a-d, a
converso de
a1 b1 a2 b2
c1 d1 c2 d2
para
a1 b1 c1 d1
a2 b2 c2 d2
a1 b1
c1 d1
a2 b2
c2 d2
para
a1 b1c1 d1
a2 b2 c2 d2
13
Carregando e salvando dados
A funo Open (Abrir) se encontra no menu File (Arquivo). Voc tambm pode
arrastar um arquivo da rea de trabalho (desktop) para dentro da janela do PAST. O
PAST utiliza um formato de texto fcil de importar de outros programas, como segue:
Clulas vazias (como a clula do topo esquerda) so codificadas com um ponto (.).
Clulas so separadas por espao em branco. Se uma clula contm caracteres de espao,
ela precisa ser envolta em colchetes duplos, por exemplo Argila de Oxford.
Caso a alguma clula tenha sido atribuda uma cor diferente do preto, o rtulo da linha no
arquivo vai comear underline, um nmero de 0 a 15 indicando a cor (smbolo), e outro
underline.
Caso a alguma coluna de dados tenha sido atribudo um formato que no seja o
contnuo/no-especificado (continuous/unspecified), os rtulos das colunas no arquivo
iro similarmente comear com um underline, um nmero de 0 a 3 identificando o tipo de
dados (0=contnuo/no-especificado, 1=ordinal, 2=nominal, 3=binrio), e um segundo
underline.
Adicionalmente a este formato, o PAST tambm consegue detectar e abrir arquivos nos
seguintes formatos:
Excel (apenas a primeira planilha)
Nexus (veja abaixo), popular em Sistemtica
formato TPS desenvolvido por Rohlf. Os campos landmark, outlines, curves, id,
scale e comentrio tm suporte, os outros campos so ignorados
NTSYS. Tabelas mltiplas e rvores no tm suporte. O arquivo precisa ter a
extenso .nts.
formato de sequncia molecular FASTA, especificao simplificada de acordo
com NCBI.
formato de sequncia molecular PHYLIP. O arquivo precisa ter a extenso
.phy.
formato de sequncia molecular Arlequin. Para dados de gentipo os dois
hapltipos so concatenados para uma nica linha. Nem todas as opes tm
suporte.
formato BioGraph para bioestratigrafia (formatos SAMPLES e DATUM). Se um
segundo arquivo com o mesmo nome e a extenso .dct for encontrado, ele ser
includo como um dicionrio do BioGraph.
formato RASC para bioestratigrafia. Voc precisa abrir o arquivo .DAT. O
programa espera arquivos .DIC e .DEP correspondentes no mesmo diretrio.
formato CONOP para bioestratigrafia. Voc precisa abrir o aquivo .DAT (log
file). O programa espera arquivos .EVT (event) e .SCT (section) correspondentes
no mesmo diretrio.
14
A funo Insert from file (Inserir do arquivo) tilo para concatenar conjuntos
de dados. O arquivo carregado ser inserido na sua planilha existente na posio
escolhida (esquerda superior).
Arquivos de texto separados por espaos em branco, tabulaes ou vrgulas pode ser lidos
usando a opo Import text file (Importar arquivo de texto) no menu File. A planilha
na janela ilustra o formato do arquivo a ser aberto como especificado pela caixas de
verificao (check boxes).
15
Contador Counter
Uma funo de contagem (counter function) est disponvel no menu Edit para usar, por
exemplo, no microscpio durante a contagem de fsseis de diferentes txons. Uma nica
linha (amostra) deve ser selecionada. Uma janela de contagem ir abrir com um nmero
de contadores, um para cada coluna (txon) selecionada. Os contadores sero
inicializados com os rtulos das colunas e qualquer contagem que j esteja presente na
planilha. Ao fechar a janela do contador, os valores na planilha sero atualizados.
Conte para cima (+) ou para baixo (-) com o mouse, ou para cima com as teclas 0-9 e a-z
(apenas os primeiros 36 contadores). As barras representam a abundncia relativa. Um
registro (log) de eventos fornecido direita role para cima ou para baixo com o
mouse ou as setas do teclado. Um feedback auditivo opcional tem um tom especfico para
cada contador.
16
Transform menu (Transformaes de dados)
Estas rotinas realizam operaes matemticas nos seus dados. Isso pode ser necessrio
para exibir algumas caractersticas dos dados ou pode ser um passo pr-processamento
necessrio para algumas anlises.
Logaritmo
A funo Log no menu Transform transforma os seus dados em logaritmos na base 10.
Caso os dados apresentam zeros ou valores negativos, pode ser necessrio adicionar uma
constante (e.g. 1) antes da transformao em log (use Evaluate Expression x+1).
Isso til, por exemplo, para comparar a sua amostra com uma distribuio log-normal
ou para encaixar um modelo exponencial. Alm disso, dados de abundncia com alguns
txons muito dominantes podem ser transformados em logaritmo para reduzir a
importncia desses txons.
H suporte para dados ausentes (missing data).
Box-Cox
A transformao de Box-Cox uma famlia de transformaes de potncia cujo objetivo
tornar os dados x mais similares a uma distribuio normal. A transformao tem um
parmetro :
x 1
0
ln 0
17
O valor-padro do parmetro calculado maximizando a funo de log-verossimilhana
(lok likelihood function)
onde 2 a varincia dos dados transformados. O valor timo pode ser mudado pelo
usurio, estando limitado a -4 4.
H suporte para dados ausentes.
18
A opo Rotate to major axis (Rotacionar para o eixo principal) coloca o resultado
em uma orientao convencional, por convenincia.
A opo Keep size (Manter tamanho) adiciona um passo final no qual a escala das
formas transformada de modo que elas voltem aos tamanhos originais dos seus
centrides.
Uma descrio detalhada do coordenadas Procrustes e de espao tangete dada em
Dryden & Mardia (1998). Os algoritmos para o encaixe Procrustes so de Rohlf & Slice
(1990) (2D) e de Dryden & Mardia (1998) (3D). Deve ser notado que para 2D, o
algoritmo iterativo de Rohlf & Slice (1990) frequentemente d resultados ligeiramente
diferentes do algoritmo direto de Dryden & Mardia (1998). O PAST usa o primeiro para
seguir o padro industrial.
Dados ausentes tm suporte apenas por substituio pela mdia da coluna, o que pode
no ser muito significativo.
Referncias
Dryden, I.L. & K.V. Mardia 1998. Statistical Shape Analysis. Wiley.
Rohlf, F.J. & Slice, D. 1990. Extensions of the Procrustes method for the optimal superimposition
of landmarks. Systematic Zoology 39:40-59.
19
Transformar pontos de referncia (Transform landmarks)
Permite rotao da nuvem de pontos em passos de 90 graus e espelhamento de cima para
baixo e de esquerda para direta, principalmente para facilitar a plotagem. A operao de
espelhamento pode ser til para reduzir dados de um ponto de referncia com simetria
bilateral por meio de um encaixe de Procrustes da regio esquerda verso espelhada da
regio direita (e opcionalmente calculando a mdia dos dois).
Apenas para coordenadas 2D.
20
Ordenar por cor (Sort on color)
Ordena as linhas na rea marcada pela cor.
21
u (a clula acima up)
d (a clula abaixo down)
mean (o valor mdio da coluna atual)
min (o valor mnimo)
max (o valor mximo)
n (nmero de clulas na coluna
i (ndice de linha)
j (ndice de coluna)
random (nmero aleatrio uniforme entre 0 e 1)
normal (nmero aleatrio Gaussiano com mdia 0 e varincia 1)
integral (somatria corrente running sum - da coluna atual)
stdev (desvio padro da coluna atual)
sum (somatria total da coluna atual)
Adicionalmente, possvel se referir a outras colunas usando o nome da coluna
precedido por c_, por exemplo c_A.
Exemplos
sqrt(x) Substitui todos os valores por suas razes quadradas
(x-mean)/stdev Padronizao por mdia e desvio padro em cada coluna
x-0.5*(max+min) Centra os valores em torno de zero
(u+x+d)/3 suavizao mdia mvel de trs pontos (three-point moving average
smoothing)
i Preenche a coluna com os nmeros das linhas (requer clulas no-vazias, por
exemplo todos zeros)
sin(2*3.14159*i/n) gera um perodo de uma funo seno coluna abaixo (requer
clulas no-vazias)
5*normal+10 Nmero aleatrio de uma distribuio normal, com mdia 10 e
desvio padro 5.
H suporte para dados ausentes.
Grfico (Graph) 3
Plota uma ou mais colunas como grficos separados. As coordinadas x so estabelecidas
automaticamente em 1,2,3,... H quantro estilos de grfico disponveis: Grfico (linha
line), pontos (points), linha com pontos (line+points) e barras (barchart). As opes
Legenda X (X labels) estabelece os labels do eixo x com os nomes das linhas
correspondentes.
A opo Log Y transforma em log os valores do eixo Y. O logaritmo calculado na
base 10, mas log 0 definido como 0.
Valores faltantes so desonsiderados.
3
Nesta seo, no traduzi os termos Plot (fazer um grfico) e Label (legenda de um eixo ou de um ponto).
22
Grfico XY (XY graph)
Plota um ou mais pares de colunas contendo pares de coordenadas x/y. A opo log Y
transforma em logaritmo os valores de Y (se necessrio, uma constante adicionada para
tornar o valor mnimo de log igual a 0). A curva tambm pode ser suavizada (smoothed)
usando mdia mvel de 3 pontos (3-point moving average).
Elipses de concentrao 95% podem ser plotadas na maior parte dos grficos de
disperso no PAST, tais como os escores das anlises de PCA, CA, DCA, PCO e NMDS.
O clculo destas elipses assume distribuio normal bivariada.
Envelopes convexos (convex hulls) tambm podem ser desenhados nos grficos de
disperso para mostrar as reas ocupadas por pontos de cores diferentes. O envelope
convexo o menor polgono convexo que contm todos os pontos.
A rvore de expanso mnima (minimal spanning tree) o conjunto de linhas de
comprimento total mnimo conectando todos os pontos. No mdulo XY graph, distncias
Euclideanas 2D so usadas.
Segure o cursor do mouse sobre um ponto para ver o label da sua linha.
Pontos com valores ausentes em X e/ou em Y so descartados.
23
Grfico XY com barras de erro (XY graph with error bars)
Igual a um grfico XY, mas espera quatro colunas (ou um mltiplo), com valores de x, y,
erro de x e erro de y. Barras de erro simtricas so desenhadas ao redor de cada ponto
com o semi-comprimento como espeficado. Se um valor de erro estabelecido em zero
ou no fornecido, a barra de erro correspondente no desenhada.
Pontos com valores ausentes de X e/ou Y so desconsiderados.
24
Histograma (Histogram)
Plota histogramas (distribuies de frequncias) para uma ou mais colunas. O nmero de
classes (bins) definido por padro em um nmero timo (a regra de fase-zero (zero-
stage rule) de Wand 1997):
h = 3.49min(s, IQ/1.349)n-1/3
onde s o desvio-padro da amostra e IQ a amplitude entre-quartis (interquartile
range).
OP nmero de classes pode ser mudado pelo usurio. A opo Fit normal (Ajustar
normal) desenha um grfico com uma distribuio normal ajustada (estimao
Paramtrica, no por Mnimos Quadrados).
Referncias
Silverman, B.W. 1986. Density estimation for statistics and data analysis. Chapman & Hall.
Wand, M.P. 1997. Data-based choice of histogram bin width. American Statistician 51:59-64.
25
Grfico de barras / boxplot (Bar chart/box plot)
Grfico de barras ou caixas (boxplot) para uma ou mais columas (amostras) de dados
univariados. Valores ausentes so deletados.
Se a caixa Outliers (Pontos extremos) for selecionada, uma outra conveno de box
plot usada. Os whiskers so desenhados do topo da caixa at o maior ponto que esteja a
menos do que 1.5 vezes a altura da caixa acima da caixa(upper outer fence) e
similarmente abaixo da caixa. Valores fora dos limites internos so mostrados como
crculos, valores mais longe do que trs alturas da caxa da caixa (limites externos
outer fences) so mostrados como estrelas.
Jitter plot
Cada valor plotado como um ponto. Para mostrar pontos sobrepostos mais claramente,
eles podem ser deslocados usando um valor de jitter aleatrio controlado por uma
barra deslizante.
26
Grfico de barras (Bar chart)
Box plot
Percentis (Percentiles)
Para cada percentil p, plota o valor de y tal que p porcento dos pontos so menores do que
y. Dois mtodos populares so inclusos. Para um percentil p, o rank calculado de
acordo com k=p(n+1)/100, e o valor correspondente quele rank tomado. No mtodo
de arredondamento, k arredondado at o nmero inteiro mais prximo; j no mtodo de
interpolao, ranks no-inteiros so tratados por interpolao entre os dois ranks mais
prximos.
27
Valores ausentes so deletados.
28
Dados ausentes so deletados.
As medianas das estatsticas de ordem da normal (normal order statistic medians) so
calculadas como N(i) = G(U(i)), onde G o inverso da funo de distribuio cumulativa
da normal e U so as medianas das estatsticas de ordem da uniforme (uniform order
statistic medians):
1 U ( n ), i =1
U = i 0 . 3175 /( n + 0 . 365 ) i = 1,3,... n 1
0 .5 1 / n i=n
Ternrio (Ternary)
Grfico ternrio para trs colunas de dados, normalmente contendo propores de
composies. Se uma quarta coluna for includa, ela ser apresentada por meio de uma
representao de bolhas ou um mapa colorido/escala de cinza.
29
Linhas com valor(es) ausente(s) em qualquer coluna so deletadas. Quando utilizar a
opo de mapa colorido, as linhas com apenas a quarta coluna ausente so includas no
grfico, mas no contribuem com o mapa.
30
Sobrevivncia (Survivorship)
Curvas de sobrevivncia para uma ou mais colunas de dados. Os dados podem consistir
de valores de idade ou tamanho. O grfico mostra o nmero de indivduos que
sobreviveram at diferentes idades. Assumindo crescimento exponencial (altamente
questionvel!), tamanho pode ser transformado, por logaritmo, em idade. Isso pode ser
feito no menu Transform ou diretamente no dilogo do Survivorship. Veja tambm
Anlise de sobrevivncia (Survival analysis) no menu Statistics.
Valores ausentes so deletados.
31
Pontos de referncia 3D (Landmarks 3D)
Plotagem de pontos em 3D (XYZ). Especialmente adequado para dados em 3D de pontos
de referncia (landmarks), mas tambm pode ser usado, e.g., para grficos de disperso
de PCA com trs componentes principais. A nuvem de pontos pode ser rotacionada ao
redor dos eixos x e y (observe: sistema de coordenadas mo-esquerda (left-handed)). O
deslizador Perspective (Perspectiva) normalmente no usado. A opo Stems
(Caules) desenha desenha uma linha de cada ponto at o plano de baixo, o que s
vezes pode melhorar a informao 3D. Lines (Linhas), desenha linhas entre pontos
de referncia consecutivos dentro de cada espcime (linha) separado. Axes (Eixos),
mostra os trs eixos de coordenadas com o centride dos pontos como origem.
Pontos com valores ausentes em X, Y ou Z so desconsiderados.
32
Matriz (Matrix)
Grfico bidimensional da matriz de dados, usando uma escala de cinza com branco para o
valor mais baixo e preto para o valor ou mais alto, ou uma escala de cores. Use para ter
uma viso geral de uma matriz de dados grande. Valores ausentes so plotados como
vazios (permitindo buracos e limites no-quadrados).
33
Superfcie (Surface)
Grfico de paisagem tridimensional de uma matriz de dados com valores de elevao.
Cores so atribudas de acordo com a elevao, ou a superfcie pode ser preenchida com
tons de cinza usando um modelo de luz com uma fonte de iluminao fixa. Os dados no
exemplo abaixo so os mesmos que no grfico de matriz acima.
34
Univariada (Univariate)
Essa funo calculca uma srie de estatstica descritivas bsicas para uma ou mais
amostras de dados univariados. Cada amostra deve ter ao menos 3 valores, e ocupar uma
coluna na planilha. As colunas no precisam conter o mesmo nmero de valores. O
exemplo abaixo usa duas amostras: os tamanhos, em mm, dos crnios de 30 gorilas
fmeas e 29 gorilas machos. Para rodar a anlise, as duas colunas (ou a planilha inteira)
devem ser selecionadas.
n
Std. error: s
O erro padro da estimativa da mdia, calculado por SE x = onde
n
s a estimativa do desvio padro (ver abaixo).
Variance: 1
A varincia da amostra, calculada por s 2 =
n 1
( xi x ) 2 .
Stand. dev.: 1
O desvio padro da amostra, calculado por s =
n 1
( xi x ) 2 .
Median: A mediana da amostra. Para n mpar, o valor fornecido tal que h
tantos valores acima quanto abaixo dele. Para n par, a mdia dos
dois valores centrais.
25 prcntil: O 25o percentil, ou seja o valor tal que 25% da amostra est abaixo
dele e 75% est acima. O mtodo de interpolao usado (ver
Grfico de Percentis Percentile Plot acima).
75 prcntil: O 75o percentil, ou seja o valor tal que 75% da amostra est abaixo
dele e 35% est acima. O mtodo de interpolao usado (ver
35
Grfico de Percentis Percentile Plot acima).
Skewness: A assimetria da amostra, zero para uma distribuio normal, positiva
para uma distribuio com cauda para a direita.
Calculada por G1 =
n ( xi x ) 3 . Observe que
3
(n 1)(n 2) 1
n 1 ( xi x )
2
h diversas verses desta frmula o Past usa a mesma equao que
SPSS e Excel. Resultados ligeiramente diferentes podem ocorrer em
outros programas, especialmente para tamanhos amostrais pequenos.
Kurtosis:
G2 =
n(n + 1) ( xi x ) 4
3
(n 1) 2
.
4
(n 1)(n 2)(n 3) 1 (n 2)(n 3)
n 1 ( xi x )
2
Novamente o Past usa a mesma equao que SPSS e Excel.
Geom. mean: A mdia geomtrica, calculada como ( x1 x2 ...x n )1 / n .
Bootstrapping
Selecionando a opo bootstrapping ir calcular os limites superior e inferior dos
intervalos de confiana de 95% por meio de 9999 rplicas bootstrap. Intervalos de
confiana para os valores mnimo e mximo no so fornecidos, porque sabe-se que o
bootstrap no funciona bem para essas estatsticas.
36
Gower
Uma medida de distncia que calcula a mdia da diferena entre todas as variveis, sendo
cada termo normalizado para a amplitude daquela varivel:
1 x ji xki
d jk = .
n max x si min x si
x
s
A medida de Gower similar distncia de Manhattan (ver abaixo) mas com
normalizao de amplitude. Quando usando tipos mistos de dados (ver abaixo), esta a
medida-padro para dados contnuos e ordinais.
Euclidean
Distncia Euclideana bsica. Nas primeiras verses do Past, era normalizada para o
nmero de variveis (o valor ainda ajustado para dados ausentes).
d jk = (x
i
ji xki ) 2 .
Mahalanobis
Uma medida de distncia que leva em conta a estrutura de covarincia dos dados, sendo S
a matriz de varincia-covarincia:
d jk = (x j x k )T S 1 (x j x k ) .
Geographical
Distncia em metros a longo de um grande crculo entre dois pontos na superfcie da
Terra. Requer exatamente duas variveis (colunas), com latitudes e longitudes em graus
decimas (e.g. 58 graus 30 minutos Norte 58.5). Espera-se que as coordenadas estejam
no datum WGS84, e a distncia calculada de acordo com o elipside WGS84. O uso de
outros datums ir resultar em erros muito pequenos.
37
A acurcia do algoritmo usado (Vicenty 1975) da ordem de 1 mm com relao a
WGS84.
Correlation
O complemento 1-r do coeficiente r de correlao de Pearson entre as variveis:
i ( xij x j )( xki xk )
d jk = 1 .
( x ji x j ) 2 ( xki xk ) 2
i i
Usar o complemento faz disso uma medida de distncia. Veja tambm o mdulo
Correlao (Correlation), onde o r de Pearson fornecido diretamente e com testes de
significncia.
Rho
O complemento 1-rs do rho de Spearman, que um coeficiente de correlao de ranks.
Veja tambm o mdulo Correlao (Correlation), onde o rho dado diretamente e com
testes de significncia.
Dice
Tambm conhecido como coeficiente de Sorensen. Para dados binrios (presena-
ausncia), codificados como 0 ou 1 (qualquer nmero positivo tratado como 1). A
similaridade de Dice pe mais peso em ocorrncias conjuntas do que em ocorrncias
disjuntas (mismatches).
Quando comparado duas linhas, uma ocorrncia conjunta (match) contada para todas as
colunas com presena em ambas as linhas. Usando M para o nmero de ocorrncias
conjuntas e N para o nmero total de colunas com presena em apenas uma linha,
temos d jk = 2M /(2 M + N ) .
Jaccard
Um ndice de similaridade para dados binrios. Com a mesma notao usada para o
ndice de Dice acima, temos
d jk = M /( M + N ) .
Kulczynski
Um ndice de similaridade para dados binrios. Com a mesma notao dada para a
similaridade de Dice acima (com N1 e N2 se referindo s duas colunas), temos
M M
+
M + N1 M + N 2
d jk = .
2
Ochiai
Um ndice de similaridade para dados binrios, comparvel similaridade de coseno
(cosine) para outros tipos de dados:
M M
d jk = .
M + N1 M + N 2
Simpson
O ndice de Simpson definido simplesmente como M/Nmin, onde Nmin o menor dos
nmeros de presenas nas duas linhas. Esse ndice trata as linhas como idnticas caso
uma seja um subconjunto da outra, o que o torna til para dados fragmentrios
(fragmentary data).
38
Bray-Curtis
Bray-Curtis um ndice de similaridade popular para dados de abundncia. O Past
calcula a similaridade de Bray-Curtis da seguinte maneira:
i x ji xki
d jk = 1 .
(x ji + xki )i
Isso algebricamente equivalente frmula dada originalmente por Bray e Curtis (1957):
i min( x ji , xki )
d jk = 2 .
( x ji + xki )
i
Muitos autores usam uma distncia de Bray-Curtis, que simplesmente 1-d.
Cosine
O produto interno das abundncias, cada uma normalizada norma unitria (normalised
to unit norm), i.e. o coseno do ngulo entre os vetores.
i x ji xki
d jk =
x 2ji xki2
i i
Morisita
Para dados de abundncia.
i x ji ( x ji 1)
1 =
i x ji i x ji 1
x i
ki ( x ki 1)
2 =
x x
i
ki
i
1
ki
2 x ji xki
i
d jk = .
(1 + 2 ) x ji xki
i i
Raup-Crick
ndice de Raup-Crick para dados de presena-ausncia. Este ndice (Raup & Crick 1979)
usa um procedimento de aleatorizao (Monte Carlo) comparando o nmero observado
de espcies que ocorrem em ambas as associaes com a distribuio de co-ocorrncias a
partir de 1000 rplicas aleatrias do conjunto (pool) de amostras.
Horn
ndice de sobreposio de Horn para dados de abundncia (Horn 1966).
N j = x ji
i
N k = xki
i
39
[( x
i
ji
i
]
+ xki ) ln( x ji + x ki ) x ji ln x ji xki ln xki
i
d jk = .
( N j + N k ) ln( N j + N k ) N j ln N j N k ln N k
Hamming
Distncia de Hamming para dados categricos codificados como nmeros inteiros (ou
dados de sequncia gentica codificados como CAGT). A distncia de Hamming o
nmero de diferenas (mismatches ou ocorrncias disjuntas), de modo que a distncia
entre (3,5,1,2) e (3,7,0,2) igual a 2. No Past, ela normalizada para a amplitude [0,1], a
qual conhecida por geneticistas como p-distance.
Chord
Distncia Euclideana entre vetores normalizados. Comumente usada para dados de
abundncia. Pode ser escrita como
x i
ji xki
d jk = 2 2 .
x x
i
2
ji
i
2
ki
Manhattan
A somatria das diferenas em cada varivel:
d jk = x ji xki .
i
Jukes-Cantor
Medida de distncia para dados de sequncia gentica (CAGT). Similar distncia p (ou
Hamming), mas leva em conta a probabilidade de reverses (reversals):
3 4
d = ln1 p .
4 3
Kimura
A medida de distncia de 2 parmetros de Kimura para dados de sequncia gentica
(CAGT). Similar distncia de Jukes-Cantor, mas leva em conta diferentes
probabilidades de transies vs. transverses de nucleotdeos (Kimura 1980). Sendo P a
proporo observada de transies e Q o nmero observado de transverses, temos
1 1
d = ln(1 2 P Q ) ln(1 2Q ) .
2 4
Tajima-Nei
Medida de distncia para dados de sequncia gentica (CAGT). Similar distncia de
Jukes-Cantor, mas no assume frequncias iguais de nucleotdeos.
Mixed (mista)
40
Esta opo requer que tipos de dados sejam atribudos s colunas (veja Inserindo e
manipulando dados). Uma janela pop-up ir perguntar a medida de similaridade/distncia
a ser usada para cada tipo de dados. Estas sero combinadas usando uma mdia
ponderada pelo nmero de variveis de cada tipo. As opes-padro correspondem s
sugeridas por Gower, mas outras combinaes podem funcionar melhor. A opo
Gower uma distncia de Manhattan normalizada pela amplitude (range-normalised).
Colunas s com zeros: Algumas medidas de similaridade (Dice, Jaccard, Simpson etc.)
so indefinidas quando linhas contendo apenas zeros so comparadas. Para evitar erros,
especialmente quando fazendo bootstrap em conjuntos de dados com poucos valores, a
similaridades nestes casos definida como zero.
Dados ausentes: A maio parte dessas medidas trata os dados ausentes (codificados por
?) por deleo par-a-par, significando que se um valor est ausente em uma das
variveis de um par de linhas, esta varivel omitida do clculo de distncias entre essas
duas linhas. As excesses so: distncia rho, a qual usa substituio pela mdia da coluna
(column average substitution), e Raup-Crick, que no aceita dados ausentes.
Referncias
Bray, J.R. & J.T. Curtis. 1957. An ordination of the upland forest communities of Southern
Wisconsin. Ecological Monographs 27:325-349.
Horn, H.S. 1966. Measurement of overlap in comparative ecological studies. American Naturalist
100:419-424.
Kimura, M. 1980. A simple model for estimating evolutionary rates of base substitutions through
comparative studies of nucleotide sequences. Journal of Molecular Evolution 16:111-120.
Raup, D. & R.E. Crick. 1979. Measurement of faunal similarity in paleontology. Journal of
Paleontology 53:1213-1227.
Vincenty, T. 1975. Direct and inverse solutions of geodesics on the ellipsoid with application of
nested equations. Survey Review 176:88-93.
41
n2
t=r .
1 r 2
Dados ausentes: suportados por deleo.
Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
Var-covar
Apresenta uma matriz simtrica com as varincias e covarincias entre todos os pares de
colunas.
42
Estatsticas da amostra
Mdia e varincia so estimadas como descrito acima, sob Estatstica univariada. O
intervalo de confiana de 95% para a mdia baseado no erro padro para a estimatitva
de mdia e na distribuio t. Sendo s a estimativa do desvio padro, o intervalo de
confiana
s s
x t ( / 2,n1) , x + t (// 2,n1) .
n n
Aqui, t tem n-1 graus de liberdade, e 1-=0.95 para um intervalo de confiana 95%.
O intervalo de confiana 95% para a diferena entre as mdias aceita tamanhos amostrais
desiguais:
[x y t s , x y + t (/2, gl ) s D ,
(/2, gl ) D ]
onde
SSE = ( xi x ) 2 + ( yi y ) 2
gl = (n1 1) + (n2 1)
MSE = SSE / df
2
nh =
1 / n1 + 1 / n2
2 MSE
sD =
nh
43
O intervalo de confiana calculado para a mdia maior menos a menor, i.e. o centro do
IC sempre deve ser positivo. O intervalo de confiana para a diferena das mdias
tambm estimado por bootstrap, com 9999 replicaes.
Teste F (F test)
O teste F tem como hiptese nula
H0: As duas amostras so tomadas de populaes com varincia igual.
A estatstica F a razo da maior varincia pela menor varincia. A significncia
bicaudal, com n1 e n2 graus de liberdade.
Teste t (t test)
O teste t tem a hiptese nula
H0: As duas amostras so tomadas de populaes com mdias iguais.
A partir do erro padro sD da diferena das mdias dadas acima, a estatstica de teste
xy
t= .
sD
Teste t para varincias desiguais (Unequal variance t test)
O teste t para varincias desiguais tambm conhecido como o teste de Welch. Pode ser
usado como alternativa para o teste t bsico quando as varincias so muito diferentes,
embora pode ser argumentado que o teste para a diferenas nas mdias neste caso
questionvel. A estatstica de teste
xy
t= .
Var ( x) / n1 + Var ( y ) / n2
O nmero de graus de liberdade
2
Var ( x) Var ( y )
+
n1 n2
gl =
[Var( x) / n1 ]2 [Var( y ) / n2 ]2
+
n1 1 n2 1
Teste por permutao (Permutation test)
O teste por permutao para igualdade das mdias usa a diferena absoluta nas mdias
como estatstica do teste. O teste por permutao no-paramtrico com poucas
premissas. O nmero de permutaes pode ser definido pelo usurio. O poder do teste
limitado pelo tamanho amostral significncia no nvel de p<0.05 s pode ser
conseguida para n>3 em cada amostra.
44
Testes F e t a partir de parmetros (F and t tests from parameters)
s vezes, as publicaes no fornecem os dados, mas fornecem valores para tamanhos
amostrais, mdia e varincia de duas amostras. Estes podem ser inseridos manualmente
usando a opo F and t from parameters no menu. Esse mdulo no usa dados da
planilha.
Testes pareados (t, sinal, Wilcoxon) (Paired tests (t, sign, Wilcoxon)
Trs testes estatsticos (um paramtrico, dois no-paramtricos) para duas amostras
(colunas) de dados univariados. Os pontos de dados so pareados, significando que os
dois valores de cada linha so associados. Por exemplo, o teste pode ser usado para
comparar o comprimento o brao esquerdo vs. brao direito de um grupo de pessoas, ou a
diversidade no vero vs. no inverno de uma srie de stios. Controlado por um fator de
rudo (nuisance factor) (pessoa, stio), aumenta-se assim o poder do teste. A hiptese
nula :
H0: A mdia (teste t) ou mediana (teste de sinal, teste de Wilcoxon) da diferena zero.
Todos os valores de p relatados so bicaudais.
45
Teste t (t test)
Testa se a diferena mdia igual a zero por meio de um teste t comum de uma amostra.
Sendo di=xi-yi, temos
1
s=
n 1
(d i d ) 2 ,
d
t= .
s/ n
H n-1 graus de liberdade. O teste assume distribuio normal das diferenas.
46
Para n grande (digamos n>10), a aproximao do p para grandes amostras (large-sample
approximation to p) pode ser usada. Isso depende da distribuio normal da estatstica de
teste W:
n(n + 1)
E (W ) =
4
n(n + 1)(2n + 1) g
f g3 f g
var(W ) = .
24 48
O ltimo termo uma correo para valores repetidos, onde fg o nmero de elementos
no conjunto de valores repetidos g. O z resultante relatado juntamente com o valor de p.
O valor de significncia de Monte Carlo baseado em 99 999 remanejamentos aleatrios
de valores entre as colunas dentro de cada par. Este valor ser praticamente idntico ao
valor exato do p.
Para n<26, um valor exato de p calculado por enumerao completa de todos os
remanejamentos possveis (h 2n remanejamentos possvel, i.e. mais de 33 milhes
n=25). Este o valor prefervel quando disponvel.
47
Se o p(normal) fornecido for menor do que 0.05, distribuio normal pode ser rejeitada.
Dos quatro testes fornecidos, os de Shapiro-Wilk e de Anderson-Darlink so
considerados os mais exatos, e os outros dois testes (Jarque-Bera e um teste por qui-
quadrado (chi-square)) so fornecidos como referncia. Existe um tamanho amostral
mximo de n=5000, enquanto o tamanho amostral mnimo 3 ( claro que os testes tero
poder muito pequeno para um n to baixo).
Lembre-se da questo dos testes mltiplos caso voc analise mais de uma amostra por
esses testes uma correo de Bonferroni ou uma outra pode ser apropriada.
S=
1 ( xi x ) 3
,
3
n 1
n ( xi x ) 2
n
K=
1 ( xi x ) .4
4
n 1
n ( xi x )
2
Repare que estas equaes contm estimadores mais simples de G1 e G2 do que os
fornecidos acima, e que a curtose aqui ser igual a 3, no a zero, para uma distribuio
normal.
Assimptoticamente (para tamanhos amostrais grandes), a estatstica de teste tem uma
distribuio de qui-quadrado com dois graus de liberdade, e isso forma a base do valor de
p fornecido pelo Past. Sabe-se que essa abordagem funciona bem apenas para tamnhos
amostrais grandes, e o Past tambm inclui um teste de significncia baseado numa
simulao de Monte Carlo, com 10 000 valores aleatrios tomados de uma distribuio
normal.
48
Esse teste questionvel teoricamente e tem baixo poder, e no recomendado.
includo para referncia.
Referncias
Jarque, C. M. & Bera, A. K. 1987. A test for normality of observations and regression residuals.
International Statistical Review 55:163172.
Royston, P. 1995. A remark on AS 181: The W-test for normality. Applied Statistics 44:547-551.
Shapiro, S. S. & Wilk, M. B. 1965. An analysis of variance test for normality (complete samples).
Biometrika 52:591611.
Stephens, M.A. 1986. Tests based on edf statistics. Pp. 97-194 in D'Agostino, R.B. & Stephens,
M.A. (eds.), Goodness-of-Fit Techniques. New York: Marcel Dekker.
Qui^2 (Chi^2)
O Qui-quadrado (Chi-square) espera duas colunas com nmeros de elementos em
diferentes classes (compartimentos). Por exemplo, esse teste pode ser usado para
comparar duas associaes (colunas) com o nmero de indivduos de cada txon
organizado nas linhas. Voc deve ter cautela com esse teste caso alguma(s) das clulas
tenha(m) menos de cinco indivduos (ver teste exato de Fisher abaixo).
H duas opes que devem ser selecionadas ou no para obter resultados corretos.
Sample vs. expected (Amostra vs. esperado) deve ser selecionado se a sua segunda
coluna consiste de valores retirados de uma distribuio terica (valores esperados) com
49
barras de erro iguais a zero. Se seus dados so de duas amostras de contagem, cada uma
com barras de erro, deixe esta caixa desmarcada. Isso no uma correo para amostra
pequena.
One constraint (Uma restrio) deve ser marcada se os valores esperados foram
normalizados para se ajustar ao nmero total de eventos observados, ou se as duas
amostras contadas tm necessariamente os mesmos valores totais (por exemplo, por
serem porcentagens). Isso ir reduzir em um o nmero de graus de liberdade.
Quando a opo one constraint est selecionada, um teste de permutao
disponibilizado, com 10000 rplicas aleatrias. Para Sample vs. expected essas rplicas
so geradas mantendo os valores esperados fixos, enquanto os valores da primeira coluna
so aleatrios com probabilidades relativas como especificado pelos valores esperados e
com somatria constante. Para duas amostras, todas as clulas so aleatrias mas com
somatrias constantes de linhas e colunas.
Veja e.g. Brown & Rothery (1993) ou Davis (1986) para detalhes.
Com uma restrio, o teste exato de Fisher (bicaudal) tambm fornecido. Quando
disponvel, o teste exato de Fisher pode ser muito melhor do que o qui-quadrado. Para
grandes tabelas ou grandes contagens, o tempo de clculo pode ser proibitivo e se
esgotar depois de um minuto. Nesses casos o teste paramtrico provavelmente
aceitvel de qualquer modo. O procedimento complexo e baseado no algoritmo de rede
de Mehta & Patel (1986).
50
O coeficiente de variao (ou variao relativa) definido como a razo do desvio padro
e da mdia em porcentagem, e calculado por:
1
s ( xi x ) 2
CV = 100 = n 1 100 .
x x
Os intervalos de confiana de 95% so estimados por bootstrap, com 9999 rplicas.
A hiptese nula do teste estatstico :
H0: As amostras foram retiradas de populaes com o mesmo coeficiente de variao.
Se o valor de p(same) fornecido for menor do que 0.05, coeficientes de variao iguais
podem ser rejeitados. Donnelly & Kraem (1999) descrevem o coeficiente de variao e
revisam uma srie de testes estatsticos para a comparao de duas amostras. Eles
recomendam o teste de Fligner-Killeen (Fligner & Killeen 1976), como implementado no
Past. Este teste poderoso e relativamente insensvel distribuio dos dados. As
seguintes estatsticas so relatadas:
T: A estatstica de teste de Fligner-Killeen, correspondente somatria das
posies ranqueadas e transformadas da amostra menor dentro da amostra
agrupada (veja Donnelly & Kramer 1999 para detalhes).
E(T): O valor esperado de T.
z: A estatstica z, baseada em T, Var(T) e E(T). Observe que isso uma
aproximao de amostra grande.
p: O valor de p(H0). So fornecidos os valores unicaudal e bicaudal. Para a
hiptese alternatica de diferena em qualquer direa, o valor bicaudal deve ser
usado. No entanto, o teste de Fligner-Killeen j foi usado para comparar a
variao dentro de uma amostra de fsseis com a variao dentro de uma
espcie moderna com parentesco prximo, para testar se havia mltiplas
espcies fsseis (Donnekky & Kramer 1999). Neste caso, a hiptese alternativa
poderia ser a de que o CV maior na populao fssil; neste caso um teste
unicaudal pode ser usado para ter aumentar o poder do teste.
51
A imagem de tela acima reproduz o excemplo de Donnelly & Kramer (1999), mostrando
que a variao relativa dentro de Australopithecus afarensis significativamente maior
do que em Gorilla gorilla. Isso poderia indicar que A. afarensis representa mais de uma
espcie.
Referncias
Donnelly, S.M. & Kramer, A. 1999. Testing for multiple species in fossil samples: An evaluation
and comparison of tests for equal relative variation. American Journal of Physical Anthropology
108:507-529.
Fligner, M.A. & Killeen, T.J. 1976. Distribution-free two sample tests for scale. Journal of the
American Statistical Association 71:210-213.
O teste no-paramtrico, o que significa que as distribuies podem ter qualquer forma.
Para cada valor na amostra 1, conte o nmero de valores na amostra 2 que so menores
do que ele (valores repetidos contam como 0.5). O total dessas contagens a estatstica
de teste U (s vezes chamada de T). Se o valor de U for menor quando a ordem das
amostras revertida, este valor escolhido no seu lugar (pode ser mostrado que
U1+U2=n1n2).
Na coluna da esquerda dada uma aproximao assimpttica ao p com base na
distribuio normal (bicaudal), que s vlida para n grandes. Ela inclui uma correo
para continuidade e uma correo para valores repetidos:
52
U n1n2 / 2 + 0.5
z=
n1n2 n 3 n f g3 f g
g
12n(n 1)
onde n=n1n2 e fg o nmero de elementos no conjunto de elementos repetidos (tie) g.
Para n1+n2<=30 (e.g. 15 valores em cada grupo), um valor exato de p fornecido,
baseado em todas as combinaes possveis de realocaes de elementos entre os grupos.
Sempre use este valor exato se ele est disponvel. Para amostras grandes, a aproximao
asimpttica bastante precisa. Um valor por Monte Carlo baseado em 10 000 realocaes
aleatrias tambm fornecido o principal objetivo disso servir de controle ao valor
assimpttico.
Kolmogorov-Smirnov
O teste de Kolmogorov-Smirnov um teste no paramtrico que testa se duas
distribuies univariadas apresentam a mesma distribuio geral. Em outras palavras, este
teste no testa especificamente a igualdade de mdia, varincia ou qualquer outro
parmetro. A hiptese nula H0: As duas amostras foram tomadas de populaes com a
mesma distribuio.
53
D = max S N1 ( x) S N 2 ( x)
x
O algoritmo baseado em Press et al. (1992), com a significncia estimada de acordo
com Stephens (1970).
Defina a funo
QKS ( ) = 2 (1) j 1 e 2 j .
2 2
j =1
Referncias
Press, W.H., Teukolsky, S.A., Vetterling, W.T. & Flannery, B.P. 1992. Numerical Recipes in C.
2nd Edition. Cambridge University Press.
Stephens, M.A. 1970. Use of the Kolmogorov-Smirnov, Cramer-von Mises and related statistics
without extensive tables. Journal of the Royal Statistical Society, Series B 32:115-122.
54
Para n pequeno, essa aproximao imprecisa, e para n<=9 o programa portanto alterna
automaticamente para um teste exato. Esse teste compara o rs observado com os valores
obtidos com todas as permutaes possveis da primeira coluna.
O teste por Monte Carlo baseado em 9999 amostras aleatrias.
Essas estatsticas tambm esto disponveis no mdulo Correlation, mas sem a opo
de permutao.
Referncias
Olsson, U., F. Drasgow & N.J. Dorans. 1982. The polyserial correlation coefficient.
Psychometrika 47:337-347.
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
55
Duas medidas adicionais de associao so fornecidas. Ambas so transformao do qui-
quadrado (Press et al. 1992). Sendo n a somatria total das contagens, M o nmero de
linhas e N o nmero de colunas:
2
V de Cramer (Cramers V): V=
n min( M 1, N 1)
2
Coeficiente de contingncia C: C=
2 +n
Note que para tabelas nx2, o teste exato de Fisher (Fishers exact test) disponibilizado
no mdulo Chi^2.
Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
56
Tabela da ANOVA
A soma dos quadrados entre-grupos (between-groups sum of squares) dada por:
SS bg = n g (x g xT ) ,
2
g i
Omega quadrado
57
O mega quadrado uma medida da intensidade do efeito (effect size), variando de 0 a 1
(no disponvel para ANOVA de medida repetida):
SS df bg MS wg
2 = bg
SS total + MS wg
58
probabilidades p(igual) so fornecidas no tringulo superior direito. Tamanhos amostrais
no precisam ser iguais para a verso do teste de Tukey utilizada.
Valores ausentes: suporte por deleo, exceto para ANOVA de medidas repetidas, na
qual no h suporte para valores ausentes.
59
2x3=6 linhas. O programa automaticamente calcula o nmero de sujeitos pelo nmero de
combinaes de nveis e o nmero total de linhas.
Kruskal-Wallis
O teste de Kruskal-Wallis uma ANOVA no-paramtrica, que compara as mdias de
uma srie de grupos univariados (fornecidos em colunas). Pode ser considerado uma
extenso do teste de Mann-Whitney para vrios grupos (Zar 1996). No assume
distribuio normal, mas assume que todos os grupos tenham a mesma distribuio. A
hiptese nula
H0: As amostras foram tomadas de populaes com medianas iguais.
H= 3(n + 1)
n(n + 1) g n g
sendo ng o nmero de elementos no grupo g, n o nmero total de elementos, e Tg a soma
de ranks no grupo g.
A estatstica de teste Hc ajustada para valores repetidos (ties):
H
Hc =
i f i 3 f i
1
n3 n
onde fi o nmero de elementos no grupo i de elementos repetidos.
Sendo G o nmero de grupos, o valor de p aproximado a partir de Hc por meio da
distribuio de qui-quadrado com G-1 graus de liberdade. A preciso dessa aproximao
menor se algum ng<5.
60
esquerdo fornece os valores de p correspondentes, mas multiplicados por Np como uma
correo conservativa para testes mltiplos (correo de Bonferroni). Os valores usam a
aproximao assimpttica descrita para Mann-Whitney. Caso as amostras sejam muito
pequenas, pode ser til usar o teste exato disponvel em Mann-Whitney no lugar destas
comparaes.
Referncia
Zar, J. H. 1996. Biostatistical analysis. 3a ed. Prentice Hall.
61
Os testes post hoc so simplesmente comparaes par-a-par de Wilcoxon, exatos para
n<20 e assimptticos para n>=20. Estes testes tm poder maior do que o teste de
Friedman.
Referncia
Bortz, J., Lienert, G.A. & Boehnke, K. 2000. Verteilungsfreie Methoden in der Biostatistik. 2nd
ed. Springer.
62
View groups (Ver grupos) fornece as estatsticas de resumo para cada grupo (mdia,
mdia ajustada e inclinao da regresso).
Premissas incluem inclinaes de regresso (regression slopes) similares em todos os
grupos, distribuies normais, varincia similar e tamanhos amostrais similares.
63
Jukes-Cantor d
Mdia de transies (P) Nmero mdio de transies (ag, ct, ou seja, dentro de
Average transitions (P) purinas ou pirimidinas)
Transverses mdias (Q) Nmero mdio de transverses (at, ac, cg, tg, ou
Average transversions seja, purina para pirimidina ou pirimidina para purina)
(Q)
R=P/Q A relao transies/transverses
64
Tempo mdio at falha inclui os dados censurados. Risco (hazard) mdio o nmero de
falhas dividido pela soma dos tempos at falha ou censura.
O teste log-rank calculado por qui-quadrado no segundo grupo:
2
(m2 j e2 j )
(O2 E2 ) 2
2
= = j
var(O2 E2 n1 j n2 j (m1 j + m2 j )(n1 j + n2 j m1 j m2 j )
j (n1 j + n2 j )2 (n1 j + n2 j 1)
Aqui, nij o nmero de indivduos sob risco, e mij o nmero de falhas, no grupo i no
tempo de falha j. O nmero esperado de falhas no grupo 2 no tempo de falha j
n2 j (m1 j + m2 j )
e2 j .
n1 j + n2 j
O qui-quadrado tem um grau de liberdade.
Os testes de Wilcoxon e Tarone-Ware so verses ponderadas do teste log-rank, nos
quais os termos nas frmulas de soma para O2-E2 e var(O2-E2) recebem pesos de nj e nj,
respectivamente. Estes testes, portanto, do mais peso a tempos curtos de falha (early
failure times). Eles no so de uso comum se comparados ao teste log-rank.
Este mdulo no estritamente necessrio para anlise de sobrevivncia sem censura
direita o teste de Mann-Whitney pode ser suficiente para este caso mais simples.
Dados ausentes: Pontos de dados com valores ausentes em uma ou ambas as colunas so
desconsiderados.
Referncia
Kleinbaum, D.G. & Klein, M. 2005. Survival analysis: a self-learning text. Springer.
Resultado 1 Resultado 2
Tratamento 1 d1 h1
Tratamento 2 d0 h0
Sejam n1=d1+h1, n0=d0+h0 e p1=d1/n1, p0=d0/n0. A estatsticas so ento calculadas da
seguinte maneira:
65
Diferena de risco (Risk difference): RD=p1-p0
Intervalo de confiana de 95% para a diferena de risco (qui-quadrado de Pearson):
p1 (1 p1 ) p 0 (1 p 0 )
se = +
n1 n0
Intervalo: RD 1.96 se at RD + 1.96 se.
66
plotada.
Dados ausentes: Linhas com dados ausentes em uma ou ambas as colunas so deletadas.
67
Multivar menu (Multivariada)
Componentes principais (Principal components)
Anlise de componentes principais (Principal componentes analysis PCA) encontra
variveis hipotticas (componentes) que agregam o mximo possvel da varincia
presente nos seus dados multivariados (Davis 1986, Harper 1999). Estas novas variveis
so combinaes lineares das variveis originais. A PCA pode ser usada para reduzir o
conjunto de dados a apenas duas variveis (os dois primeiros componentes) para fazer
grficos. Tambm pode ser hipotetizado que os componentes mais importantes estejam
correlacionados com outras variveis. Para dados morfolgicos, pode ser o tamanho,
enquanto para dados ecolgicos pode ser um gradiente fsico (e.g. temperatura ou
profundidade). Bruton & Owen (1988) descrevem uma aplicao tpica de PCA para
dados morfomtricos.
O input (entrada) uma matriz de dados multivariados, com itens nas linhas e variveis
nas colunas. No feita centragem (centering) separada dos grupos antes da anlise
portanto, grupos no so levados em conta.
A rotina PCA encontra os autovalores (eigenvalues) e os autovetores (eigenvectors) da
matriz de varincia-covarincia ou da matriz de correlao. Use var-covar se todas as
variveis so medidas nas mesmas unidades (e.g. centmetros). Use correlao (var-covar
normalizada) se as variveis so medidas em unidades diferentes; isso implica normalizar
todas as variveis, dividindo-as por seus desvios padres. Os autovalores fornecem uma
medida da varincia que legava em conta por cada autovalor (componente)
correspondente. As porcentagens da varincia levada em conta por estes componentes
tambm fornecida. Se a maior parte da varincia for levada em conta pelos dois
primeiros componentes, a anlise foi um sucesso, mas se a varincia estiver distribuda de
forma mais ou menos uniforme entre os componentes, a PCA foi, de um certo modo,
pouco bem-sucedida.
Grupos: se grupos forem especificados por cores de linhas, a PCA pode ser
opcionalmente feita dentro-de-grupos ou entre-grupos (within-group ou between-group).
Na PCA dentro-de-grupos, a mdia de cada grupo subtrada antes da auto-anlise
(eigenanalysis), essencialmente removendo as diferenas entre os grupos. Na PCA entre-
grupos, a auto-anlise feita sobre as mdias dos grupos (ou seja, os itens analisados so
os grupos, no as linhas). Para a anlise tanto dentro-de-grupo quanto entre-grupos, os
escores (scores) da PCA so computados usando produtos vetoriais com os dados
originais.
No exemplo abaixo (pontos de referncia de crnios de gorilas), o componente 1 forte,
explicando 45.9% da varincia. Os intervalos de confiana por bootstrap no so
mostrados a no ser que o valor de Boot N seja diferente de zero.
68
O valor de ponto-de-corte de Jolliffe (Jolliffe cut-off value) pode indicar o nmero de
componentes principais significativos (Jolliffe, 1986). Componentes com autovalores
menores do que este valor podem ser considerados insignificantes, mas no deve ser
colocado muito peso neste critrio.
Bootstrap por linhas (row-wise bootsrapping) reaizado se um nmero positivo de
rplicas por bootstrap (e.g. 1000) for fornecido na caixa Boot N. Os componentes
bootstrapados so reordenados e revertidos de acordo com Peres-Neto et al. (2003) para
aumentar a correspondncia com os eixos originais. So fornecidos intervalos de
confiana de 95% por bootstrap para os autovalores.
O Scree plot (grfico simples de autovalores) tambm pode indicar o nmero de
componentes significativos. Depois que esta curva comea a se endireitar, os
componentes podem ser considerados como insignificantes. Intervalos de confiana de
95% so mostrados caso tenha sido feito bootstrap. Os autovalores esperados em um
modelo aleatrio (Broken Stick) podem ser plotados opcionalmente autovalores debaixo
desta curva podem indicar componentes no-significativos (Jackson 1993).
69
No exemplo dos gorilas acima, os autovalores dos 16 componentes (linha azul) ficam
acima dos valores do model broken stick (linha vermelha tracejada) para os primeiros
dois componentes, embora o modelo broken stick esteja dentro do intervalo de 95% do
segundo componente.
A opo View scatter (Ver disperso) mostra todos os pontos de dados (linhas)
plotados no sitema de coordenadas dado por dois dos componentes. Caso voc tenha
linhas coloridas (agrupadas), os grupos sero mostrados com smbolos e cores diferentes.
A rvore de Menor Percurso (Minimal Spanning Tree) o conjunto mais curto possvel
de linhas conectando todos os pontos. Ela pode ser usado como auxlio visual para
agrupar pontos prximos. A MST baseada em medida de distncia Euclideana dos
pontos originais, e tem mais significado quanto todos os pontos usam a mesma unidade.
A opo Biplot mostra uma projeo dos eixos originais (variveis) no grfico de
disperso. Essa outra visualizao dos pesos (loadings) ou coeficientes da PCA - veja
abaixo.
Se a opo Eigenval scale (Escala de autovalor) for selecionada, os pontos de dados
sofrero um reajuste de escala de 1 d k , e os autovetores do biplot de d k - este o
biplot de correlao de Legendre & Legendre (1998). Se esta opo no for selecionada,
os pontos de dados no sofrem reajuste de escala, enquanto os autovetores do biplot so
normalizados para terem o mesmo comprimento (no unitrio, por motivos grficos)
este o biplot de distncia.
70
A opo View loadings (Ver pesos) mostra at que grau as variveis originais
(mostradas na ordem original ao longo do eixo x) entram nos diferentes componentes
(como escolhido no menu de botes ao lado). Os pesos dos componentes so importantes
para tentar interpretar o significado dos componentes. A opo Coeficientes
(Coefficients) fornece os coeficientes dos componentes principais, enquanto a opo
Correlao (Correlation) fornece a correlao entre a varivel e os escores dos
componentes principais. Caso tenha sido feito bootstrap, intervalos de confiana de 95%
so mostrados (apenas na opo Coeficientes).
71
A opo Shape deform (Deformar forma) foi delineada para dados de posio de
pontos de referncia em 2D. O grfico padro da Deformao de Forma um grfico-
pirulito (lollipop plot), com a forma mdia mostrada como pontos e vetores (linhas)
apontando nas direes dos pesos dos eixos. A opo Grid (Grade) mostra as grades
de deformao suave de placa fina (thin-plate spline deformation grids) correspondentes
aos diferentes componentes. Este , na prtica, uma anlise de deformaes relativas
(relative warps), incluindo o componente uniforme. Para deformaes relativas sem o
componentes uniforme, veja Relative warps no menu Geometry.
72
Coordenadas principais (Principal coordinates)
A anlise de coordenadas principais (Principal coordinates analysis PCO) outro
mtodo de ordenao, tambm conhecido como Escalonamento Multidimensional
Mtrico (Metric Multidimensional Scaling). O algoritmo de acordo com Davis (1986).
73
coordinates analysis. Ecology 83:3331-3343.
O programa pode convergir em uma soluo diferente em cada rodada, dependendo das
condies iniciais aleatrias. Cada rodada na verdade uma sequncia de 11 testes, dos
quais escolhido o teste com o menor stress. Um destes testes usa o PCO como condio
inicial, mas isso raramente d a melhor soluo. A soluo automaticamente
rotacionada para os eixos principais (2D e 3D).
O algoritmo implementado no Past, que parece funcionar muito bem, baseado em uma
nova abordagem desenvolvida por Taguchi & Oono (no prelo).
A rvore de menor percurso baseada no ndice de similaridade ou distncia, escolhido
no espao original.
Variveis ambientais (Environmental variables): possvel incluir uma ou mais colunas
iniciais contendo variveis ambientais adicionais para a anlise. Estas variveis no so
includas na ordenao. Os coeficientes de correlao entre cada varivel ambiental e os
escolres do NMDS so apresentados como vetores partindo da origem. O comprimento
dos vetores ajustado a uma escala arbitrria para tornar o biplot visvel, de modo que
apenas suas direes e comprimentos relativos devem ser considerados.
74
Grfico de Shepard (Shepard plot): Este grfico de ranks obtidos versus observados
(alvo) indica a qualidade do resultado. Idealmente, todos os pontos devem ser colocados
em uma linha reta ascendente (x=y). Os valores de R2 so os coeficientes de determinao
entre as distncias ao longo de cada eixo da ordenao e as distncia originais (talvez um
valor sem muito significado, mas ele relatado por outros programas de NMDS e,
portanto, includo tambm no Past).
Dados ausentes: suporte por deleo par-a-par (no para ndices de Raup-Crick, Rho e
definido pelo usurio). Para variveis ambientais, valores ausentes no so includos no
clculo das correlaes.
75
Referncias
Hennebert, M. & A. Lees. 1991. Environmental gradients in carbonate sediments and rocks
detected by correspondence analysis: examples from the Recent of Norway and the Dinantian of
southwest England. Sedimentology 38:623-642.
76
Oxanen, J. & P.R. Minchin. 1997. Instability of ordination results under changes in input data
order:explanations and remedies. Journal of Vegetation Science 8:447-454.
77
Anlise de fator CABFAC (CABFAC factor analysis)
Este mdulo implementa o mtodo clssico de Imbrie & Kipp (1971) de anlise de
fatores e regresso ambiental (CABFAC e REGRESS, veja tambm Klovan & Imbrie
1971).
O programa pergunta se a primeira coluna contm dados ambientais. Caso no contenha,
uma anlise simples de fator com rotao Varimax ser calculada em dados normalizados
por linha.
Se dados ambientais forem includos, ser feita uma regresso dos fatores pelas variveis
ambientais usando o mtodo de segunda ordem (parablico) de Imbrie & Kipp, com
termos cruzados. O PAST ento relata a regresso RMA dos valores ambientais originais
contra valores reconstrudos da funo de transferncias. Mtodos diferentes de validao
cruzada (deixe-um-fora e k-vezes leave-one-out e k-fold) so disponveis. Voc tambm
pode salvar a funo de transferncia como um arquivo de texto que pode ser usado
posteriormente para reconstruo do paleoambiente (ver abaixo). O arquivo contm:
Nmero de txons
Nmero de fatores
Escores de fatores para cada txon
Nmero de coeficientes de regresso
Coeficientes de regresso (termos de segunda e primeira ordem, e intercepto)
Valores ausentes: suporte por substituio pela mdia da coluna.
Referncias
Imbrie, J. & N.G. Kipp. 1971. A new micropaleontological method for quantitative
paleoclimatology: Application to a late Pleistocene Caribbean core. In: The Late Cenozoic
Glacial Ages, edited by K.K.
Turekian, pp. 71-181, Yale Univ. Press, New Haven, CT.
Klovan, J.E. & J. Imbrie. 1971. An algorithm and FORTRAN-IV program for large scale Q-mode
factor analysis and calculation of factor scores. Mathematical Geology 3:61-77.
78
O algoritmo procede por decomposio em valores singulares (singular value
decomposition) da matriz R12 de correlaes entre os blocos:
R 12 = F1 DF2t .
A matriz D contm os valores singulares i ao longo da diagonal. F1 contm os pesos do
bloco 1, e F2 contm os pesos do bloco 2 (cf. PCA).
O Squared covar % (Quadrado da covar %) uma medida do quadrado da
covarincia geral entre os dois conjuntos de variveis, em porcentagem relativa ao
mximo possvel (todas as correlaes iguais a 1) (Rohlf & Corti p. 741). As % covar
dos eixos so as quantidades de varincia que so explicadas para cada eixo da PLS, em
2i
porcentagem da covarincia total. Eles so calculados como 100 .
i2
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncia
Rohlf, F.J. & M. Corti. 2000. Use of two-block partial least squares to study covariation in shape.
Systematic Biology 49:740-753.
Seriao (Seriation)
Seriao de uma matriz de ausncia-presena (0/1) usando o algoritmo descrito por
Brower & Kile (1988). O mtodo tipicamente aplicado a uma matriz de associao com
txons (espcies) em linhas e amostras em colunas. Para seriao restrita (constrained
seriation ver abaixo), as colunas devem ser ordenadas de acordo com algum critrio,
normalmente nvel estratigrfico ou posio ao longo de um gradiente faunal presumido.
79
A rotina de seriao tenta reorganiar a matriz de dados de tal modo que as presenas
estejam concentradas ao longo da diagonal. H dois algoritmos: otimizao restrita e
irrestrita (contstrained e unconstrained). Em otimizao restrita, apenas as linhas (txons)
podem ser movimentados. Dado que as colunas estejam dispostas em uma certa ordem,
este procedimento encontra a ordem tima das linhas, ou seja, a ordem de txons que
d o grfico de amplitude mais bonito. Alm disso, no modo restrito, o programa roda
uma simulao Monte Carlo, gerando e seriando 30 matrizes aleatrias com o mesmo
nmero de ocorrncias dentro de cada txon, e compara estas matriz original para ver se
a matriz original mais informativa do que uma aleatria (este procedimento gasta muito
tempo para conjuntos grandes de dados).
No modo irrestrito, tanto as linhas quanto as colunas podem ser movidas.
Dados ausentes so tratados como ausncias.
Referncia
Brower, J.C. & K.M. Kile. 1988. Seriation of an original data matrix as applied to palaeoecology.
Lethaia 21:79-93.
80
Trs algoritmos distintos so disponveis:
Mdia de pares de grupos no ponderados (Unweighted pair-group average
UPGMA). Grupos so juntados com base na distncia mdia entre todos os
membros dos dois grupos.
Ligao simples ou vizinho mais prximo (Single linkage or nearest neighbour).
Grupos so juntados com base na menor distncia entre os dois grupos.
Mtodo de Ward (Wards method). Grupos so juntados de tal modo que o
aumento da varincia dentro-de-grupo (within-group variance) minimizado.
Um mtodo no necessariamente melhor do que outro, embora a ligao simples no
seja recomendada por alguns. Pode ser til comparar os dendrogramas produzidos por
diferentes algoritmos para verificar informalmente a robustez dos agrupamentos. Caso
um agrupamento seja modificado quando se tenta um outro algoritmo, talvez este
agrupamento no seja confivel.
Para o mtodo de Ward, uma medida de distncia Euclideana inerente ao algoritmo.
Para UPGMA e ligao simples, a matriz de distncia pode ser calculada usando 20
ndices diferentes, como descrito no menu Statistics (ndices de similaridade e distncia).
Dados ausentes: O algoritmo de anlise de agrupamento pode lidar com dados ausentes,
codificados por ponto de interrogao (?). Isso feito usando deleo par-a-par,
mostrando que quando a distncia calculada entre dois pontos, qualquer varivel que
esteja ausente ignorada no clculo. Para Raup-Crick, valores ausentes so tratados
como ausncia. Dados ausentes no tm suporte no mtodo de Ward e nem na medida de
similaridade Rho.
Bootstrap: Se um nmero de rplicas para o bootstrap for fornecido (e.g. 100), as colunas
so sujeitas a reamostragem. Pressione Enter depois de atualizar o valor na caixa Boot
N. A porcentagem de rplicas onde cada n ainda tem suporte mostrada no
dendrograma.
Nota sobre o mtodo de Ward: o Past produz dendrogramas de Ward idnticos queles
feitos pelo Stata, mas um tanto diferentes dos produzidos pelo Statistica. A razo desta
discrepncia no conhecida.
81
Diferentemente da UPGMA, dois ramos com o mesmo n interno no precisam
necessariamente ter os mesmos comprimentos de ramo. Um filograma (dendrograma
desenraizado (unrooted) com comprimentos proporcionais de ramos) fornecido.
Referncias
Saitou, N. & M. Nei. 1987. The neighbor-joining method: a new method for reconstructing
phylogenetic trees. Molecular Biology and Evolution 4:406-425.
82
As atribuies aos grupos incialmente so aleatrias. Em um procedimento iterativo,
tens so ento movidos ao grupo que tem a mdia de grupo mais prxima, e as mdias
dos grupos so atualizadas de acordo. Isso continua at que elementos no mais estejam
se movendo entre grupos. O resultado do agrupamento at um certo nvel dependente
da ordem aleatria inicial, e elementos podem pertencer a diferentes grupos em diferentes
rodadas da anlise. Isso no um erro, e sim comportamento normal do agrupamento por
k-mdias.
As atribuies de elementos a grupos podem ser copiados e colados dentro da planilha
principal, e cores (smbolos) correspondentes podem ser atribudos a eles usando a opo
Numbers to colors no menu Edit.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncia
Bow, S.-T. 1984. Pattern recognition. Marcel Dekker, New York.
83
Referncias
Doornik, J.A. & H. Hansen. 1994. An omnibus test for univariate and multivariate normality.
W4&91 in Nuffield Economics Working Papers.
Mardia, K.V. 1970. Measures of multivariate skewness and kurtosis with applications. Biometrika
36:519-530.
Discriminantes (Discriminant)/Hotelling
Dados dois conjuntos de dados multivariados, construdo um eixo que maximiza a
diferena entre os conjuntos (e.g. Davis 1986). Os dois conjuntos de dados so ento
plotados ao longo deste eixo por meio de um histograma. O mdulo espera que as linhas
dos dois conjuntos de dados sejam agrupadas em dois grupos, colorindo as linhas, e.g.
com preto (pontos) e vermelho (cruzes).
A igualdade das mdias dos dois grupos testada por um anlogo multivariado do teste t,
conhecido como T-quadrado de Hotelling (hotellings T-squared), e fornecido o valor
de p para esse teste. As variveis precisam ter distribuio normal, e pelo menos duas
vezes mais observaes do que variveis.
Nmero de restries (Number of constraints): Para calcular corretamente o valor de p, o
nmero de variveis dependentes (constraints ou restries) precisa ser especificado.
Normalmente deve ser deixado em 0, mas use 4 (para 2D) ou 6 (para 3D) no caso de
dados de pontos de referncias ajustados por Procrustes.
A anlise de discriminantes pode ser usada para confirmar ou rejeitar visualmente a
hiptese de que duas espcies so morfologicamente distintas. Usando um ponto de corte
(cutoff) de zero (o ponto mdio entre as mdias dos escores de discriminantes para os
dois grupos), uma classificao nos dois grupos mostrada na opo View numbers
(Ver nmeros). A porcentagem de itens classificados corretamente tambm mostrada.
Funo discriminante (Discriminant function): Novos espcimes podem ser classificados
de acordo com a funo discriminante. Pegue o produto interno entre as medidas do novo
espcime e os fatores da funo discriminantes fornecida e subtraia o valor de offset
fornecido.
Deixar um fora (avaliao cruzada) (Leave on out cross-evaluation): Existe a opo de
deixar fora da anlise uma linha (espcime) por vez, re-calcular a anlise de
discriminantes com os espcimes restantes, e classificar de acordo com ela a linha que foi
deixada fora (como ditado pelo valor de escore (Score)).
84
Esta funo deve ser usada apenas se a anlise de discriminantes foi rodada em
coeficientes calculadas pelo mdulo de Anlise Elptica de Fourier (Elliptic Fourier
Analysis). Permite uma plotagem interativa dos contornos como uma funo da posio
ao longo do eixo discriminantes. REMOVIDO TEMPORARIAMENTE (?) POR FALTA
DE ESTABILIDADE.
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
T 2 = ny T S y1 y
n p 2
F= T
p (n 1)
O F tem p e n-p graus de liberdade.
85
Para n16, o programa tambm calcula um valor exato de p baseado na estatstica T2
avaliada para todas as permutaes possveis.
Dados ausentes: suporte por substituio pela mdia da coluna.
M de Box (Boxs M)
Teste para equivalncia das matrizes de covarincia de duas amostras multivariadas
marcadas com cores diferentes. um teste de homoscedasticidade, como assumida pela
MANOVA. Voc pode usar duas amostras multivariadas originais, cujas matrizes de
covarincia so calculadas automaticamente, ou duas matrizes de varincia-covarincia.
No ltimo caso voc tambm deve especificar os tamanhos (nmero de indivduos) das
duas amostras.
86
A estatstica M de Box fornecida juntamente com o valor de significncia basedo em
uma aproximao por qui-quadrado. Repare que esse teste supostamente muito
sensvel. Isso significa que um valor alto de p ser um bom, embora informal, indicador
de igualdade, embora um resultado altamente significativo (baixo valor de p) pode ser,
em termos prticos, um indicador um tanto sensvel demais de desigualdade.
A estatstica calculada da seguinte maneira repare que isso igual ao -2 ln M de
alguns textos (Rencher 2002):
M = (n 2) ln S (n1 1) ln S 1 (n2 1) ln S 2 ,
onde S1 e S2 so as matries de covarincia, S a matriz de covarincia agrupada, n=n1+n2
e representa o determinante.
O teste de Monte carlo baseado em 999 permutaes aleatrias.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncia
Rencher, A.C. 2002. Methods of multivariate analysis, 2nd ed. Wiley.
MANOVA/CVA
MANOVA (ANlise De VArincia Multivariada Multivariate ANalysis Of VAriance)
unifatorial a verso multivariada da ANOVA univariada, que testa se uma srie de
amostras tm a mesma mdia. Caso voc s tenha duas amostras, o teste de T2 de
Hotelling de duas amostras pode ser usado no lugar.
87
Duas estatsticas so fornecidas: lambda de Wilk com seu valor associado F de Rao, e o
trao de Pillai (Pillai trace) com seu F aproximado. O lambda de Wilk provavelmente
mais comumente usado, mas o trao de Pillai pode ser mais robusto.
Nmero de restries (Number of constraints): Para clculo correto dos valores de p, o
nmero de variveis dependentes (restries ou constraints) deve ser especificado.
Normalmente, deve ser deixado em 0, mas para dados de pontos de referncia
(landmarks) com ajuste de Procrustes use 4 (para 2D) ou 6 (para 3D).
Comparae par-a-par (post-hoc): Caso a MANOVA mostre diferena geral
significativa entre os grupos, a anlise pode proceder por comparaes par-a-par. No
PAST, a anlise post-hoc bem simples, feita por testes de Hotelling par-a-par. Na tabela
post-hoc, os grupos so nomeados de acordo com o nome da linha do primeiro item do
grupo. Os seguintes valores podem ser mostrados na tabela:
Valores de p de Hotelling, sem correo para testes mltiplos. Marcados em rosa
se significativos (p<0.05).
Os mesmos valores de p, mas a significncia verificada usando o esquema
sequncia de Bonferroni.
Valores de p corrigidos por Bonferroni (multiplicados pelo nmero de
comparao par-a-par). A correo de Bonferroni resulta em um poder de teste
muito baixo.
Distncias de Mahalanobis elevadas ao quadrado.
88
Discriminante, os quais agrupam apenas matrizes de covarincia dos dois grupos que
esto sendo comparados.
Classificador (Classifier)
Classifica os dados, atribuindo cada ponto ao grupo que resulta na menor distncia de
Mahalanobis at a mdia do grupo. A distncia de Mahalanobis calculada a partir da
matriz de covarincia intra-grupo agrupada, fornecendo um classificador discriminante
linear. Os grupos a quais os dados pertencem e aos quais foram atribudos pela anlise
(i.e. grupos dados given e estimados estimated) so listados para cada ponto. Alm
disso, cada grupo validado por um procedimento de validao cruzada deixe-um-de-
fora (jackknife).
Deformaes EFA
Esta funo s deve ser usada se a CVA foi rodada em coeficientes calculados pelo
mdulo de Anlise Elptica de Fourier. Ele permite a plotagem interativa de contornos
como funo da posio ao longo do eixo discriminante.
Softwares diferentes usam verses diferentes da CVA. O clculo usado pelo Past
fornecido abaixo.
89
Seja B os dados fornecidos, com n itens em linhas e k variveis em colunas, centradas nas
mdias gerais das colunas (subtraindo as mdias das colunas). Seja g o nmero de grupos,
ni o nmero de itens no grupo i. Calcule a matrix gxk das mdias ponderadas dos resduos
intra-grupo, para grupo i e varivel j
X ij = ni B ij ,
onde B ij a mdia da coluna dentro do grupo i. Calcule B2 a partir de B centrando dentro
de grupos. Agora calcule W e a matriz de covarincia intra-grupo normalizada e
agrupada Wcov:
B = B2 B 2
1
Wcov = W.
ng
e e U so os autovalores e autovetores de W; ec e Uc so os autovalores e autovetores de
Wcov. Ento,
ZZ = diag(1 / e)U XXU diag(1 / e) .
a e Aso os autovalores e autovetores de ZZ. Ns pegamos apenas os g-1 primeiros
autovetores (colunas de A), e o resto ser zero. As variveis cannicas agora so
C = U diag(1 / e c ) A .
Os escores da CVA so, ento, BC. A visualizao das deformaes de forma mostrada
ao longo de vetores BcovC.
90
Fazendo uma analogia grosseira com a ANOVA, o teste basedo na comparao de
distncias dentro de grupos com as distncias entre grupos, seja rb o rank mdio de todas
as distncias entre grupos, e rw o rank mdio de todas as distncias dentro de grupos. A
estatstica R ento definida por
rb rw
R= .
N ( N 1) / 4
R positivos (at 1) significam dissimilaridades entre os grupos. A significncia unicaudal
calculada por permutao de amostras em grupos, com 9 999 rplicas (pode ser
alterado).
Comparaes ANOSIM par-a-par entre todos os pares de grupos so fornecidas como um
teste post-hoc. Comparaes significativas (em p<0.05) so mostradas em rosa. A
correo opcional de Bonferroni multiplica os valores de p pelo nmero de comparaes.
Esta correo muito conservadora (produz valores elevados de p). A opo sequencial
de Bonferroni (sequential Bonferroni) no mostra os valores corrigidos de p, mas a
significncia decidida com base em Bonferroni sequncia step-down, o qual tem
ligeiramente mais poder do que Bonferroni simples.
Dados ausentes: suporte por deleo (no para distncias de Raup-Crick, Rho e definida
por usurio).
Referncia
Clarke, K.R. 1993. Non-parametric multivariate analysis of changes in community structure.
Australian Journal of Ecology 18:117-143.
91
No exemplo acima, a fauna foraminfera significativamente diferente entre as amostras
poluda e no-poluda, mas no significativa entre os substratos.
Referncia
Clarke, K.R. 1993. Non-parametric multivariate analysis of changes in community structure.
Australian Journal of Ecology 18:117-143.
92
NPMANOVA calcula valores de F de forma anloga ANOVA. De fato, para conjuntos
de dados univariados e com a medida de distncia Euclideana, NPMANOVA
equivalente ANOVA e d o mesmo valor de F.
A significncia calculada permutando as amostras entre grupos, com 9 999 rplicas
(pode ser alterado pelo usurio).
NPMANOVAs par-a-par entre todos os pares de grupos so fornecidas como um teste
post-hoc. Comparaes significativas (em p<0.05) so mostradas em rosa. A correo de
Bonferroni mostrada no tringulo superior da matriz multiplica os valores de p pelo
nmero de comparaes. Esta correo muito conservadora (produz valores elevados de
p).
Dados ausentes: suporte por deleo par-a-par.
Referncia
Anderson, M. J. 2001. A new method for non-parametric multivariate analysis of
variance. Austral Ecology 26:32-46.
Referncia
Anderson, M. J. 2001. A new method for non-parametric multivariate analysis of
variance. Austral Ecology 26:32-46.
93
Teste de Mantel (Mantel test) e teste parcial de Mantel (partial Mantel test)
O teste de Mantel (Mantel 1967, Mantel & Valand 1970) um teste por permutao para
correlao entre duas matrizes de distncia ou similaridade. No PAST, essas matrizes
tambm podem ser calculadas automaticamente a partir de dois conjuntos de dados
originais. A primeira matriz deve ser colocada acima da segunda matriz na planilha, e as
linhas devem ser marcadas com duas cores diferentes. As duas matrizes precisam ter o
mesmo nmero de linhas. Caso sejam matrizes de distncia ou similaridade, elas tambm
precisam ter o mesmo nmero de colunas.
No exemplo abaixo, a primeira matriz consiste de dados de sequncia para quatro
espcies de Macaca e a segunda matriz contm suas coordenadas geogrficas. Os dois
conjuntos de dados parecem estar correlacionados (R=0.82), mas a significncia de
p<0.05 no atingida.
94
para a correlao entre A e B controlado por similares dadas em C (Legendre &
Legendre 1998). Apenas a matriz A permutada, e o valor de R calculado por
R ( AB) R ( AC) R (BC)
R ( AB C) =
1 R ( AC) 2 1 R (BC) 2
onde R(AB) o coeficiente de correlao entre A e B.
Referncias
Legendre, P. & L. Legendre. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.
Mantel, N. 1967. The detection of disease clustering and a generalized regression
approach. Cancer Research 27:209-220.
Mantel, N. & R. S. Valand. 1970. A technique of nonparametric multivariate analysis.
Biometrics 26:547-558.
SIMPER
O SIMPER (Similarity Percentage Porcentagem de Similaridade) um mtodo simples
para verificar quais txons so os principais responsveis por uma diferena observada
entre grupos de amostras (Clarke 1993). A significncia geral da diferena
frequentemente verificada por meio de ANOSIM. A medida de similaridade de Bray-
Curtis (multiplicada por 100) a mais comumente usada no SIMPER, mas medidas
Euclideana, coseno (cosine) e chord tambm podem ser usadas.
Caso mais de dois grupos sejam selecionados, voc pode comparar dois grupos (par-a-
par) escolhendo na lista de grupos ou voc pode agrupar todas as amostras para realizar
um nico SIMPER geral para grupos mltiplos. Neste ltimo caso, todos os pares
possveis de amostras so comparados usando a medida de Bray-Curtis. A
dissimilaridade geral calculada usando todos os txons, enquanto as dissimilaridades
txon-especficas so calculadas para cada txon individualmente.
95
Amostras vo em linhas, agrupadas por cores, e txons vo em colunas. Neste exemplo,
os trs grupos (cada um com cinco amostras) so comparados. Na tabela de sada
(output), os txons so ordenados em ordem descendente de contribuio para a diferena
entre os grupos. As ltimas trs colunas mostram a abundncia mdia em cada um dos
trs grupos.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncia
Clarke, K. R. 1993. Non-parametric multivariate analysis of changes in community
structure. Australian Journal of Ecology 18:117-143.
96
Referncia
ter Braak, C.J.F. & H. van Dam. 1989. Inferring pH from diatoms: a comparison of old
and new calibration methods. Hydrobiologia 178:209-223.
97
Limiar de distncia (Distance threshold): Apenas anlogos modernos prximos a
este limiar so usados. Um valor-padro dado, equivalente ao dcimo percentil
das distncias entre todos os pares de amostras nos dados modernos. O
histograma de Distribuio de dissimilaridade (Dissimilarity distribution)
pode ser til para escolher este limiar.
N analogs: este o nmero mximo de anlogos modernos usados em cada
amostra profunda.
Mtodo de salto (Jump method) (on/off): Para cada amostra profunda, amostras
modernas so ordenadas em distncias ascendentes. Quando a distncia aumenta
mais do que a porcentagem selecionada, os anlogos modernos subsequentes so
descartados.
Repare que uma ou mais destas opes podem ser desligadas ao colocar nelas um nmero
grande. Por exemplo, um limiar de distncia muito grande nunca ser aplicado, ento o
nmero de anlogos ser escolhido apenas pelo valor N analogs e opcionalmente pelo
mtodo de salto.
Semivariograma (Semivariogram)
Mostra um semivariograma da varincias na varivel ambiental, como funo da
diferena faunal. Mais de um modelo de semivariograma pode ser ajustado. Este tipo de
grfico familiar da geoestatstica espacial, mas tambm til para MAT porque d uma
boa impresso do grau de rudo nos dados de fauna no que diz respeito predio do
ambiental.
98
Model menu (Modelagem)
Linear
Se duas colunas so selecionadas, elas representam valores de x e y respectivamente. Se
uma coluna selecionada, ela representa os valores de y, e tomam-se valores de x de uma
sequncia de nmeros positivos (1, 2, ). Uma linha reta x=ax+b encaixada nos dados.
H quatro algoritmos diferentes disponveis: quadrados mnimos (Ordinary Least
Squares OLS), eixo maior reduzido (Reduced Major Axis RMA), eixo maior (Major
Axis MA) e robusto (Robust). A regresso OLS assume que os valores de x so fixos e
acha a linha que minimiza o quadrado dos erros nos valores de y. Use esta opo se seus
valores de x tm muito pouco erro associado a eles. RMA e MA tentam minimizar os
erros tanto em x quanto em y. O encaixe de RMA/MA e a estimativa do erro padro
segue Warton et al. (2006), no Davis (1986)!
99
So fornecidos os valores de a e b, seus erros, um valor de correlao por qui-quadrado
(no para RMA/MA), coeficiente de correlao de Pearson r, e a probabilidade de que as
duas colunas no so correlacionadas. Note que o r2 simplesmente o quadrado do
coeficiente de Pearson ele no ajustado para o mtodo de regresso.
O clculo dos erros padro para inclinao e intercepto assume distribuio normal dos
resduos e independncia entre as variveis, e a varincia residual. Se estas premissas
forem fortemente violadas, prefervel usar o intervalo de confiana de 95% bootstrap
(2000 rplicas). O nmero de pontos aleatrios selecionados para cada rplica deve
normalmente ser mantido em N, mas pode ser reduzido para aplicaes especiais.
O teste por permutao para a correlao (r2) utiliza 10 000 rplicas.
Faixa de confiana (Confidence band)
Em regresso OLS (mas no RMA/MA/Robusta), disponibilizada uma faixa de
confiana Working-Hotelling de 95% para a linha encaixada (no para os pontos de
dados!). O intervalo de confiana calculado como
21 (x x)2
CI = b + ax t 0.05 / 2,n1 SE ( +
n ( xi x ) 2
reg
Resduos (Residuals)
A janela Resduos (Residuals) relata as distncias de cada ponto at a linha da regresso,
nas direes x e y. Apenas a ltima de interesse quando usamos regresso linear
ordinria ao invs de RMA ou MA. Os resduos podem ser copiados de volta planilha e
inspecionados para distribuio normal e independncia entre a varivel independente e a
varincia residual (homoscedasticidade).
Teste de Durbin-Watson
O teste de Durbin-Watson para autocorrelao positiva dos resduos em y (violando uma
premissa da regresso OLS) fornecido na janela Resduos. A estatstica do teste varia de
zero (autocorrelao positiva total) passando por 2 (sem autocorrelao) at 4
(autocorrelao negativa). Para n 400, um valor exato de p para ausncia de
autocorrelao positiva calculado pelo algoritmo PAN (Farebrother 1980, com
correes mais recentes). O teste no preciso quando usamos a opo Intercepto zero.
Teste de Breush-Pagan
O teste de Breush-Pagan para heteroscedasticidade, ou seja, varincia no-estacionria de
resduos (violando uma premissa da regresso OLS), dado na janela Resduos. A
estatstica do teste LM=nr2, onde r o coeficiente de correlao entre os valores de x e
100
os quadrados dos resduos. A sua distribuio assimpttica de 2 com um grau de
liberdade. A hiptese nula do teste homoscedasticidade.
Equaes RMA
Inclinao a = sign(r )
( y y) 2
.
(x x) 2
1 r 2
Erro padro de a = abs (a ) .
n2
Intercepto b = y ax .
s r2
Erro padro de b = + x 2 s a2 , onde sr a estimativa do desvio padro dos resduos e sa
n
o erro padro da inclinao.
Para intercepto zero (b=0), coloque x =0 e y =0 para o clculo da inclinao e do seu
erro padro (incluindo o clculo do r no clculo do r no erro padro), e use n 1 ao invs
de n 2 graus de liberdade no clculo do erro padro
Referncias
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Farebrother, R.W. 1980. Pan's procedure for the tail probabilities of the Durbin-Watson statistic.
Applied Statistics 29:224227.
Rousseeuw, P.J. & van Driessen, K. 1999. Computing LTS regression for large data sets. Institute
of Mathematical Statistics Bulletin.
Warton, D.I., Wright, I.J., Falster, D.S. & Westoby, M. 2006. Bivariate line-fitting methods for
allometry. Biological Review 81:259-291.
101
Adicionalmente, um teste MANOVA global da regresso multivariada fornecido. A
estatstica de teste, lambda de Wilks, calculada como a razo dos determinantes
E
= ,
E+H
onde E a soma dos quadrados e produtos de erros (resduos) (error (residual) sum of
squares and crossproducts) e H a soma dos quadrados e produtos da hiptese
(predies) (hypothesis (predictions) sum of squares and crossproducts). A estatstica F
de Rao calculada a partir do lambda de Wilks e sujeita a um teste F unicaudal (veja
Linear, n independentes, n dependentes abaixo).
Dados ausentes so suportados por substituio pela mdia da coluna (column average
substitution).
102
O programa apresentar os coeficientes de regresso mltipla R e R2, juntamento com o
R2 ajustado e um teste global de significncia do tipo ANOVA. (overall ANOVA-type
significance test).
Sendo SSR a soma dos quadrados da regresso, SSE a soma dos quadrados de erro
(residual), n o nmero de pontos e k o nmero de variveis independentes, temos que
R2=SSR/SST,
2 (1 R 2 )(n 1)
Radj = 1 ,
n k 1
SSR / k
F= .
SSE /(n k 1)
Os coeficientes (intercepto, e inclinao para cada varivel independente) so
apresentados juntamente com seus erros padres estimados e testes t.
Dados ausentes suportados por substituio pela mdia da coluna (column average
substitution).
103
E
= ,
E+H
onde E a soma dos quadrados e produtos de erros (resduos) (error (residual) sum of
squares and crossproducts) e H a soma dos quadrados e produtos da hiptese
(predies) (hypothesis (predictions) sum of squares and crossproducts).
A estatstica F de Rao calculada a partir do lambda de Wilks. Sendo n o nmero de
linhas, p o nmero de variveis dependentes e q o nmero de variveis independentes,
ns temos:
1
m = n q ( p q 1)
2
p q2 42
2 2
se p 2 + q 2 5 > 0
p +q 5
=
1 caso contr?io
1 1 / m + 1 pq / 2
F=
1 / pq
O teste F tem pq e m + 1 pq/2 graus de liberdade.
104
O polinmio dado por
y = a5 x 5 + a 4 x 4 + a3 x 3 + a 2 x 2 + a1 x1 + ao .
O valor de qui-quadrado uma medida do erro de ajuste valores maiores significam
ajuste pior. O Critrio de Informao de Akaike (Akaike Information Criterium - AIC)
tem uma penalidade para o nmero de termos. O AIC deve ser to baixo quanto possvel
para maximizar o ajuste, mas evitar um ajuste exagerado (overfitting).
R2 o coeficiente de determinao, ou a proporo de varincia que explicada pelo
modelo. Finalmente, um valor de p, baseado em um teste F, d a significncia do ajuste.
Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
105
O valor de qui-quadrado uma medida do erro de ajuste valores maiores significam
ajuste pior. O Critrio de Informao de Akaike (Akaike Information Criterium AIC)
tem uma penalidade para o nmero de sinusides (a equao usada assume que os
perodos so estimados dos dados). O AIC deve ser o mais baixo possvel para maximizar
o ajuste, mas evitar um ajuste exagerado (overfitting).
R2 o coeficiente de determinao, ou a proporo da varincia que explicada pelo
modelo. Finalmente, um valor de p, baseado em um teste F, d a significncia do ajuste.
Uma funo de busca (search) para cada sinuside ir otimizar a frequncia daquele
sinuside (por toda a extenso significativa (meaningful) de um perodo at a frequncia
de Nyquist), mantendo as frequncias de todos os outros sinusides constantes. O
algoritmo lento, mas muito robusto e quase garantido que ele encontre o timo global.
Para uma anlise espectral cega, encontrando todos os parmetros e um nmero timo
de sinusides, siga este procedimento: Comece com apenas o primeiro sinuside
selecionado. Aperte procurar (search) para otimizar perodo, amplitude e fase. Isso
vai encontrar o sinuside mais forte nos dados. Anote o AIC. Adicione (selecione) o
segundo sinuside, e clique o boto de procura para otimizar todos os parmetros de
ambos os sinusides, exceto o perodo do primeiro sinuside. Isso vai encontrar o
segundo sinuside mais forte. Continue at o AIC parar de diminuir.
No faz sentido (it is not meaningful) especificar periodicidades que so menores do que
o dobro do espaamento tpico dos pontos de dados.
Cada sinuside dado por y = a*cos(2*pi*(x-x0) / T p), onde a a amplitude, T o
perodo e p a fase. x0 o primeiro (menor) valor de x.
Tambm h opes para forar uma srie seno ou coseno pura, ou seja, com fases fixas.
Referncias
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge
University Press.
106
Logistic / Bertalanffy / Michaelis-Menten / Gompertz
Visa ajustar a duas colunas de dados x-y um de trs modelos de saturao
(saturation models).
A equao logstica y=a/(1+be-cx). O valor de a primeiro estimado pelo valor mximo
de y. Os valores de b e c so ento estimados um ajuste de linha reta a um modelo
linearizado.
O modelo pode ser melhorado ao usar os valores estimados como um palpite inicial para
a otimizao de Levenberg-Marquardt (Press et al. 1992). Devido instabilidade
numrica, isso pode falhar com uma mensagem de erro, especialmente durante o
bootstrap e para a curva de Gompertz.
107
usada para extrapolar estas curvas para estimar a biodiversidade (Colwell & Coddington
1994).
O Critrio de Informao de Akaike (Akaike Information Criterium AIC) pode auxiliar
na seleo do modelo. Valores mais baixos ao AIC implicam um ajuste melhor ajustado
ao nmero de parmetros.
Referncias
Brown, D. & P. Rothery. 1993. Models in biology: mathematics, statistics and computing. John
Wiley & Sons.
Colwell, R.K. & J.A. Coddington. 1994. Estimating terrestrial biodiversity through extrapolation.
Philosophical Transactions of the Royal Society of London B 345:101-118.
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
Raaijmakers, J.G.W. 1987. Statistical analysis of the Michaelis-Menten equation. Biometrics
43:793- 803.
Sepkoski, J.J. 1984. A kinetic model of Phanerozoic taxonomic diversity. Paleobiology 10:246-
267.
108
Distribuio normal & ligao recproca (Normal distribution and the reciprocal link):
ajusta a funo y=1/(ax+b)
Distribuio normal ou gamma e ligao log (Normal or gamma distribution and the log
link): ajusta a funo y=exp(ax+b)
Distribuio binomial (Bernoulli) e ligao logit (Binomial (Bernoulli) distribution and
the logit link: Regresso logstica para uma varivel-resposta binria (ver figura acima).
Detalhes tcnicos
O programa utiliza o algoritmo Mnimos Quadrados Repesados Iterativamente
(Iteratively Reweighted Least Squares IRLS) para a estimativa de mxima
verossimilhana.
O parmetro de disperso , o qual usado apenas para a inferncia, no para estimativa
dos parmetros, fixado em =1 a no ser que a opo Estimar fi (Estiamte phi) seja
selecionada; neste caso ele estimado pelo qui-quadrado de Pearson. Tipicamente
assume-se que igual a 1 para as distribuio de Poisson e binomial.
A log-verossimilhana (log-likelihood) LL calculada a partir do desvio D por
D
LL = .
2
O desvio calculado como se segue:
Normal: D = ( yi i ) 2
i
y y i
Gamma: D = 2 ln i + i
i i i
y 1 yi
Bernoulli: D = 2 yi ln i + (1 yi ) ln (o primeiro termo definido como zero
i i 1 i
se yi=0)
y
Poisson: D = 2 yi ln i ( yi i )
i i
A estatstica G a diferena do D de um modelo completo e um modelo GLM adicional
onde apenas o intercepto ajustado. A distribuio de G aproximadamente igual do
qui-quadrado com um grau de liberdade, gerando um valor de significncia para a
inclinao.
109
Uma terceira coluna opcional especifica os desvios padres dos pontos de dados. Estes
so usados para ponderar os dados. Se no forem especificados, so todos fixados em
10% do desvio padro dos valores de Y.
O valor de suavizao (smoothing value) estabelecido pelo usurio uma verso
normalizada do fator de suavizao (smoothing factor) de de Boor (1 por padro).
Valores maiores resultam em curvas mais suaves. Um valor de 0 ir comear um
segmento da curva em cada ponto. Clicando em Otimizar suavizao (Optimize
smoothing) ir calcular uma suavizao tima por um procedimento de validao
cruzada (crossvalidation procedure).
Ver pontos fornecidos (View given points) fornece uma tabela dos pontos de X, Y e
desvio padro de Y (stdev(Y)), os valores de Y correspondentes na curva (ys) e os
resduos. O teste de qui-quadrado em cada ponto pode ser usado para identificar valores
extremos (outliers). A coluna final sugere um valor de stdev(Y) para ser usado se o valor
de p est sendo forado para 0.5.
Uma quarta coluna, opcional (se usada ento a terceira coluna tambm deve ser
preenchida com valores de desvio padro) pode conter um nmero de valores diferentes
das colunas anteriores. Ela contm valores de X para serem usados para interpolao
entre os pontos de dados. Colunas 5-7, opcionais, contm limites inferior e superior para
os valores de X (distribuio retangular) e devios padres dos valores de Y (distribuio
normal), a serem usados em simulao por bootstrap (Monte Carlo) para fornecer barras
de erro para os valores interpolados. Estas funes so includas principalmente para
calcular idades de limite (boundary ages) para a escala de tempo geolgica.
Referncia
de Boor, Carl. 2001. A practical guide to splines. Springer.
110
Alisamento LOESS (LOESS smoothing)
Duas colunas devem ser selecionadas (valores de x e y). O algoritmo usado LOWESS
(LOcally WEighted Scatterplot Smoothing Suavizao de grfico de Disperso
Ponderada Localmente; Cleveland 1979, 1981), com os seus valores padres de
parmetros recomendados (incluindo duas iteraes de robustez). Dado um nmero de
pontos n e um parmetro de suavizao (smoothing) q especificado pelo usurio, o
programa ajusta os nq pontos ao redor de cada ponto para uma linha reta, com uma
funo de ponderamento que decresce com a distncia. O novo ponto suavizado o valor
da funo linear ajustada na posio original x.
A opo Bootstrap ir estimar uma faixa de confiana de 95% para curva, com base em
999 rplicas aleatrias. Para manter a estrutura original da interpolao, o procedimento
utiliza a reamostragem de resduos, ao invs de reamostrar os pontos originais.
111
pode ser usado para estudar diferenas entre sexos (dois grupos), ou uma srie de
espcies, ou classes de tamanho, quando nenhuma informao independente sobre
pertencimento a grupos (group membership) est disponvel.
O programa espera uma coluna de dados univariados, e assume-se que tenham sido
tomados de uma mistura de populaes com distribuio normal (ou exponencial ou
Poisson). No exemplo abaixo, os tamanhos de gorilas machos e fmeas foram agrupados
em uma nica amostra. As mdias, desvios padres e propores das duas amostras
originais foram recuperados quase perfeitamente (veja Univariado (Univariate)
acima).
O PAST usa o algoritmo EM (Dempster et al. 1977), o qual pode ficar preso em um
timo local. O procedimento ento feito automaticamente 20 vezes, cada vez posies
iniciais aleatrias novas para as mdias. Os valores iniciais para o desvio padro so
estabelecidos em s/G, onde s o desvio padro agrupado e G o nmero de grupos. Os
valores iniciais das propores so estabelecidos em 1/G. Ainda recomendado que o
usurio rode o programa algumas vezes para verificar a estabilidade da soluo (solues
melhores tm valores menos negativos da log-verossimilhana (log likelihood values)).
O Critrio de Informao de Akaike (Akaike Information Criterium AIC; Akaike 1974)
calculado com uma correo para amostra pequena:
2k (k + 1)
AICc = 2k 2 ln L +
n k 1
onde k o nmero de parmetros, n o nmero de pontos de dados e L a
verossimilhana (likelihood) do modelo com os dados fornecidos. Um valor mnimo do
AIC indica que voc escolheu o nmero de grupos que produz o melhor ajuste sem
ajustar demais (without overfitting).
possvel atribuir cada um dos pontos de dados a um dos grupos a partir de uma
abordagem de mxima verossimilhana. Isto pode ser usado como um mtodo de
agrupamento no-hierrquico para dados univariados. O boto Atribuies
(Assignments) ir abrir uma janela onde o valor de cada funo de probabilidade de
densidade (probability density function) dado para cada ponto de dados. Os pontos de
dados podem ser atribudos ao grupo que mostra o maior valor.
112
Dados ausentes: suporte por deleo.
Referncias
Akaike, H. 1974. A new look at the statistical model identification. IEEE Transactions on
Automatic Control 19: 716-723.
Dempster, A.P., Laird, N.M. & Rubin, D.B. 1977. Maximum likelihood from incomplete data via
the EM algorithm". Journal of the Royal Statistical Society, Series B 39:1-38.
Geomtrico, onde a segunda espcie mais abundante deve ter uma contagem de
txon k<1 vezes a da mais abundante, a 3 mais abundante uma conta de txon
igual a ka vezes a 2 mais abundante etc, para um k constante. Sendo nia contagem
do i-simo txon mais abundante, temos ni = n1ki-1. Isto resultar em uma linha
reta descendente no grfico de Whittaker. O ajuste feito por regresso linear
simples nos logaritmos das abundncias.
113
indivduos:
n Stot i 1
ni = tot .
S tot j =0 S tot j
Log-normal. O algoritmo de ajuste de Krebs (1989). O logaritmo (base 10) da
mdia e varincia ajustadas so dados. As oitavas (octaves) referem-se a classes
de abundncia da potncia de 2:
Oitava Abundncia
1 1
2 2-3
3 4-7
4 8-15
5 16-31
6 32-63
7 64-127
... ...
Referncias
Krebs, C.J. 1989. Ecological Methodology. Harper & Row, New York.
114
MacArthur, R.H. 1957. On the relative abundance of bird species. Proceedings of the National
Academy of Sciences, USA 43:293-295.
115
Referncia
ter Braak, C.J.F & H. van Dam. 1989. Inferring pH from diatoms: a comparison of old and new
calibration methods. Hydrobiologia 178:209-223.
116
A espiral ajustada em coordenadas polares: r=aeb. A escala a e o expoente b so
fornecidos, juntamente com o ponto central estimado, marcado com uma cruz vermelha.
A taxa de expanso da espiral W (fator de incremento no raio por giro) calculada a
partir do b como W = e2b.
A posio central estimada por otimizao no-linear e a prpria espiral por
linearizao e regresso.
117
Dominncia = 1 ndice de Simpson. Varia de 0 (todos os txons presentes em
iguais quantidades) a 1 (um txon domina completamente a comunidade).
2
n
D = i onde ni o nmero de indivduos do txon i.
i n
ndices de Simpson 1 D. Mede a equitabilidade (evenness) da comunidade,
de 0 a 1. Preste ateno na confuso existente na literatura a dominncia e o
ndice de Simpson so frequentemente trocados!
ndice de Shannon (entropia). Um ndice de diversidade que leva em conta no s
o nmero de txons, mas tambm o nmero de indivduos. Varia de 0 para
comunidades com um nico txon at valores elevados para comunidades com
muitos txons, cada um com alguns indivduos.
ni ni
H = ln
i n n
ndice de equitabilidade de Buzas e Gibson: eH/S
ndice de Brillouin:
ln(n!) ln(ni !)
i
HB =
n
S
ndice de riqueza de Menhinick:
n
ndice de riqueza de Margalef: (S-1) / ln (n)
Equitabilidade. ndice de diversidade de Shannon dividido pelo logaritmo do
nmero de txons. Esta medida representa e equitabilidade com a qual os
indivduos se distribuem entre os txons presentes.
Alfa de Fisher (Fishers alpha) um ndice de diversidade, definido
implicitamente pela frmula S = a*ln(1+n/a), onde S o nmero de txons, n o
nmero de indivduos, e a o alfa de Fisher
Dominncia de Berger-Parker: simplesmente o nmero de indivduos do txon
dominante em relao ao n.
Muitos desses ndices so explicados em Harper (1999).
Intervalos de confiana aproximados para todos estes ndices podem ser calculados
por um procedimento de bootstrap. So produzidas 1000 amostras aleatrias (200
antes da verso 0.87b), cada uma com o mesmo nmero total de indivduos que na
amostra original. As amostras aleatrias so retiradas do conjunto de dados total
(agrupando todas as colunas). Para cada indivduo da amostra aleatria, o txon
escolhido de acordo com as abundncias agrupadas (pooled abundances) originais.
Um intervalo de confiana de 95% ento calculado. Repare que a diversidade das
rplicas frequentemente ser menor, e nunca maior, que a diversidade da amostra
total agrupada (pooled diversity).
Como estes intervalos de confiana so calculados em relao ao conjunto de dados
agrupado (pooled data set), eles no representam intervalos de confiana das
amostras individuais. So teis principalmente para identificar amostras nas quais um
dado ndice de diversidade est fora do intervalo de confiana. Comparao por
118
bootstrap dos ndices de diversidade de duas amostras fornecida no mdulo
Compare diversities (Comparar diversidades).
Referncia
Harper, D.A.T. (ed.). 1999. Numerical Palaeobiology. John Wiley & Sons.
Chao2
O estimador Chao2 (Chao 1987) calculado como no EstimateS, verso 8.2.0 (Colwell
2009), com correo de vis:
119
onde Sobs o nmero total observado de espcies, m o nmero de amostras, Q1 o
nmero de ocorrncias nicas (espcies que ocorrem em precisamente uma amostra) e Q2
o nmero de duplicatas (espcies que ocorrem em precisamente duas amostras).
Se Q1>0 e Q2>0, a varincia estimada por
Se Q1=0:
Jackknife 1
Jackknife de primeira ordem (Burnham & Overton 1978, 1979; Heltsche & Forrester
1983):
Jackknife 2
Jackknife de segunda ordem (Smith & van Belle 1984):
120
Nenhuma estimativa analtica da varincia disponvel.
Bootstrap
Estimador por bootstrap (Smith & van Belle 1984):
Referncias
Burnham, K.P. & W.S. Overton. 1978. Estimation of the size of a closed population when capture
probabilities vary among animals. Biometrika 65:623-633.
Burnham, K.P. & W.S. Overton. 1979. Robust estimation of population size when capture
probabilities vary among animals. Ecology 60:927-936.
Chao, A. 1987. Estimating the population size for capture-recapture data with unequal
catchability. Biometrics 43, 783-791.
Colwell, R.K. & J.A. Coddington. 1994. Estimating terrestrial biodiversity through extrapolation.
Philosophical Transactions of the Royal Society (Series B) 345:101-118.
Heltshe, J. & N.E. Forrester. 1983. Estimating species richness using the jackknife procedure.
Biometrics 39:1-11.
Smith, E.P. & G. van Belle. 1984. Nonparametric estimation of species richness. Biometrics
40:119-129.
121
Wilson- bt g (H ) + l(H ) Wilson &
Shmida 2 Shmida
(1984)
Mourelle bme g (H ) + l(H ) Mourelle
2 ( N 1) &
Ezcurra
(1997)
Harrison 2 b-2 S Harrison
1 et al.
max
(1992)
N 1
Williams b-3 max Williams
1 (1996)
S
S: nmero total de espcies; : nmero mdio de espcies; N: nmero de amostras;
g(H): ganho total de espcies ao longo do gradiente (amostras ordenadas ao longo das
colunas); l(H): perda total de espcies; ei: nmero de amostras que contm a espcie i; T:
nmero total de ocorrncias.
Referncias
Harrison, S., S.J. Ross & J.H. Lawton. 1992. Beta diversity on geographic gradients in Britain.
Journal
of Animal Ecology 61:151-158.
Koleff, P., K.J. Gaston & J.J. Lennon. 2003. Measuring beta diversity for presence-absence data.
Journal of Animal Ecology 72:367-382.
Routledge, R.D. 1977. On Whittakers components of diversity. Ecology 58:1120-1127.
Whittaker, R.H. 1960. Vegetation of the Siskiyou mountains, Oregon and California. Ecological
Monographs 30:279-338.
122
A distino taxonmica em uma amostra dada por (repare que existem outras formas
equivalentes):
onde wij so pesos de modo que wij=0 se i e j so da mesma espcie, wij=1 se eles so do
mesmo gnero, etc. Os x so abundncias.
Distino taxonmica:
Referncia
Clarke, K.R. & Warwick, R.M. 1998. A taxonomic distinctness index and its statistical
properties.
Journal of Applied Ecology 35:523-531.
Rarefao individual
Para comparar a diversidade taxonmica entre amostras de diferentes tamanhos. Requer
uma ou mais colunas de contagem de indivduos de diferentes txons (cada coluna
precisa ter o mesmo nmero de valores). Ao comparar amostras: amostras devem ser
taxonomicamente similares, obtidas com amostragem padronizada e amostradas em
hbitats similares.
Dada uma ou mais colunas de dados de abundncia para um nmero de txons, este
mdulo estima quantos txons voc esperaria encontrar em uma amostra com um nmero
total menor de indivduos. Usando anlise de rarefao na sua amostra maior, voc pode
verificar o nmero de txons esperados em qualquer amostra de tamanho menor
(incluindo o tamanho da sua menor amostra). O algoritmo foi retirado de Krebs (1989),
usando uma funo log Gamma para o clculo dos termos combinatrios. Um exemplo
de aplicao para paleontologia pode ser encontrado em Adrain et al. (2000).
Seja N o nmero total de indivduos em uma amostra, s o nmero total de espcies, e Ni o
nmero de indivduos da espcie i. O nmero esperado de espcies E(Sn) em uma amostra
de tamanho n e a sua varincia V(Sn) so dadas por
123
Erros padres (razes quadradas das varincias) so fornecidos pelo programa. No
grfico, estes erros padres so convertidos em intervalos de confiana de 95%.
Referncias
Adrain, J.M., S.R. Westrop & D.E. Chatterton. 2000. Silurian trilobite alpha diversity and the
end-Ordovician mass extinction. Paleobiology 26:625-646.
Krebs, C.J. 1989. Ecological Methodology. Harper & Row, New York.
124
Ver Colwell et al. (2004) para detalhes.
Com H amostras e Sobs o nmero total de espcies observadas, sejam sj o nmero de
espcies encontradas em j amostras, de modo que s1 o nmero de espcies encontrado
em exatamente uma amostra, etc. O nmero total de espcies esperadas em h H
amostras ento
H
~ (h) = S obs jh s j .
j =1
Os coeficientes combinatoriais so
( H h)!( H j )!
para j + h H
jh = ( H h j )! H !
0 para j + h > H
Estes coeficientes so calculados por meio de uma funo log Gamma. O estimador da
varincia
H
~ 2 (h)
~ 2 = (1 jh ) 2 s j ~
j =1 S
~
onde S um estimador para a riqueza total (desconhecida) de espcies. Seguindo
Colwell et al. (2004), um estimador do tipo Chao2 usado. Para s2 > 0,
125
~ ( H 1) s12
S = S obs + .
2 Hs 2
Para s2 = 0,
~ ( H 1) s1 ( s1 1)
S = S obs + .
2 H ( s 2 + 1)
Para modelar e extrapolar a curva usando uma equao de Michaelis-Mentem, use o
boto Copiar Dados (Copy Data), cole numa nova planilha do Past, e use o mdulo para
encaixe de funes (fitting module) no menu Model (Modelar).
Referncia
Colwell, R.K., C.X. Mao & J. Chang. 2004. Interpolating, extrapolating, and comparing
incidence-based species accumulation curves. Ecology 85:2717-2727.
Referncias
Buzas, M.A. & L.-A. C. Hayek. 1998. SHE analysis for biofacies identification. The Journal of
Foraminiferal Research 28:233-239.
126
Hayek, L.-A. C. & M.A. Buzas. 1997. Surveying natural populations. Columbia University Press.
Bootstrap
As duas amostras A e B so agrupadas. 1000 pares aleatrios de amostras (A, B) so
ento retirados deste grupo, com o nesmo nmero de indivduos que nas duas amostras
originais. Para cada par replicado, so calculados os ndices de diverisdade div(Ai) e
div(Bi). O nmero de vezes que |div(Ai) div(Bi)| maior ou igual que |div(A) div(B)|
indica a probabilidade que a diferena observada possa ter ocorrido por amostragem
aleatria de uma populao parental (parent population) como estimada pela amostra
agrupada.
Ento, um pequeno valor de probabilidade p(same) (p(igual) ou p(mesmo)) indica uma
diferena significativa no ndice de diversidade entre as duas colunas.
Permutao
So geradas 1000 matrizes aleatrias com duas colunas (amostras), cada uma com o
mesmo nmero de linhas e total de colunas que na matriz de dados original. O valor de p
(p value) calculado como no teste por bootstrap.
127
O ndice de Shannon aqui inclui uma correo de vis e pode diferir levemente das
estimativas no corrigidas calculadas em outros mdulos do PAST, ao menos para
amostras pequenas. Com pi a proporo (0-1) do txon i, S o nmero de txons e N o
nmero de indivduos, o estimador do ndice
S
S 1
H ' = pi ln pi (note que o segundo termo est incorreto em Magurran 1988).
i =1 2N
O estimador da varincia
Referncias
Hutcheson, K. 1970. A test for comparing diversities based on the Shannon formula. Journal of
Theoretical Biology 29:151-154.
Magurran, A. 1988. Ecological Diversity and Its Measurement. Princeton University Press.
Poole, R.W. 1974. An introduction to quantitative ecology. McGraw-Hill, New York.
128
proporcional ao ndice de Shannon, enquanto =2 d um ndice que se comporta como o
ndice de Simpson.
1 S
exp( H ) = exp ln pi
1 i =1
O programa pode plotar uma srie de perfis ao mesmo tempo. Se os perfis se cruzam, as
diversidades no so comparveis. A opo de bootstrap (fornecendo um intervalo de
confiana de 95%) baseada em 2000 rplicas.
Referncia
Tothmeresz, B. 1995. Comparison of different methods for diversity ordering. Journal of
Vegetation Science 6:283-290.
129
Time series menu (Sries temporais)
Anlise espectral (Spectral analysis)
Como dados paleontolgicos so frequentemente amostrados de forma desigual
(unevenly sampled), mtodos baseados em Fourier podem ser difceis de usar. Por isso o
PAST utiliza o algoritmo do periodograma de Lomb para dados amostrados de forma
desigual (Press et al. 1992), com valores do tempo dados na primeira coluna e os valores
dependentes na segunda coluna. Se apenas uma coluna selecionada, assume-se um
espaamento igual de uma unidade entre os pontos de dados. O periodograma de Lomb
deve ento dar resultados similares ao FFT. Os dados so automaticamente
destendenciados antes da anlise
O eixo da frequncia em unidades de 1/(unidade do x). Se, por exemplo, seus valores de
x esto em milhes de anos, uma frequncia de 0.1 corresponde a um perodo de 10
milhes de anos. O eixo de potncia (power axis) em unidades proporcionais ao
quadrado das amplitudes das sinusides presentes nos dados. Note tambm que o eixo da
frequncia se estende a valores muito altos. Se seus dados foram amostrados
regularmente (evenly sampled), a parte superior do espectro uma imagem-espelho da
metade superior e de pouca serventia. Se algumas regies so amostradas de forma
menos espaada (closely sampled), o algoritmo pode ser capaz de encontrar informao
til at mesmo acima do ponto mdio (frequncia de Nyquist).
O pico mais alto do espectro apresentado com a sua frequncia e seu valor de potncia
(power value), juntamente com a probabilidade de que o pico poderia ocorrer de dados
130
aleatrios. Os nveis de significncia de 0.01 e 0.05 (linhas de barulho branco white
noise lines) so mostradas como linhadas tracejadas vermelhas.
O exemplo acima mostra uma anlise espectral de um istopo de oxignico formico
(foram oxygen isotope) de 1 Ma at Recente, com um espaamento regular de 0.003 Ma
(3 ka). H periodicidades em frequncia de por volta de 9 (pico dividido split peak), 25
e 43 Ma-1, correspondentes a perodos de 111 ka, 40 ka e 23 ka com claro foramento
orbital (clearly orbital forcing).
Referncia
Press, W.H., S.A. Teukolsky, W.T. Vetterling & B.P. Flannery. 1992. Numerical Recipes in C.
Cambridge University Press.
131
O valor da superamostragem de frequncia (frequency oversampling value) contra o
nmero de pontos ao longo do eixo da frequncia (mas ter mais pontos no aumenta a
resoluo da frequncia!). Aumentando o nmero de segmentos, vai reduzir o barulho,
mas tambm reduzir a resoluo. A funo de janela (window function) influencia o
trade-off entre resoluo espectral e atenuao dos lobos laterais (attenuation of side
lobes).
O valor (mdio) do tau a escala temporal caracterstica (o parmetro do modelo AR). A
largura de banda (bandwidth) a resoluo espectral, dada como a largura entre os -6dB
pontos.
O encaixe a um modelo AR(1) pode ser verificado pelo valor de corridas (runs value) e
seu intervalo de aceitao de 5%. Este teste disponvel apenas com o Monte Carlo
ligado, superamostragem (oversampling) = 1, segmentos = 1, janela (window) =
retangular (rectangular). Em adio a um conjunto fixo de nveis de falso alarme (90%,
90%, 95% e 99%), o programa tambm fornece o nvel crtico de falso alarme (False-
al) que depende do comprimento do segmento (Thomson 1990).
Importante: por causa do longo tempo de clculo, a simulao Monte Carlo no
executada automaticamente, e os nveis de falso-alarme por Monte Carlo, portanto, no
so disponveis. Quando a opo Monte Carlo ativada, o espectro fornecido pode mudar
levemente porque os resultados do Monte Carlo so, ento, usados para calcular uma
verso com vis corrigido (bias-corrected) (veja Schulz e Mudelsee 2002).
Referncias
Schulz, M. & M. Mudelsee. 2002. REDFIT: estimating red-noise spectra directly from unevenly
spaced paleoclimatic time series. Computers & Geosciences 28:421-426.
Thomson, D.J. 1990. Time series analysis of Holocene climate data. Philosophical Transactions
of the Royal Society of London, Series A 330:601-616.
132
Os dados so zero-acolchoados (zero-padded) at a menor potncia de 2 que seja maior
que o comprimento da sequncia. Isto necessrio para produzir os resultados de teste
fornecidos por Lees & Park (1995).
Referncia
Lees, J.M. & J. Park. 1995. Multiple-taper spectral analysis: a stand-alone C-subroutine.
Computers & Geosciences 21:199-236.
Autocorrelao (Autocorrelation)
A autocorrelao (Davis 1986) feita em duas colunas de dados temporais/estratigrficos
amostrados regularmente. Tempo de atraso (lag times) de at n/2, onde n o nmero
total de valores no vetor, so mostrados ao longo do eixo x (apenas tempos de atraso
positivos a funo de autocorrelao simtrica em torno de zero). Uma autocorrelao
predominantemente igual a zero significa dados aleatrios periodicidades aparecem
como picos.
133
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
rm =
( xi x )( yim y ) .
( xi x ) 2 ( y i m y ) 2
As somatrias e os valores mdios so tomados apenas nas partes das sequncias que se
sobrepem para um dado tempo de atraso.
A equao mostra que para atrasos positivos, x comparado com um y que foi atrasado
em m amostras. Uma alta correlao em atrasos positivos ento significa que
caractersticas de y esto guiando, enquanto x fica para trs. Um lembrete disso dado
pelo programa.
Um valor de p para um dado m dado por um teste t com n-2 graus de liberdade, sendo n
o nmero de amostras que se sobrepem:
n2
t = rm .
1 rm2
134
importante notar que este teste diz respeito a um m em particular. Plotar p em funo
de todos os m traz a questo de testes mltiplos valores de p menores que 0.05 so
esperados para 5% dos tempos de atraso mesmo em conjuntos de dados totalmente
aleatrios (no correlacionados).
No exemplo acima, os dados de terremotos (earthquakes) parecem se atrasar em
relao aos dados de injeo (injection) com um atraso de 0-2 amostras (neste caso,
meses), onde os valores da correlao so maiores. Os valores de p (curva vermelha)
indicam a significncia nestes atrasos. Curiosamente, parece haver significncia para a
correlao negativa em atrasos positivos e negativos grandes.
H suporte para dados ausentes.
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Autoassociao (Autoassociation)
A autoassociao anloga autocorrelao, mas para uma sequncia de dados binrios
ou nominais codificados como nmeros inteiros
Para cada atraso (lag), o valor da autoassociao simplesmente a razo entre o nmero
de posies de mesmo valor (matching position) e o nmero total de posies que foram
comparadas. O valor de autoassociao esperado (0.3318 no exemplo acima) para uma
sequncia aleatria (Davis 1986)
m
X
k =1
2
k n
P=
n2 n
onde n o nmero total de posies, m o nmero de estados distintos (3 no exemplo
acima), e Xk o nmero de observaes com o estado k.
Para valores de atraso diferentes de zero, um valor de P computado apenas pelas
posies com sobreposio, e o nmero esperado de correspondncias dado por E=nP.
135
Isso comparado ao nmero observado de correspondncia O para produzir um 2 com 1
grau de liberdade:
2 (O E 1 / 2) 2 (O' E '1 / 2) 2
= +
E E'
com O=n-O e E=n(1-P) os valores observados e esperados de no-correspondncias
(mismatches).
A questo de testes mltiplos surge para o conjunto de valores p.
O teste acima no rigorosamente vlido para sequncias de transio nas quais
repeties no so permitidas (a sequncia no exemplo acima desse tipo). Neste caso,
selecionar a opo sem repeties (No repetitions). Os valos de p sero ento
computados por um teste exato, onde todas as possveis permutaes sem repetio so
computadas e a autoassociao comparada com os valores originais. Este teste demora
muito tempo para rodar para n>30, e a opo no est disponvel para n>40.
H suporte para dados ausentes.
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
136
A forma do wavelet gerador pode ser estabelecida para Morlet (nmero de wavelet
(wavelet number) = 6), Paul (4 ordem) ou DOG (Derivado Do Gaussiano (Derivative Of
Gaussian), 2 e 4 derivadas). O wavelet de Morlet normalmente tem o melhor
desempenho.
O exemplo acima baseada em um registro de istopos de oxignio de foraminferos
(foram oxygen isotope) de 1 Ma at Recente, com um espaamento regular de 0.003 Ma
(3 ka). Uma faixa pode ser vista a uma escala de aproximadamente 25 = 32 amostras, ou
por volta de 100 ka. Uma faixa mais fraca por volta de 23.7=13 amostras corresponde a
uma escala de 40 ka. Isto so periodicidades orbitais (orbital periodicities). Em contraste
com a anlise espectral geral, o escalograma torna visveis as mudanas de fora e
frequncia ao longo do tempo.
O assim chamando cone de influncia (cone of influence) pode ser plotado para
mostrar a regio em que efeitos de fronteira (boundary effects) esto presentes.
O algoritmo baseado na convoluo rpida do sinal com o wavelet em diferentes
escalas, usando o FFT.
Teste de significncia: O nvel de significncia correspondente a p=0.05 pode ser plotado
como um contorno (teste qui-quadrado, de acordo com Torrence & Compo 1998). O
valor de atraso (Lag), como fornecido pelo usurio, especifica a hiptese nula.
Atraso=0 especifica um modelo de barulho branco. Valores de 0 < Atraso < 1
especificam um modelo de barulho vermelho com o dado coeficiente MA(1) de
autocorrelao. Este pode ser estimado usando o mdulo ARMA no menu Time
(especificar zero termos AR (AR terms) e um termo MA (MA term), note que os valores
de MA so dados com sinal negativo).
Se a funo Potncia (Power) for desmarcada, o programa ir mostrar apenas a parte
real do escalograma (sem elevar ao quadrado). Isso mostra o sinal no domnio tempo,
filtrado em diferentes escalas:
Na janela Ver nmeros (View numbers), cada linha mostra uma escala, com o
nmero da amostra (posio) ao longo das colunas.
A transformao wavelet foi usada por Prokoph et al. (2000) para ilustrar ciclos em
curvas de diversidade em foraminferos planctnicos. O cdigo no Past baseado em
Torrence & Compo (1998).
Referncias
Prokoph, A., A.D. Fowler & R.T. Patterson. 2000. Evidence for periodicity and nonlinearity in a
highresolution fossil record of long-term evolution. Geology 28:867-870.
Torrence, C. & G.P. Compo. 1998. A practical guide to wavelet analysis. Bulletin of the
American Meteorological Society 79:61-78.
137
individualmente. Isso permite desenvolvimento do espectro no tempo, contrastando com
a anlise global fornecida por outros mdulos de anlise espectral. Posio da amostra
mostrada no eixo x, frequncia (em perodos por amostra) no eixo y, e poder em uma
escala logartmica por uma escala de cor ou escala-de-cinza.
A Transformao de Fourier de Tempos curtos (Short-time Fourier transform STFT)
pode ser comparada com anlise de wavelet, mas com uma escala linear de frequncia e
com resoluo temporal constante independente da frequncia.
138
Os mtodos comuns de anlise espectral talvez no sejam timos para dados binrios, j
que eles decompem as sries temporais em sinusides, e no em ondas quadradas. A
transformao de Walsh pode ento ser uma escolha melhor, usando como base funes
que se alternam entre -1 e +1. Estas funes tm frequncias variveis (nmero de
transies dividido por dois), conhecidas como sequncias. No PAST, cada par de
funes bsicas pares (cal) e mpares (sal) combinado em uma potncia usando
cal2+sal2, produzindo um espectro de potncias que comparvel com o periodograma
de Lomb.
No exemplo acima, compare o periodograma de Walsh (topo) ao periodograma de Lomb
(embaixo). O conjunto de dados tem 0.125 perodos por amostra. Ambas as anlises
mostram harmnicos.
A transformao de Walsh ligeiramente extica comparada com a transformao de
Fourier, e os resultados devem ser interpretados com cautela. Por exemplo, os efeitos do
duty cycle (porcentagem de 1s contra a porcentagem de zeros) so um tanto difceis de
entender.
No PAST, os valores de dados so pr-processados multiplicado por dois e subtraindo 1,
trazendo os valores binrios 0/1 para dentro da amplitude -1/+1, tima para a
transformao de Walsh. Os dados so zero-acolchoados (zero-padded) potncia mais
prxima de 2 se necessrio, como requerido pelo mtodo.
139
O teste baseado na dicotomia entre dois valores (x 0 ou x > 0). Ele conta o nmero de
sries (runs) (grupos de valores consecutivos iguais) e compara este nmero a um valor
terico. O runs test pode portando ser usado diretamente em sequncias de dados
binrios. Tambm h opes por series em torno da mdia (runs about the mean) (o
valor mdio subtrado dos dados antes do teste), e sries para cima e para baixo
(runs up and down) (so tomadas as diferenas entre um valor e o prximo antes do
teste).
Sendo n o nmero total de pontos de dados, n1 o nmero de pontos 0 e n2 o nmero de
pontos >0, o nmero esperado de sries em uma sequncia aleatria e a varincia so
n + 2n1n2
E ( R) = ,
n
2 n n ( 2n n n )
Var ( R ) = 1 2 2 1 2 .
n (n 1)
Sendo R o nmero observado de sries, uma estatstica z pode ser escrita como
R E ( R)
z= .
Var ( R )
O valor de p bicaudal resultante no preciso para n<20. Sendo assim, tambm
includo um procedimento Monte Carlo baseado em 10 000 rplicas aleatrias usando n,
n1 e n2 .
140
Correlograma (e periodograma) de Mantel (Mantel correlogram (and
periodogram)
Este mdulo espera uma srie de linhas de dados multivariados, uma linha por amostra.
Assume-se que as amostras estejam distribudas regularmente no tempo.
O correlograma de Mantel (e.g. Legendre & Legendre 1988) uma extenso multivariada
da autocorrelao e baseado em qualquer medida de similaridade ou distncia. O
correlograma de Mantel no PAST mostra a similaridade mdia entre a srie temporal e
uma cpia atrasada (lagged copy), para atrasos (lags) diferentes.
141
tringulo a similaridade entre o primeiro e o ltimo ponto. A base do tringulo mostra
similaridade entre pares de pontos consecutivos.
Referncias
Hammer, . 2007. Spectral analysis of a Plio-Pleistocene multispecies time series using the
Mantel periodogram. Palaeogeography, Palaeoclimatology, Palaeoecology 243:373-377.
Legendre, P. & L. Legendre. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.
142
muitos conjuntos de dados paleontolgicos com dados esparsos efeitos que confundem,
uma anlise ARMA adequada (e, portanto, anlise de interveno) ser impossvel.
O programa baseado no algoritmo de verissimilhana de Melard (1984), combinado
com otimizao multivariada no-linear usando busca por simplex (nonlinear
multivariate optimization using simplex search).
A anlise de interveno prossegue assim: Primeiro, faa uma anlise ARMA apenas nas
amostras que precedem a interveno. Para isso, digite o nmero da ltima amostra pr-
interveno na caixa ltima amostra (last samp). Tambm possvel fazer a anlise
ARMA apenas nas amostras que se seguem interveno, ao digitar a primeira amostra
ps-interveno na casa primeira amostra (first samp), mas isso no recomendado
por causa do distrbio ps-interveno. Tambm selecione a caixa Interveno
(Intervention) para ver o modelo de interveno otimizado.
A anlise segue Box e Tiao (1975) ao assumir uma funo indicadora (indicator
function) u(i) que ou um passo unitrio (unit step) ou um pulso unitrio (unit pulse),
como escolhido pelo usurio. A funo indicadora transformada por um processo
AR(1) com um parmetro delta e ento escalonada (scaled) por um magnitude (note que
a magnitude dada no PAST o coeficiente na funo indicadora transformada: primeiro
faa y(i)=delta*y(i-1)+u(i), ento reajuste a escala de y pela magnitude). O algoritmo
baseado na transformao ARMA da sequncia completa, ento uma transformao
ARMA correspondente de y, e finalmente regresso linear para encontrar a magnitude. O
parmetro delta otimizado por busca exaustiva entre [0,1].
Para impactos pequenos em dados com rudo, o delta pode parar em um sub-timo. Tente
as opes tanto de passo (step) quanto de pulso (pulse) e veja qual d o menor erro
padro na magnitude. Tambm inspecione os dados de otimizao do delta (delta
optimization), onde o erro padro da estimativa plotado como funo de delta, para ver
se o valor otimizado pode ser instvel.
O modelo de Box-Jenkins pode modelar mudanas abruptas e permanentes (funo passo
(step) com delta=0, ou pulso com delta=1), abruptas e no-permanentes (pulso com
delta<1), ou graduais e permanentes (passo com delta<0).
Tome cuidado com o erro padro da magnitude ele frequentemente ser subestimado,
especialmente se o modelo ARMA no se ajusta bem. Por esta razo, um valor de p
deliberadamente no calculado (Murtaugh 2002).
143
O conjunto de dados do exemplo (curva azul) a curva de Sepkoski para a taxa de
extino percentual em nvel de gnero, interpolada para produzir um espaamento
regular de ca. 5 milhes de anos. O pico maior a extino no limite entre o Permiano e
o Trissico. O usurio especificou um modelo ARMA(2,0). O resduo plotado em
vermelho. O usurio especificou que os parmetro do ARMA devem ser calculados para
os pontos antes da extino P-T no tempo 37 e uma interveno do tipo pulso (pulse-type
intervention). A anlise parece indicar uma constante temporal (delta) elevada para a
interveno, com o efeito durando at o Jurssico.
Referncias
Box, G.E.P. & G.C. Tiao. 1975. Intervention analysis with applications to economic and
environental problems. Journal of the American Statistical Association 70:70-79.
Melard, G. 1984. A fast algorithm for the exact likelihood of autoregressive-moving average
models. Applied Statistics 33:104-114.
Murtaugh, P.A. 2002. On rejection rates of paired intervention analysis. Ecology 83:1752-1761.
144
necessrio especificar um arquivo de dados contendo parmetros orbitais. Baixe o
arquivo http://www.imcce.fr/Equipes/ASD/insola/earth/La2004 e o coloque em qualquer lugar
no seu computador. O PAST ir perguntar a localizao do arquivo na primeira vez que
voc fizer o clculo.
A quantidade de dados pode se tornar excessiva para perodos longos de tempo e
pequenos tamanhos de passo!
Referncia
Laskar, J., P. Robutel, F. Joutel, M. Gastineau, A.C.M. Correia & B. Levrard. 2004. A long-term
numerical solution for the insolation quantities of the Earth. Astronomy & Astrophysics 428:261-
285.
145
Teste exp para processo de Poisson
O teste exp (Prahl 1999) para um processo estacionrio de Poisson (eventos aleatrios e
independentes) baseado no conjunto de n tempos de espera ti entre eventos sucessivos
na sequncia ordenada. A estatstica de teste :
1 t
M = 1 i
n t i <T T
onde T o tempo de espera mdio. M ir tender a zero para uma sequncia espaada
regularmente (superdispersa overdispersed) e a 1 para uma sequncia altamente
agrupada. Para a hiptese nula de um processo de Poisson, M tem distribuio
assimptoticamente normal com mdia 1/e /n e um desvio padro /n, onde =0.189
e =0.2427. Esta a base para o teste z fornecido.
Resumindo, se p<0.05 a sequncia no Poisson. Voc pode ento inspecionar a
estatstica M; se ela for menor do que o valor esperado, isso indica regularidade, se for
maior, indica agrupamento.
146
de espera. Na hiptese nula de intensidade constante, U tem distribuio
aproximadamente normal com mdia zero e varincia um. Esta a base para o valor de p
que fornecido.
Se p<0.05, um U positivo indica uma tendncia de aumento na densidade (reduo nos
tempos de espera), enquanto um U negativo indica uma tendncia decrescente. Repare
que se uma tendncia detectada por este teste, a sequncia no estacionria e as
premissas do teste exp acima so violadas.
Referncias
Cox, D. R. & P. A. W. Lewis. 1978. The Statistical Analysis of Series of Events. Chapman and
Hall, London.
Prahl, J. 1999. A fast unbinned test on event clustering in Poisson processes. Arxiv, Astronomy
and Astrophysics September 1999.
147
A opo Incorporada (sem repeties) (Embedded (no repeats)) deve ser selecionada
se os dados foram coletados de tal modo que transies para o mesmo estado no so
possveis (pontos de dados s so coletados quando h uma mudana). A matriz de
transio ento ter zeros na diagonal.
Os algoritmos, incluindo um algoritmo iterativo para cadeias de Markov incorporadas,
seguem Davis (1986).
Referncia
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Filtrar (Filter)
Filtrar os dados, de modo a deixar certas faixas de frequncia de fora, pode ser til, em
anlise de sries temporais, para suavizar (smooth) uma curva, remover variao lenta ou
enfatizar certas periodicidades (e.g ciclos de Milaknovitch). Espera uma coluna de dados
com espaamento regular. O Past usa filtros FIR, que foram desenhados usando o
algoritmo de Parks-McClellan. Os seguintes tipos de filtro so disponveis: Passe baixo,
passe alto, passa de faixa e parada de faixa (Lowpass, highpass, bandpass & bandstop).
Parmetros do filtro
Algum esforo necessrio para delinear o melhor filtro. As frequncias so
especificadas na faixa de 0-0.5, i.e. T0/T onde T0 o intervalo de amostragem (no
especificado para o computador) e T o perodo requerido. Por exemplo, se o seu
intervalo de amostragem de 1000 anos, uma frequncia correspondente a um perodo de
23000 anos especificada como 1000/23000=0,043.
148
Depois de definir o tipo de filtro, voc deve escolher uma largura de transio (transition)
(ou deixar o valor padro de 0,02). Reduzir a largura da transio vai produzir um filtro
mais preciso (sharper) ao custo de ondulaes maiores (ondas na resposta da
frequncia).
Repare que os valores nos campos do texto no so atualizados at que voc pressione
Enter. Alm disso, se uma combinao invlida for colocada (e.g. faixa de transio
cruzando 0 ou 0.5, ou limite superior menor que o limite inferior) o programa ir reiniciar
alguns valores para evitar erros. Portanto, necessrio inserir os nmeros em uma ordem
para que o filtro sempre seja vlido.
Os tipos de filtro so os seguintes:
1. Passe baixo (lowpass): A frequncia De (From) forada a zero. As frequncias
at a frequncia At (Up) passam pelo filtro. As frequncias de At+Transio at
0.5 so bloqueadas.
2. Passe alto (highpass): A frequncia Para forada para 0.5. Frequncias acima
da frequncia De passam pelo filtro. Frequncias de 0 at De-Transio so
bloqueadas.
3. Passe de faixa (bandpass): Frequncias de De at At passam pelo filtro.
Frequncias abaixo de De-Transio e acima de At+Transio so bloqueadas.
4. Parada de faixa (bandstop): Frequncias de De at At so bloqueadas.
Frequncias de 0 at De-Transio e de At+Transio at 0.5 passam pelo filtro.
149
Similar mdia mvel, mas usa a mediana ao invs da mdia. Este mtodo mais
robusto em relao a valores extremos (outliers).
AR1 (Exponencial) (AR1 (Exponential))
Filtro recursivo (autoregressivo), yi = yi-1 + (1-)xi com sendo um coeficiente de
alisamento de 0 at 1. Isso corresponde ao clculo de mdias ponderadas com pesos que
decaem exponencialmente. D um atraso de fase e tambm um transitrio (transient) no
comeo da srie. Includo para deixar o mdulo mais completo.
Referncia
Meeus, J. 1991. Astronomical algorithms. Willmann-Bell, Richmond.
4
Traduzi floor como base.
150
Geometrical menu
Direes uma amostra (Directions one sample)
Este mdulo plota um diagrama de rosa (rose diagram), ou histograma polar, de direes.
Usado para plotar espcimens orientados a correntes, orientao de caminhos, orientao
de elementos morfolgicos (e.g. linhas de terraceamento), etc.
Uma coluna de dados direcionais (0-360) ou orientacionais (0-180), em graus, esperada.
Dados direcionais ou peridicos em outras formas (radianos, 0-24 horas, etc) devem ser
convertidas em graus usando e.g. o mdulo Evaluate Expression (menu Transform).
Estatstica descritiva
O ngulo mdio (mean angle) leva em conta a circularidade:
= tan 1
sin i (levado ao quadrante certo)
cos i
O intervalo de confiana de 95% da mdia estimado de acordo com Fisher (1983). Ele
assume distribuio normal circular, e no muito preciso para varincias muito grandes
(intervalo de confiana maior do que 45 graus) ou tamanhos amostrais pequenos. O
151
intervalo de confiana de 95% das mdias por bootstrap utiliza 5000 rplicas de
bootstrap. O grfico usa o intervalo de confiana por bootstrap.
O parmetro de concentrao estimado por aproximao iterativa soluo da
equao
I 1 ( )
=R
I 0 ( )
onde I0 e I1 so funes imaginrias de Bessel de ordens 0 e 1, estimadas de acordo com
Press et al. (1992), e o R definido abaixo (ver e.g. Mardia 1972).
152
onde
i
z i = f ( ; , )d ,
0
estimado por intergrao numrica. Valores crticos para a estatstica de teste so obtidos
por interpolao linear da Tabela 1 de Lockhart & Stevens (1985). So aceitavelmente
precisos para n>=20.
Referncias
Batschelet, E. 1981. Circular statistics in biology. Academic Press.
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Fisher, N.I. 1983. Comment on "A Method for Estimating the Standard Deviation of Wind
Directions". Journal of Applied Meteorology 22:1971.
Lockhart, R.A. & M.A. Stephens 1985. Tests of fit for the von Mises distribution. Biometrika
72:647- 652.
Mardia, K.V. 1972. Statistics of directional data. Academic Press, London.
Russell, G. S. & D.J. Levitin 1995. An expanded table of probability values for Rao's spacing
test.
Communications in Statistics: Simulation and Computation 24:879-888.
153
As duas amostras e tm n1 e n2 valores. O espalhamento de Rayleigh (Rayleighs
spread) R calculado para cada amostra e para a amostra combinada:
2 2
n1 n1
R1 = cos i + sin i
i =1 i =1
2 2
n2 n2
R2 = cos i + sin i
i =1 i =1
2 2
n1 n2
n1 n2
R = cos i + cos i + sin i + sin i
i =1 i =1 i =1 i =1
A estatstica de teste U calculada por
R + R2 R
U = ( n 2) 1
n ( R1 + R2 )
A significncia calculada inicialmente corrigindo o U de acordo com Mardia (1972a):
U
2 R / n < 0.45
1
1 +
U = 8 n 2
3
1 + U R / n < 0.95
8
onde n=n1+n2. O valor de p ento dado pela distribuio F com 1 e n-2 graus de
liberdade. O parmetro de concentrao combinada (combined concentration parameter)
de mxima-verossimilhana, calculada como descrito em Direes uma amostra
acima.
154
Teste de Mardia-Watson-Wheeler
Esse teste no-paramtrico para igualdade de distribuio calculado de acordo com
Mardia (1972b).
C12 + S 22 C 22 + S 22
W = 2 +
n1 n 2
onde, para a primeira amostra,
n1 n1
C1 = cos(2r1i / N ), S1 = sin(2r1i / N )
i =1 i =1
e de modo similar para a segunda amostra (N=n1+n2). Os r1i so os ranks dos valores da
primeira amostra dentro da amostra agrupada.
Para N>14, W tem distribuio aproximada de qui-quadrado com 2 graus de liberdade.
Referncias
Mardia, K.V. 1972a. Statistics of directional data. Academic Press, London.
Mardia, K.V. 1972b. A multi-sample uniform scores test on a circle and its parametric
competitor. Journal of the Royal Statistical Society Series B 34:102-113.
sin(
i =1
i ) sin( i )
r=
n
sin
i =1
2
( i ) 2 sin( i )
sin
k =1
2
( k ) sin 2 ( k )
k =1
T =r n
sin
k =1
2
( k ) sin 2 ( k )
Para n grandes, essa estatstica tem distribuio assimptoticamente normal com mdia 0 e
varincia 1 na hiptese nula de correlao nula, constituindo a base para o clculo do p.
Referncia
Jammalamadaka, S. R. & A. Sengupta. 2001. Topics in circular statistics. World
Scientific.
155
Esfrico uma amostra (Spherical one sample)
Este mdulo faz grficos estreos (stereo) de dados esfricos axiais (e.g. medidas
strike-dip em geologia estrutural). Estatsticas esfricas podero ser adicionadas em
verses futuras.
Trs formatos de dados podem ser usados, todos usando a conveno geogrfica de
ngulo (ngulos, sentido horrio a partir do norte):
Tendncia (trend azimute) e imerso (plunge ngulo para baixo a partir da
horizontal) para dados axiais
Azimute da imerso e ngulo da imerso (para baixo a partir da horizontal) para
planos. O eixo (pole vetor normal) do plano plotado.
Golpe (strike) e imerso (dip) para planos, usando a conveno da regra da mo
direita com a impresso para baixo e para a direita do golpe. O eixo do plano
plotado.
O contorno da densidade baseado em um algoritmo modificado do mtodo de Kamb,
por Vollmer (1995). Tanto projees de rea igual (Schmidt) quanto de ngulo igual
(Wulff) so disponveis. Projees so para o hemisfrio inferior. Estimativas de
densidade podem usar rea inversa, rea inversa elevada ao quadrado, ou lei exponencial,
resultados em graus maiores de alisamento (smoothing).
Referncia
Vollmer, F.W. 1995. C program for automatic contouring of spherical orientation data using a
modified Kamb method. Computers & Geosciences 21:31-49.
156
Aplicaes deste mdulo incluem ecologia espacial (braquipodos so agrupados in-
situ?), morfologia (tubrculos de trilobitas so superdispersos?) e geologia (distribuio
de, e.g., vulces, terremotos, nascentes).
157
verificar se os pontos esto organizados ao longo de linhas (ver Hammer 2009 para
mtodos mais avanados).
Referncias
Clark, P.J. & Evans, F.C. 1954. Distance to nearest neighbor as a measure of spatial relationships
in populations. Ecology 35:445-453.
Davis, J.C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
Hammer, . 2009. New methods for the statistical analysis of point alignments. Computers &
Geosciences 35:659-666.
Defina a intensidade estimada do padro de pontos, com n pontos em uma rea A, como
=n/A. A distncia entre os pontos i e j dij. A estimativa do K de Ripley, como funo
de distncia, ento calculada como
1 n
K (d ) = I (d ij d ) ,
n i =1 j 1
onde a funo indicadora I um se o argumento verdadeiro, zero caso contrrio.
A normalizao de K tal que para aleatoriedade espacial completa (complete spatial
randomness CSR), espera-se que K(d) aumente como rea de crculos, i.e. K(d)=d2. A
funo L(d) uma transformao correspondente de K(d):
K (d )
L(d ) =
158
Para CSR, L(d)=d, e L(d)-d=0. Um intervalo de confiana de 95% para CSR estimada
usando 1000 simulaes Monte Carlo dentro do retngulo que delimita a rea (verses
anteriores usaram a aproximao 1.42 A / n ).
A correo de Ripley para bordas (Ripleys edge correction) includa, dando pesos a
contagens dependendo da proporo do crculo que est dentro do domnio retangular.
O exemplo acima mostra localizaes de rvores em uma floresta. L(d)-d fica acima do
intervalo de 95% para CSR, indicando agrupamento. Adicionalmente, as interaes
espaciais parecem ser mais proeminentes em uma escala de aproximadamente 10 m,
acima da qual a curva fica plana de um modo esperado para CSR.
rea
Para que o K de Ripley seja calculado corretamente, a rea deve ser conhecida. Na
primeira rodada, a rea calculada usando o menor retngulo que engloba a rea, mas
isso pode super ou subestimar a rea real. A rea pode ser ajustada pelo usurio. Uma
rea superestimada normalmente ir aparecer como uma forte tendncia linear geral com
inclinao positiva para L(d)-d.
Referncia
Ripley, B. D. Tests of randomness for spatial point patterns. Journal of the Royal
Statistical Society, ser. B 41:368-374.
159
A estimativa de densidade baseada em uma de quatro funes Kernel, com parmetro
de raio r. Sendo d i = ( x xi ) 2 + ( y yi ) 2 :
1 d i2
Gaussiana (padro): f ( x, y ) = i 2r 2
r 2
exp
d i2
3 1 2 d i r
2
Parabolide: f ( x, y ) = r
2r i
0 di > r
di
1
2 d r
Triangular: i r i
f ( x, y ) = 2
r
0 di > r
1 1 d i r
Uniforme: f ( x, y ) = 2
r i 0 d i > r
Este escalonamento fornece uma estimativa do nmero estimado de pontos por rea, no
uma densidade de probabilidade. Os Kernels gaussiano e parabolide (quadrtico)
normalmente tm melhor desempenho. O Kernel uniforme resulta em grficos muito
pouco suaves.
160
Alinhamento de pontos (Point alignments)
Deteco de alinhamentos lineares em um padro de pontos 2D, usando o mtodo dos
setores contnuos (continuous sector method Hammer 2009). Aplicaes tpicas so em
geologia e geografia, para estudar a distribuio de terremotos, vulces, fontes etc,
associadas com falhas ou outras estruturas lineares.
Referncia
Hammer, . 2009. New methods for the statistical detection of point alignments. Computers &
Geosciences 35:659-666.
161
O clculo de acordo com Legendre & Legendre (1998). Para cada classe de distncia d,
calcule
1 n n
whi (z h z )(zi z )
`W h=1 i =1
I (d ) =
1 n
n i =1
(z i z )2
Aqui, n o nmero total de pontos, W o nmero de pares de pontos com distncias
entre eles dentro da classe de distncia, e whi uma funo de ponderamento (weight
function) tal que whi=1 se os pontos h e i esto dentro da classe de distncia e whi=0 caso
contrrio (delta de Kronecker). Repare que esta equao est incorreta em algumas
publicaes.
Para o nvel crtico unicaudal I0.05, calcule
1 n n
S1 = (whi + hih )
2
2 h =1 i =1
n
S 2 = (wi + + w+i )
2
i =1
n
n ( z i z )
4
i =1
b2 = 2
n
2
(z i z )
i =1
var( I ) =
2
[ ] [
n (n 3n + 3) S1 nS 2 + 3W 2 b2 (n 2 n) S1 2nS 2 + 6W 2]
1
2
(n 1)(n 2)(n 2)W (n 1) 2
I 0.05 = 1.6452 var( I ) k 0.05 (n 1) 1
Aqui, wi+ e w+i so somatrias de linhas e de colunas. O fator de correo k0.05 ajustado
em 10 0.05 = 0.707 se 4(n n ) < W 4(2n 3 n + 1) , caso contrrio k0.05=1.
Referncia
Legendre, P. & Legendre, L. 1998. Numerical Ecology, 2nd English ed. Elsevier, 853 pp.
162
Uma superfcie linear de mnimos-quadrados (tendncia) automaticamente ajustada aos
dados, removida antes da gridagem e finalmente adicionada novalmente. Isso til
principalmente para a modelagem de semivariograma (semivariogram modelling) e para
o mtodo de krigagem (kriging).
Validao cruzada (Cross validation): Esta opo ir remover um ponto de dados por vez
e re-calcular a superfcie com base nos pontos remanescentes (jackknife). As
diferenas entre os valores originais e os valores obtidos por validao cruzada indica a
acurcia da preciso do modelo de superfcie. Estas diferenas so relatadas para cada
ponto, junto com o erro quadrado mdio (mean squared error MSE) calculado para
todos os pontos.
163
Alisamento polinomial de placa fina (Thin-plate spline)
Interpolador que d a mxima suavidade. Pode produzir valores elevados ou baixos
demais na presena de curvaturas abruptas na superfcie. um mtodo radial com funo
radial bsica (radial basis function) = r ln r.
Multiquadrtico
Funo radial bsica = r. Bastante usado para modelagem de terreno.
Krigagem (Kriging)
necessrio que o usurio estabelea um modelo para o semivariograma, escolhendo um
dos quatro modelos comuns e parmetros correspondentes para ajustar as semivarincias
empricas (a soma dos quadrados residuais residual sum of squares deve ser a menor
possvel. O semivariograma calculado dentro de cada um de um nmero de classes
(bins). Usando a opo histograma, escolha o nmero de bins tal que cada bin (com a
possvel exceo dos da extrema direita) contenha pelo menos 30 distncias.
O parmetro nugget uma constante adicionada ao modelo. Ele implica uma varincia
diferente de zero na distncia zero, e, portanto, permitir que a superfcie no passe
exatamente pelos pontos de dados. O parmetro range controla a extenso da curva ao
longo do eixo das distncias. Nas equaes abaixo, o valor de distncia normalizado h
representa distncia/range. O scale (escala) controla a extenso da curva ao longo do
eixo da varincia.
3h 1 3
nugget + scale h h < 1
Esfrico (Spherical): ( h) = 2 2
nugget + scale h 1
Exponencial (Exponential): (h) = nugget + scale(1 e h )
2
Gaussiano (Gaussian): (h) = nugget + scale(1 e h )
nugget + scale(7 h 2 8.75h 3 + 3.5h 5 0.75h 7 ) h < 1
Cbico (Cubic): ( h) =
nugget + scale h 1
164
Veja e.g. Davis (1986) ou Smith et al. (2009) para mais informao sobre krigagem.
Referncias
Davis, J. C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
de Smith, M. J., M. F. Goodchild & P. A. Longley. 2009. Geospatial Analysis, 3rd ed.
Matador.
165
Graus decimais (Decimal degrees WGS84)
Duas colunas: Latitude e Longitude, em graus decimais (60.5 60 graus, 30 minutos).
Valores negativos para o sul do equador e a oeste de Greenwich. Referenciado ao datum
WGS84.
166
UTM-WGS84 (WGS84)
Trs colunas: Leste (metros), norte (metros) e zona. Referenciado ao datum WGS84.
UTM-NAD83 (GRS80)
Trs colunas: Leste (metros), norte (metros) e zona. Referenciado ao datum NAD83
(praticamente idntico ao WGS84).
Sweden (RT90)
Duas colunas: Leste (metros) e norte (metros).
167
Intervalos de confiana de 95% para os coeficientes alomtricos so estimados por
bootstrap dos espcimes. 2000 rplicas de bootstrap so feitas.
Dados ausentes: suporte por substituio pela mdia da coluna.
Referncias
Jolicoeur, P. 1963. The multivariate generalization of the allometry equation. Biometrics 19:497-
499.
Kowalewski, M., E. Dyreson, J.D. Marcot, J.A. Vargas, K.W. Flessa & D.P. Hallmann. 1997.
Phenetic discrimination of biometric simpletons: paleobiological implications of morphospecies
in the lingulide brachiopod Glottidia. Paleobiology 23:444-469.
Referncia
Davis, J. C. 1986. Statistics and Data Analysis in Geology. John Wiley & Sons.
168
deveriam ser usados, sendo N o nmero de pontos digitalizados. Tamanho e translao
posicional (positional translation) so removidos por normalizao e no entram nos
coeficientes. O tamanho (antes da normalizao) fornecido na primeira coluna. A
normalizao opcional para rotao ou ponto inicial (starting point), que segue Fearson et
al., s vezes inverte formas. Isso deve ser verificado com a opo Ver forma (Shape
view) pode ser necessrio remover estes espcimes.
Os coeficientes podem ser copiados para a planilha principal para anlises subsequentes,
como PCA e anlise de discriminantes. Os mdulos PCA e regresso linear (1
independente, n dependentes) contm funes para mostrar os contornos de formas
correspondentes a determinados escores de PCA ou valores da varivel independente.
A janela Ver forma (Shape view) permite visualizar graficamente a aproximao
elptica de forma de Fourier.
Referncia
Ferson S. F., F. J. Rohlf & R. K. Koehn. 1985. Measuring shape variation of two-
dimensional outlines. Systematic Zoology 34:59-68.
169
testes estatsticos (e.g. MANOVA) e para anlise de discriminantes. A implementao no
Past baseada nos pacotes Hangle/Hmatch/Htree/Hshape de Haines & Crampton
(obrigado aos autores por fornecer o cdigo-fonte).
Suavizao (Smoothing)
Aumentar o parmetro de smoothing pode reduzir rudo de alta frequncia, mas ao
mesmo tempo pode haver perda de informaes de alta frequncia que podem ser
importantes para a descrio da forma.
170
Nota: Reconstruo de forma por PCA, regresso e CVA (como para AEF) ainda no foi
implementada para Hangle.
Referncia
Haines, A.J. & J.S. Crampton. 2000. Improvements to the method of Fourier shape analysis as
applied in morphometric studies. Palaeontology 43:765-783
171
A partir da janela do polinmio de placa fina, voc pode escolher a visualizao de
deformaes parciais iara uma deformao polinomial particular. A primeira deformao
parcial ir representar alguma deformao de larga escala na grade, enquanto
deformaes de ordens maiores normalmente sero relacionadas e deformaes mais
locais. Os componentes affine da deformao (tambm conhecidos como deformao de
ordem zero zeroth warp) representam translao linear, escalonamento, rotao e
cisalhamento (shearing). Na verso atual do PAST no possvel ver as deformaes
principais.
Ao colocar valores maiores que zero no fator de amplitude, a configurao original dos
pontos de referncia e uma grade sero deformadas progressivamente de acordo com a
deformao parcial escolhida.
172
O algoritmo para o clculo das deformaes relativas tirado de Dryden & Mardia
(1998).
Referncia
Dryden, I.L. & K.V. Mardia. 1998. Statistical Shape Analysis. Wiley.
173
transformao em logaritmo, assim como anlise ou ajuste da equao alomtrica para
pares de distncia.
Dados ausentes: suporte por substituio pela mdia da coluna.
174
Strat menu
Associaes unitrias (Unitary associations)
Anlise de Associaes Unitrias (Unitary Associations analysis Guex 1991) um
mtodo de correlao bioestratigrfica (veja Angiolini & Bucher 1999 para uma
aplicao tpica). O input de dados consiste de uma matriz de presena/ausncia com
amostras em linhas e txons em colunas. Amostras pertencentes mesma seo
(localidade) devem ser marcadas com a mesma cora e ordenadas estratigraficamente
dentro de cada seo, de tal modo que a amostra mais profunda seja colocada na ltima
linha da seo. Cores podem ser reutilizadas em conjuntos de dados com um nmero
grande de sees.
175
Sobreposies so mostradas como linhas vermelhas tracejadas, com traos longo
para o txon que ocorre acima e traos curtos para o txon que ocorre embaixo.
Alguns txons podem ocorrer nos chamados sub-grficos proibidos (forbidden sub-
graphs), o que indica inconsistncias nas suas relaes de sobreposio. Dois de uma
srie de tipos de grafos como esses podem ser plotados no PAST: ciclos Cn (Cn
cycles), que so ciclos de sobreposio (A->B->C->A), e circuitos S3 (S3 circuits),
que so inconsistncia do tipo A co-ocorrendo com B, C acima de A, e C abaixo de
B. Interpretaes de grafos proibidos so sugeridas por Guex (1991).
176
Finalmente, uma srie de manipulaes menores so feitas para polir o resultado:
Gerao da propriedade de uns consecutivos (consecutive ones), reinsero de
co-ocorrncias e sobreposies virtuais residuais, e compactao para remover
quaisquer cliques no-mximos que tenham sido gerados. Detalhes sobre estes
procedimentos podem ser encontrados em Guex (1991). Finalmente, agora ns temos
as Associaes Unitrias, que podem ser visualizadas no PAST.
As associaes unitrias tm associado a elas um ndice de similaridade de uma AU
para a prxima, conhecido por D:
Di = |AUi-AUi-1| / |AUi| + |AUi-1-AUi| / |AUi-1|
Funcionalidade especial
A implementao do mtodo das Associaes Unitrias no PAST inclui uma srie de
opes e funes que ainda no foram descritas na literatura. Para questes sobre
estas, favor nos contatar.
Referncias
Angiolini, L. & H. Bucher. 1999. Taxonomy and quantitative biochronology of Guadalupian
brachiopods from the Khuff Formation, Southeastern Oman. Geobios 32:665-699.
Guex, J. 1991. Biochronological Correlations. Springer Verlag.
Savary, J. & J. Guex. 1999. Discrete Biochronological Scales and Unitary Associations:
Description of the BioGraph Computer Program. Meomoires de Geologie (Lausanne) 34.
177
Ranqueamento-Escalonamento (Ranking-Scaling)
Ranqueamento-Escalonamento (Agterberg & Gradstein 1999) um mtodo de
bioestratigrafia quantitativa baseado em eventos em uma srie de poos (wells) ou sees
(sections). O input de dados consiste de poos em linhas, com um poo por linha, e
eventos (e.g. FADs e/ou LADs datums de primeiro e ltimo aparecimento) em colunas.
Os valores na matriz so profundidades de cada evento em cada poo, aumentando para
cima (voc pode querer usar valores negativos para conseguir isso). Ausncias so
codificadas por zero. Caso apenas a ordem dos eventos seja conhecida, esta pode ser
codificada como nmeros inteiros crescentes (ranks, com possveis nmeros repetidos
(ties) para eventos co-ocorrentes) dentro de cada poo.
A implementao do ranqueamento-escalonamento no PAST no abrangente, e
usurios avanados podem querer usar os programas RASC e CASC de Agterberg e
Gradstein.
1. Ranquamento
O primeiro passo do Ranqueamento-Escalonamento produzir uma ordem nica e
abrangente dos eventos, mesmo que os dados contenham contradies (evento A acima
de B em um poo, mas B acima de A em outro) ou ciclos mais compridos (A acima de B
acima de C acima de A). Isso feito por um voto majoritrio, contando o nmero de
vezes que cada evento ocorre acima, abaixo ou junto de todos os outros. Tecnicamente,
isso efeito por Presorting (Pr-ordenamento) seguido pelo Mtodo Modificado de Hay
(Modified Hay Method) (Agterberg & Gradstein 1999).
2. Escalonamento
A anlise bioestratigrfica pode acabar no ranqueamento, mas informaes adicionais
podem ser adquiridas estimando as distncias estratigrficas entre eventos consecutivos.
Isso feito contando o nmero de relaes de sobreposio observadas (A acima ou
abaixo de B) entre cada par (A, B) de eventos consecutivos. Um baixo nmero de
contradies implica uma distncia grande.
Algumas distncias calculadas podem aparecer como negativas, iniciando que a ordem
dada no passo de ranqueamento no foi tima. Caso isso acontea, os eventos so
reordenados e as distncias so recalculadas para certificar que haja apenas distncias
positivas entre eventos.
RASC no PAST
Parmetros
Limiar de poos (Well threshold): O nmero mnimo de poos em que o evento
deve ocorrer para ser includo na anlise.
Limiar de pares (Pair threshold): O nmero mnimo de vezes que uma relao
entre eventos A e B deve ser observada em sequncia para que o par (A,B) seja
includo no passo de ranqueamento
178
Limiar de escalonamento (Scaling threshold): Limiar de pares para o passo de
escalonamento
Tolerncia (Tolerance): usado no passo de ranqueamento (ver Agterberg &
Gradstein)
Ranqueamento
fornecida a ordem dos eventos depois do passo de ranqueamento, com o primeiro
evento no fundo da lista.
Escalonamento
fornecida a ordem dos eventos depois do passo de escalonamento, com o primeiro
evento aparecendo no fundo da lista. Para uma explicao de todas as colunas, ver
Agterberg & Gradstein (1999).
Dendrograma
Grfico das distncias entre eventos na sequncia escalonada, incluindo um
dendrograma que pode auxiliar na zonao.
Referncia
Agterberg, F.P. & F.M. Gradstein. 1999. The RASC method for Ranking and Scaling of
Biostratigraphic Events. In: Proceedings Conference 75th Birthday C.W. Drooger, Utrecht,
November 1997. Earth Science Review 46(1-4):1-25.
179
A janela de output inclui uma histria de otimizao com a temperatura e a penalidade
em funo do passo de resfriamento, a soluo global composta e as extenses que ela
implica para cada seo individual.
A implementao de CONOP no PAST baseada cdigo de otimizao em FORTRAN
fornecido por Sadler e Kemple.
Referncia
Kemple, W.G., P.M. Sadler & D.J. Strauss. 1989. A prototype constrained optimization solution
to the time correlation problem. In Agterberg, F.P. & G.F. Bonham-Carter (eds), Statistical
Applications in the Earth Sciences. Geological Survey of Canada Paper 89-9:417-425.
Referncias
Alroy, J. 1994. Appearance event ordination: a new biochronologic method. Paleobiology
20:191-207.
Alroy, J. 2000. New methods for quantifying macroevolutionary patterns and processes.
Paleobiology 26:707-733.
180
Intervalos de confiana de extenso (Range confidence intervals)
Estimativa de intervalos de confiana para o primeiro e ltimo aparecimento ou para a
extenso total, para um txon. Assume distribuio aleatria de horizontes fossilferos ao
longo da coluna estratigrfica ou ao longo do tempo. Requer amostragem contnua de
sees.
Assumindo uma distribuio aleatria (Poisson) de horizontes fossilferos, intervalos de
confiana para a extenso estratigrfica de um txon podem ser calculados a partir do
datum (nvel) do primeiro aparecimento, datum do ltimo aparecimento e do nmero
total de horizontes em que este txon encontrado (Strauss & Sadler 1989, Marshall
1990).
Nenhum dado precisa ser inserido na planilha. O programa ir perguntar pelo nmero de
horizontes em que o txon encontrado, e os nveis ou datas da primeira e da ltima
apario. Se necessrio, use valores negativos para certificar que o datum do ltimo
aparecimento tenha um valor numrico mais elevado do que o datum do primeiro
aparecimento. Intervalos de confiana de 80%, 95% e 99% so calculados para o FAD
(datum do primeiro aparecimento) isolado, para o LAD (datum do ltimo aparecimento)
isolado e para a extenso total. O valor de o comprimento do intervalo de confiana
dividido pelo comprimento da extenso observada.
Para o caso de um nico ponto final (endpoint):
= (1 C1 ) 1( H 1) 1 ,
onde C1 o intervalo de confiana e H o nmero de horizontes fossilferos.
Para o caso de pontos terminais juntos (joint endpoint) (extenso total), encontrado
por soluo iterativa da equao
C 2 = 1 2(1 + ) ( H 1) + (1 + 2 ) ( H 1) .
Leve em considerao que a premissa de distribuio uniforme ser violada em muitas
situaes reais.
Referncias
Marshall, C.R. 1990. Confidence intervals on stratigraphic ranges. Paleobiology 16:1-10.
Strauss, D. & P.M. Sadler. 1989. Classical confidence intervals and Bayesian probability
estimates for ends of local taxon ranges. Mathematical Geology 21:411-427.
Referncia
181
Marshall, C.R. 1994. Confidence intervals on stratigraphic ranges: partial relaxation of the
assumption of randomly distributed fossil horizons. Paleobiology 20:459-469.
182
Cladistics
Anlise de parcimnia (Parsimony analysis)
Aviso: o pacote Cladistics nos PAST totalmente operacional, mas no tem uma
funcionalidade abrangente. O algoritmo eurstico parece no ter um desempenho to com
como em alguns outros programas (isso est sendo investigado). O pacote cladstico do
PAST adequado para ensino e para explorao inicial dos dados, mas para trabalho
mais srio recomendamos um programa especializado, como o PAUP.
Anlise semi-objetiva das relaes entre txons a partir de evidncia morfolgica ou
gentica.
Matriz de caracteres com txons em linhas, grupo externo (outgroup) na primeira linha.
Para o clculo de ndices de congruncia estratigrfica (stratigraphic congruence
indicies), os datums de primeiro e ltimo aparecimento devem ser dados nas duas
primeiras colunas.
Algoritmos so de Kitching et al. (1998).
Estados de caracteres devem ser codificados usando nmeros inteiros de 0 a 255 ou letras
c, a, g, t, u (maisculas ou minsculas). O primeiro txon tratado como grupo externo e
ser colocado na base da rvore.
Valores ausentes so codificados por ponto de interrogao (?) ou por -1. Repare que o
PAST no colapsa ramos com comprimento zero. Por causa disso, valores ausentes
podem levar a uma proliferao ad nauseam de rvores igualmente curtas, muitas das
quais sero na verdade equivalente.
Quatro algoritmos so disponveis para encontrar as rvores mais curtas:
183
rvore. Depois da adio de cada txon, todas as rvores vizinhas mais prximas so
permutadas na tentativa de encontrar uma rvore ainda mais curta.
Como todas as buscas heursticas, este algoritmo muito mais rpido do que os
algoritmos acima e pode ser usado para quantidades grandes de txons, mas no h
garantia de que ele encontre todas ou alguma das rvores mais parcimoniosas. Para
reduzir a probabilidade de acabar em um sub-timo local mnimo, um nmero de
reordenamentos (reorderings) pode ser especificado. Para cada reordenamento, a ordem
de entrada dos txons ser permutada aleatoriamente e ser feita uma nova busca
heurstica.
Repare: Por causa da reordenao aleatria, as rvores encontradas pelas buscas
heursticas normalmente sero diferentes em cada rodada. Para reproduzir exatamente
uma busca, voc precisa comear o modo de parcimnia novamente do menu, usando o
mesmo valor para semente aleatria (Random seed). Isso ir reiniciar o gerador de
nmeros aleatrios para o valor da semente.
Wagner
Caracteres so reversveis e ordenados, significando que 0->2 custa mais do que 0->1,
mas tem o mesmo custo que 2->0.
Fitch
Caracteres so reversveis e no-ordenados, significando que todas as mudanas tm o
mesmo custo. Isso o critrio com o menor nmero de premissas, e, portanto,
normalmente prefervel.
Dollo
184
Caracteres so ordenados, mas a aquisio de um estado de carter (de um valor mais
baixo para um mais alto) pode acontecer uma nica vez. Toda homoplasia representada
por reverses (reversals) secundrias. Assim, 0->1 pode acontecer uma nica vez,
normalmente relativamente prximo base da rvore, mas 1->0 pode acontecer qualquer
nmero de vezes rvore acima. (Essa definio foi debatida na lista de emails do PAST,
especialmente quanto necessidade de ordenao dos caracteres Dollo).
Bootstrap
Bootstrap feito quando o valor de Rplicas bootstrap (Bootstrap replicates)
colocado em um valor diferente de zero. O nmero especificado de rplicas (tipicamente
100 ou at 1000) da sua matriz de caracteres feito, cada um com caracteres recebendo
pesos arbitrrios. Uma rplica fornece suporte ao grupo se o grupo existe na rvore de
consenso majoritrio (majoritary rule consensus tree) das rvores mais curtas feitas pela
rplica.
Aviso: Especificar 1000 rplicas por bootstrap claramente resulta em um tempo de
clculo 1000 vezes maior do que sem bootstrap! Busca exaustiva com bootstrap no
realstica e no permitida.
185
rvore de consenso (Consensus tree)
A rvore de consenso de todas as rvores mais curtas (mais parcimoniosas) tambm pode
ser vista. Duas regras de consenso so implementadas: Estrito (Strict grupos suportados
por todas as rvores) e majoritrio (majority grupos devem ser suportando por mais de
50% das rvores).
186
A Razo de Excesso de Lacunas (Gap Excess Ratio GER) de Wills (1999) definida
por 1-(MIG-Gmin)/Gmax-Gmin) onde Gmin a menor somatria possvel de extenses-
fantasma em qualquer rvore (ou seja, a somatria das distncias entre FADs
consecutivos) e Gmax a maior somatria possvel (ou seja, a somatria das distncias do
primeiro FAD a todos os outros FADs).
Estes ndices so submetidos a um teste de permutao, onde todas as datas so
redistribudas aleatoriamente 1000 vezes entre os diferentes txons. A proporo de
permutaes onde o ndice recalculado excede o ndice original fornecida. Se pequena
(e.g. p<0.05), isso indica um desvio estaticamente significativo da hiptese nula de no
haver congruncias entre o cladograma e a estratigrafia (em outras palavras, a
congruncia significativa). As probabilidades de permutao de RCI e GER so iguais
para qualquer conjunto de permutaes, j que so baseadas no mesmo valor de MIG.
Referncias
Benton, M.J. & G.W. Storrs. 1994. Testing the quality of the fossil record: paleontological
knowledge is improving. Geology 22:111-114.
Farris, J.S. 1989. The retention index and the rescaled consistency index. Cladistics 5:417-419.
Huelsenbeck, J.P. 1994. Comparing the stratigraphic record to estimates of phylogeny.
Paleobiology 20:470-483.
Kitching, I.J., P.L. Forey, C.J. Humphries & D.M. Williams. 1998. Cladistics. Oxford University
Press.
Wills, M.A. 1999. The gap excess ratio, randomization tests, and the goodness of fit of trees to
stratigraphy. Systematic Biology 48:559-580.
187