Documente Academic
Documente Profesional
Documente Cultură
So Paulo
Edio do Autor
2014
Sumrio
Alguns usos possveis de ferramentas quantitativas.............................................................................5
Alguns dos possveis usos de ferramentas quantitativas.................................................................7
Coleta de dados e quantificao de variveis................................................................................19
Organizando os dados coletados....................................................................................................25
Ferramentas de apresentao dos dados e a estatstica observacional................................................32
Escolha e produo de grficos.....................................................................................................32
Grfico de Pizza.............................................................................................................................38
Grficos de Barras e Colunas.........................................................................................................42
Grfico de linhas............................................................................................................................43
Grfico de Disperso X-Y..............................................................................................................45
Estatstica observacional................................................................................................................47
Mdia.............................................................................................................................................48
Moda..............................................................................................................................................52
Mediana, quartil, e percentil..........................................................................................................53
Proporo.......................................................................................................................................54
Frequncia......................................................................................................................................55
ndices............................................................................................................................................56
Interpolao pela progresso.........................................................................................................60
Projeo da proporo...................................................................................................................64
Alguns tpicos de estatstica Inferencial............................................................................................68
Teste de Hipteses.........................................................................................................................68
Desvio padro................................................................................................................................71
Funo de densidade de probabilidade..........................................................................................72
Covarincia e Correlao...............................................................................................................78
Regresso.......................................................................................................................................80
Mtodo dos mnimos quadrados ordinrios...................................................................................80
Anlise de regresso......................................................................................................................95
Outros mtodos de clculo de regresso......................................................................................103
Uso de softwares para estatstica inferencial (Gretl)........................................................................111
Instalao......................................................................................................................................111
Preparao dos dados e variveis.................................................................................................111
Amostra Aleatria........................................................................................................................117
Distribuio de frequncia...........................................................................................................117
Mdia e desvio padro.................................................................................................................120
Densidade de probabilidade.........................................................................................................121
Matriz de correlao e grfico de disperso................................................................................123
Atualmente, muitos estudantes de histria passam sua formao inteira sem ter
contato direto com ferramentas de anlise quantitativa. comum que dados quantificados
apaream em alguns trabalhos, mas muitas vezes so apenas informaes ilustrativas. Por
vezes parece que todo trabalho do historiador, ou de outros cientistas sociais, seria deduzir
aquilo que aconteceu. Como se as cincias sociais fossem o reino do logicamente coerente, e
da imaginao.
Essa dicotomia que parece ter sido criada (embora exista muito mais na cabea de
estudantes relapsos do que na realidade) entre anlises quantitativas e qualitativas falsa.
Trata-se de uma armadilha que induz o estudante ao erro. Se o lgico no se verifica no seu
objeto de estudo, possvel que seja necessrio rever sua teoria. No adianta pular etapas, e
decretar seu acerto terico sem que haja evidncias que de fato se trata de um acerto. To
pouco se pode acreditar que, por haver coletado dados numerosos, esses dados descrevem
com perfeio a realidade. Por vezes, entre uma coleta de dados e outra pode haver
informao conflitante. E essa pode ser fruto ou de uma pesquisa viciada, ou de uma realidade
concreta.
Por exemplo, entre 1922 e 1935, o PCB sofreu constantes processos de
desorganizao, observveis pelo volume de cartas internas apontando para perda de direo
das direes regionais e nacionais. Ainda assim, o partido logrou recrutar em funo
geomtrica. Esses dados conflitantes sozinhos no explicam a realidade sem que haja um
exerccio de deduo. Nesse caso, a deduo apontava que o recrutamento crescia em funo
da atuao dos militantes de base, que continuavam a recrutar e se mobilizar, mesmo quando
sua organizao poltica estava debilitada. J a atuao da direo, teria tido dificuldades de se
adaptar e organizar o seu efetivo crescente de militantes.
Mas, ao mesmo tempo, sem verificar esses dados, jamais teramos localizado essa
contradio. O simples exerccio de deduo sobre informaes no trabalhadas pode se
mostrar deficiente.
Ora, a cincia no pode ser apenas dedutiva. Nem tudo que logicamente coerente
5
explica a realidade tal qual ela se deu. Na verdade, comum que mais do que dois modelos
consigam explicar teoricamente um mesmo processo. Tanto um modelo weberiano como um
marxista pode explicar, teoricamente, como teria se dado a industrializao no Brasil. Mas
qual explica melhor?
Da a importncia de se utilizar ferramentas inferenciais. Enquanto a deduo
buscaria a organizao e coerncia lgica para explicar os fenmenos; a inferncia depende
das repeties estatsticas como indcio do que pode ou no ter acontecido. Essa diferena
entre deduo e inferncia classicamente explicada da seguinte forma:
(a) Deduo: como a definio de cachorro de que se trata de um animal de quatro
patas, de tamanho e pelugem variada, deduzo que todo cachorro possui quatro patas,
independentemente de sua cor ou de sua pelugem.
(b) Inferncia: Observou-se na amostra de dados coletados que 99,99% dos cachorros
nasceram com quatro patas. Apenas 0,01% nasceram com um nmero diferente de
patas.
(c) Inferncia como base para deduo: Considerando que 99,99% dos cachorros nascem
com quatro patas, ao se observar um cachorro com trs, provvel que isso tenha sido
fruto de um acidente. No se poderia descartar, no entanto, a possibilidade da
existncia de uma mutao que teria levado a essa diferena.
Para um historiador, isso se refletiria em afirmaes (hipotticas) como: (a) deduo
um partido denominado de Partido Operrio que atuou na dcada de 1990 na USP, seria
composto de filhos da classe trabalhadora, ou ao menos apoiadores dessa; e (b) inferncia
observando a composio de classe dos membros do Partido Operrio, verifica-se que 40% de
seus membros tinham origem operria, enquanto os demais eram estudantes de distintas
camadas que adotaram o programa do Partido.
Como se observa, a inferncia no descarta a deduo. A observao do fenmeno
no basta. necessrio explicar o porqu de aquele fenmeno ter ocorrido. No entanto,
sempre melhor partir de estudos inferenciais, do que da imaginao frtil de cada um.
Para os historiadores isso implica em uma tomada de deciso. Trata-se de optar por
tratar a histria como uma cincia, e no apenas como uma arte. Hoje, assumir essa postura
parece estar fora de moda. Da, talvez, o motivo pelo qual muitos historiadores tm deixado
Mas, para os que leem obras de histria, muito clara a diferena entre ser
convencido por que um argumento lgico, e o ser por que os dados apresentados apontam
para aquela informao. Uma coisa escutar que no perodo da Segunda Guerra o Brasil teria
encontrado um cenrio de fortalecimento das exportaes, ao passo que havia escassez para
importao de produtos. Isso pode ser contrariado por argumentos distintos. Por exemplo,
algum poderia afirmar que como a Europa estava em guerra, as exportaes brasileiras
teriam sido prejudicadas.
Outra coisa ler em Celso Furtado, na obra Formao Econmica Brasileira,1 a
tabela da evoluo do intercambio externo brasileiro. Nela ele apontou o crescimento de 100
para 131 na capacidade para importar, entre 1937 e 1945, e de 100 para 90,3 no quantum das
importaes. Esse dado indicaria que teria havido sim melhoria para o setor exportador do
Brasil, e que isso no teria resultado em abundncia nas importaes.
Alguns dos possveis usos de ferramentas quantitativas.
Entre reconhecer a importncia dos dados, e saber trabalh-los, h uma grande
diferena. surpreendente a quantidade de pessoas que ingressam na ps-graduao sabendo
que precisam coletar e trabalhar informaes quantitativas, mas no possuem a mnima ideia
de como fazer isso. Muitas vezes, nem sabem como escolher a forma que os dados devem ser
trabalhados para que ganhem o sentido que pretendem. Isso ocorre mesmo no curso de
Histria Econmica da USP.
Isso um pouco consequncia da falta de repertrio dos pesquisadores. As vezes,
mesmo lendo obras que apresentam formas distintas de trabalho dos dados, por possuir um
olhar destreinado um estudante pode no absorver a ferramenta metodolgica que lhe foi
apresentada. Caberia aos professores ajudar a despertar esse olhar, mas apenas o estudante
pode tomar a deciso de prestar ateno naquilo que escuta e no que l.
Um mesmo conjunto de dados pode ser apresentado, e trabalhado, de formas
diferentes. Ainda, conjuntos diferentes exigem formas distintas de trabalho. Por exemplo, no
1
FURTADO, Celso. Formao Econmica do Brasil. So Paulo: Companhia Editora Nacional, 1970. Pg. 207
se processa de forma idntica os seguintes dados: (a) valores da balana comercial; e (b)
nmero de usinas eltricas em um pas. Ainda, os valores da balana comercial poderiam ser
trabalhados na forma (i) bruta, ou (ii) em forma de ndice.
No intuito de auxiliar a criao de repertrio, sero apresentados como alguns
autores consagrados utilizaram ferramentas quantitativas para auxiliar a investigao de
processos histricos. Com esses exemplos, sero exemplificados: (a) apresentao de dados
brutos; (b) apresentao de dados em ndice; (c) peso relativo; (d) apresentao de dados
divididos em classes (em srie histrica e por perodo); (e) dados em ndice derivado; (f)
mapa temtico; (g) equao de regresso linear; e (h) anlise de resduos e perfil cclico.
(a) Apresentao de dados brutos
Heitor Ferreira Lima, na obra Formao Industrial do Brasil2, apresentou uma tabela
com dados da balana comercial do Brasil, de 1796 a 1807. Os valores apresentados se
tratavam de valores correntes, em mil ris. Ou seja, Ferreira Lima apresentou quanto o Brasil
exportou e importou em mil ris em cada ano. Descrito dessa forma, no possvel detectar se
as variaes das exportaes e importaes oscilaram por mudana no volume comerciado, ou
por conta do preo do que foi comerciado. Sem conhecer previamente o quanto valia um mil
ris em dlares, e qual foi a inflao existente no perodo, pode se tornar difcil afirmar com
exatido se as exportaes foram ou no volumosas. No entanto, essa apresentao trs a
vantagem de (a) expressar as variaes que ocorreram em termos monetrios correntes; e (b)
no causar prejuzo para a anlise dos termos de trocas nominais (exportao/importao).
Note-se que a tabela de Heitor possui dados organizados ano a ano.
(b) Apresentao de dados em ndice.
Na obra Estado e Planejamento Econmico no Brasil (1930 1970), Octavio Ianni
apresentou uma tabela de ndice do Produto Real de Alguns Setores3. A tabela contm dados
em valores reais, ou seja, deflacionados. Descritos dessa forma, a oscilao decorrente em
variao no preo foi eliminada. Ainda, os dados foram indexados a partir de um ano ndice
(1939=100). Dessa forma, o que possvel observar na tabela a posio relativa dos
diferentes setores em relao ao valor agregado que representavam no ano de 1939. Os
2
3
LIMA, Heitor Ferreira. Formao Industrial do Brasil. Rio de Janeiro: Fundo de Cultura, 1961. Pg. 294.
IANNI, Octavio. Estado e Planejamento Econmico no Brasil. Rio de Janeiro: Edio Brasileira, 1980. Pg.
157.
valores apresentados dessa forma prioriza a oscilao real de um ano para o outro. Dessa
forma, se torna mais fcil observar a magnitude das oscilaes. No entanto, dificulta a anlise
do peso proporcional de cada setor em relao ao outro. Por exemplo, de 1939 para 1940, o
valor agregado pela indstria teria crescido 5%, e o do transporte teria crescido 7%. Mas qual
dos dois setores teria apresentado maior valor agregado? Descrito dessa forma, no tem como
saber.
MARTINS, Carlos Estevam. Estado e Capitalismo no Brasil. So Paulo, HUCITEC, 1977. Pg. 102.
PAGANO, Athos. Lies de Estatstica. So Paulo: Prefeitura de So Paulo, 1943. Pg. 103-104.
10
vantagem de permitir mensurar tanto a magnitude como o peso relativo de cada etnia. A
desvantagem que seria necessrio mltiplos grficos para captar a variao das variveis ao
longo do tempo. Esse tipo de apresentao permite adquirir uma noo geral do processo, mas
no auxilia a compreender como esse processo de deu ao longo do tempo.
Uma alternativa utilizada por Edgard Carone, na obra A Repblica Velha, pode ser
encontrada na tabela Distribuio regional das usinas eltricas segundo a poca de fundao
e a fora dos motores empregados6. Nessa tabela, Carone disps os dados ordenando-os por
6
CARONE, Edgard. A Repblica Velha. Vol 1. So Paulo: DIFEL, 1970. Pg. 401.
11
regio, perodo e potncia. Organizado dessa forma, tornou-se possvel verificar a mudana
ocorrida durante diferentes entrechos. Ainda, tornou-se possvel verificar a importncia
adquirida em cada perodo em nmero de usinas, e potncia das mesmas. A vantagem
evidente que se adquire um quadro mais completo. A desvantagem a dificuldade de leitura
dessa tabela. Carone contornou esse problema disponibilizando esses dados em diferentes
tabelas.
FURTADO, Celso. Formao Econmica do Brasil. So Paulo: Companhia Editora Nacional, 1970. Pg. 207
12
sobre a evoluo do intercmbio externo nos anos da Segunda Guerra Mundial, Celso
apresentou a capacidade para importar. Essa capacidade um valor abstrato adquirido atravs
da seguinte relao: divide-se o ndice dos preos da exportao pelo ndice do preo das
importaes. O resultado multiplicado por cem, atingindo-se o ndice da relao dos preos.
Multiplica-se o centsimo dessa relao pelo centsimo do ndice do quantum das
exportaes. O resultado deve ser multiplicado por cem. Dessa forma atinge-se um ndice
abstrato denominado Capacidade para Importar. Nesse caso especfico, o novo ndice mede o
ganho ou perda da capacidade de importar em relao a um ano de comparao (1937).
Um cientista social que tenha conhecimento de teoria pode criar esse tipo de ndice
atravs da deduo lgica. Assim, a teoria e a deduo podem auxiliar a investigao
inferencial. Se o pesquisador souber o que deseja descobrir, ele pode dividir, multiplicar,
subtrair, etc. para gerar ndices abstratos que descrevam algo sobre o objeto de anlise. Por
exemplo, possvel dividir o nmero de matrias sobre assuntos trabalhistas pelo nmero de
matrias sobre assuntos de poltica geral de um jornal. Com isso, adquiriramos um ndice das
questes sindicais do jornal. Esse nos daria uma noo se um jornal sindical teria abordado
mais temas trabalhistas ou temas da poltica em geral. Ainda, observar-se-ia atravs desse
procedimento se o jornal se tornou mais ou menos preocupado com a poltica geral ao longo
de dado perodo.
A vantagem desse tipo de procedimento que se torna possvel descobrir processos
que no so facilmente verificados a primeiro olhar. A desvantagem que ao criar ndices
desse tipo estamos modificando o dado original. Trata-se portanto de uma abstrao que
depende de pressupostos metodolgicos.
13
BRAUDEL, Fernand. Civilizao Material, Economia e Capitalismo, Sculos XV XVIII. Vol.2. So Paulo:
Martins Fontes, 1998.
14
15
SCHINCARIOL, Vitor Eduardo. Crescimento Econmico no Brasil, 2003 2010. So Paulo: LCTE Editora,
2012. Pg. 138.
16
17
sua variao no tempo. Crises no consumo na verdade indicariam maior tendncia a poupar
no perodo em questo.
Outra desvantagem, que assusta os mais preguiosos, que esse tipo de anlise
trabalhoso. Depende de uma coleta adequada dos dados, de uma organizao adequada. De
uma regresso linear feita de forma correta. Da anlise dos resultados da regresso (para
verificar se o resultado da mesma passvel de anlise dos resduos, ou se geraria resultado
viciado). E por ltimo, do estudo rigoroso parra explicar as oscilaes observadas.
Mas, atualmente os pesquisadores no podem mais utilizar a desculpa que estudos
como esse demanda muito tempo e muita verba. Algumas dcadas atrs, um estudante
precisaria fazer todos os clculos a mo. Isso demandava um tempo enorme. Por vezes,
passava-se uma semana inteira para calcular e conferir uma nica equao. Hoje, com o
auxlio de softwares modernos, um pesquisador pode sozinho calcular dezenas de equaes
em poucos dias.
18
PIB; e (c) interpolar os dados para o PIB atravs do prprio PIB; (d) calcula-se o PIB atravs
das ps e do caf; e (e) atribui-se peso para cada uma das formas de calcular o PIB, e se retira
uma mdia ponderada. Essa forma ser vista com mais detalhe na segunda aula. No entanto,
importante que o pesquisador saiba que mesmo que no se tenha o dado completo, possvel
atingir estimativas verossmeis atravs dos dados que possumos.
Ano
1910
1911
1912
1913
1914
1915
1916
1917
1918
PIB
100
180
400
Ps importadas
30
36
40
44
50
62
73
88
110
Caf exportado
25
29
33
38
44
57
68
72
95
Variveis categricas.
Nem toda pesquisa quantitativa lida puramente com variveis quantitativas. Por
vezes, o pesquisador precisa lidar com variveis categricas, ou qualitativas. Por exemplo, um
estudo sobre composio dos habitantes de um bairro pelo segmento social ao qual pertencem
(segmento A;B;C;D); ou a composio de um partido pela profisso dos membros (operrio;
arteso; comerciante; trabalhador liberal; etc.). No primeiro caso, trata-se de variveis
ordinais, e no segundo de variveis nominais.
Existem diferentes situaes em que esse tipo de varivel pode influir em estudos
quantitativos. Um exemplo clssico o estudo de qual a influncia da religio de uma famlia
em sua propenso a consumir. Dessa forma, as famlias so classificadas pelas variveis
quantitativas Renda e Consumo, e pela categoria Religio. Existem formas na estatstica
inferencial que permitem o clculo desse tipo de problema.
Outra forma de lidar com as variveis categricas dividi-la em variveis
quantitativas. Por exemplo, quantos moradores do segmento A vivem no baixo Y; quantos do
segmento B; quantos do segmento C; quantos do segmento D. Essa contagem pode ser feita
manualmente, ou atravs do uso de softwares.
22
Famlia
f.1
f.2
f.3
f.4
f.5
f.6
f.7
Religio
Catlica
Protestante
Protestante
Judia
Candombl
Religio
Catlica
Catlica
Judia
Protestante
Protestante
Catlica
Candombl
Nmero
3
1
1
1
1
Partido
PCS
PCS
PK
PK
PCS
PCS
PU
Partido
PCS
PCS
PK
PK
PU
anotar ou no livro, ou em uma ficha a parte, que conceito caracteriza cada pargrafo da obra,
ou cada passagem.
Exemplo de anotao
Para que isso seja possvel, o estudante ter que recorrer ao fichamento analtico. Esse
Tema
pargrafo:
palavras chaves ligadas a esses conceitos. Com esse intuito, interessante que o
Mtodo
do
Exemplo de ficha
Ficha do Conceito: Mtodo
Palavras em destaque
Conceitos
Anlise
Porcentagem
Pginas
Pg. 19; pg. 19; pg32; pg. 34; pg. 44; pg. N.
Pg. 19; pg. 44; pg. N.
Pg. 3; 5; 8; 11; 15; 22; 28; 36; n.
Somente no final do estudo essas fichas devero ser organizadas na forma de tabela.
Com esse tipo de estudo possvel verificar quanto da obra dedicada a um dado conceito.
Pode-se verificar tambm que termos aparecem, e ligados a que conceitos. Segue um exemplo
de resultado hipottico organizado na forma de tabela:
Termos
Conceitos
Anlise
Porcentagem
Total
Conceitos
Mtodo
Lgica
Total
Nmero
menes
70
67
34
141
76
de
Conceito chave
Nmero de pargrafos
Mtodo
128
Teoria
80
49
22
147
Aps a coleta e organizao dos dados, torna-se possvel mensurar o que antes era
apenas uma impresso, ou opinio. Por exemplo, para esse autor hipottico, as escolhas
conceituais estariam mais ligadas linha terica do que ao mtodo de trabalho. Ainda, o
prprio mtodo estaria subordinado teoria. No entanto, dito isso, o autor teria se dedicado
mais discusso do mtodo do que da teoria. Isso ficaria claro pelo fato dos pargrafos sobre
teoria representarem apenas 62,5% dos pargrafos sobre mtodo.
24
25
Data
(1)
(2)
Ano
1990
1991
1992
agregado
Ti
1
2
3
pela
agregado
pelos
e
do
valor
Agregado
indstria.
servios
(1990=100)
comrcio.
(1990=100)
(3)
(1990=100)
(5)
indInd
100
105
110
(4)
Indserv
100
110
120
indagro
100
98
102
pela
agropecuria.
de
Amostra
referncia
Religio
Segmento
(2)
(1)
de
Segmento
Partido
renda
de
preferncia
(3)
abreviado
(5)
renda
Famlia
Famlia do Tio
ni
1
Religio
Catlica
Renda
At 2 salrios
(4)
nrend
Ate2
Partido
PJ
Famlia
Catlica
mnimos
De 2 a
2a5
PZ
2a5
PJ
do
Pedro
Famlia
Zizao
de
salrios
do
Budista
mnimos.
De 2 a
salrios
mnimos
Caso esteja se anotando em papel, deve-se evitar colocar mais do que uma tabela por
pgina. As pginas devem ser numeradas. Caso o trabalho esteja sendo feito direto no
LibreOffice Calc, ou software similar (como o Excel), deve-se evitar mais do que duas ou trs
tabelas por planilha, mas de preferncia guardando apenas uma tabela por planilha. Tabelas
que compartilhem a mesma planilha, ou folha, devem ter temas similares. Tanto a folha como
26
a planilha deve ser nomeada de forma que fique claro o contedo disposto ali.
27
pastas
de
planilha
devem
ser
organizadas
em
arquivos
prprios.
Preferencialmente, o arquivo deve possuir um tema geral. Todas as pastas que se encaixarem
dentro desse tema podem ser colocadas nesse arquivo. importante que se evite colocar
pastas demasiadamente distintas em um mesmo arquivo. Ajuda muito pouco criar um arquivo
denominado pesquisa, e jogar todas as pastas produzidas durante uma ps-graduao dentro
desse arquivo.
Os documentos em plataforma fsica (papel, pastas de plstico) podem ser guardados
em pastas de arquivo morto (que so vendidas em papelaria). Os documentos virtuais podem
ser guardados em pastas do seu sistema operacional com denominao afim. prefervel ter
arquivos menores significativos a arquivos muito grandes que dificultem a consulta. Dessa
forma, prefervel ter um arquivo de balano de pagamentos e outro de balana comercial, do
que um s arquivo com noventa pastas dentro dele.
28
Pasta
Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.
Consumo
agregado
trimestral. 1999 - 2012
Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.
real
Arquivo:
Contas
Nacionais.
Pasta: Agregados.
Arquivo:
Contas
Nacionais.
Pasta: Agregados
Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.
Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.
Variveis
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores nominais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, agropecuria, servios,
indstria. Valores reais.
PIB, agropecuria, servios,
indstria. Valores nominais.
PIB, agropecuria, servios,
indstria. Valores reais.
29
Essa forma de organizar prioriza a localizao das tabelas, em detrimento das variveis. Uma
alternativa seria produzir um ndice remissivo das variveis.
ndice de tabelas para pesquisa: Contas Nacionais e Setor Externo.
Planilha
Pasta
Cn trimestral
Consumo
agregado
trimestral. 1999 - 2012
Cn trimestral
real
Agregados
Agregados
Cn trimestral
Cn trimestral
Variveis
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores nominais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, agropecuria, servios,
indstria. Valores reais.
PIB, agropecuria, servios,
indstria. Valores nominais.
PIB, agropecuria, servios,
indstria. Valores reais.
O exemplo acima uma verso da mesma tabela, s que adaptada para um arquivo
virtual. Ao invs de descrever onde a tabela se encontra fisicamente, a coluna Pasta contm
um hiperlink para a pasta em questo. No LibreOffice Writer, e programas similares,
bastante fcil criar hyperlinks como esses. Basta selecionar a palavra desejada e selecionar
inserir na barra de ferramenta. . Depois, s selecionar o item hyperlink. O ltimo passo
selecionar o arquivo destino do hyperlink.
30
Esse procedimento descrito em passos ficaria: (1) Monta-se o ndice; (2) selecionase, com o boto esquerdo do mouse, o nome da pasta onde foi guardada a tabela; (3) clica-se
com o boto esquerdo do mouse na aba Inserir; (4) seleciona-se o item Hyperlink; (5) por
ltimo, seleciona-se o arquivo desejado, e clique no OK.
31
Aps a coleta e a organizao inicial dos dados, o pesquisador se depara com a tarefa
de processar esses dados. Mesmo quando se pretende apresentar os dados sem qualquer
trabalho estatstico prvio, um pesquisador precisa decidir qual a forma mais adequada de
apresentar os dados. Neste captulo trataremos sobre (1) escolha e produo de grficos no
LibreOffice Calc (e similares); e (2) a estatstica observacional.
Escolha e produo de grficos.
A apresentao grfica dos dados permite visualizar mais facilmente aquilo que
estava antes descrito apenas na forma numrica. Alm de facilitar o trabalho de interpretao
do pesquisador, uma tima forma de apresentar sua pesquisa ao leitor, que passa a poder
acompanhar mais facilmente o raciocnio do autor.
Nessa seo sero apresentados os tipos de grfico: (a) de pizza; (b) barras e colunas;
(c) de linha; e (d) de disperso. Cada um desses possui potencialidades distintas. Abordaremos
apenas algumas dessas potencialidades.
32
33
34
Edio do grfico.
Ao gerar um grfico, pode ser que seja necessrio ajustar alguns aspectos dele para
que se tenha um grfico mais claro. Normalmente, existem trs tipos de caractersticas que
precisam ser editadas para que se obtenha um grfico melhor: escala do eixo Y; posio do
eixo X; e cor e forma da representao grfica das variveis.
Para editar o grfico recm criado, clique duas vezes nele. Isso permitir alterar as
informaes contidas no grfico. Em seguida, selecione o elemento que se deseja modifica
clicando duas vezes nele. Por exemplo, caso se deseje alterar a escala do eixo Y, basta clicar
duas vezes no eixo Y.
Ao clicar duas vezes no eixo Y, ser aberta uma janela de edio do eixo. Para alterar
a escala, selecione a aba escala. Um dos problemas mais comuns com a escala automtica
do grfico que os valores mnimos e os mximos podem ser demasiadamente grandes. Isso
gera um grfico em que as oscilaes dos valores se torna de difcil leitura. Para corrigir esse
problema, basta editar manualmente os valores mnimos e mximo do grfico.
35
36
Por ltimo, outro problema que pode ser necessrio resolver quanto a cor e forma
da representao grfica das variveis. Grficos coloridos podem ser mais fceis de se ler.
Mas nem sempre a impresso colorida est a disposio dos estudantes. Por isso, deve-se dar
prioridade a grficos em preto e branco, e tons de cinza.
Para alterar a representao de uma varivel, basta clicar duas vezes na linha (ou
coluna) da varivel a ser alterada, uma por uma. Na janela que abrir, selecione a aba ao
linha (ou rea) e altere a cor, certificando-se que ela esteja na gama dos tons de cinza ou
preto. Caso j haja uma varivel em preto, e outra em cinza, altere o item estilo, para
tracejado, por exemplo.
37
Grfico de Pizza.
O grfico de Pizza serve para descrever a participao proporcional de diversas
variveis dentro de um universo amostral. Dessa forma, ele til para descobrir a importncia
relativa geral das categorias que compem um dado estudo.
Por exemplo, pode-se descrever com ele a relao dos estudantes do curso
introduo s ferramentas quantitativas pelo curso de origem. Na prtica, trata-se do melhor
grfico para expressar esse tipo de informao. No entanto, caso quisssemos inserir
informaes adicionais, como nmero mdio de presena por curso de origem, o grfico de
pizza perde sua utilidade.
Para produzir o grfico de Pizza no LibreOffice Calc, os dados devem estar
organizados da seguinte forma: na primeira coluna, insira o nome das categorias. Na segunda,
insira os valores para cada uma das categorias.
Cursos de origem
Histria
Geografia
Cincias Sociais
Outros
Nmero de estudantes
23
18
5
4
selecione a aba pizza. Nela, escolha o item de grfico de pizza simples. Evite utilizar efeitos
grficos (como efeito 3D), que embora paream bonitos, podem atrapalhar a interpretao do
grfico. Realize o procedimento normal para a criao de grficos, conforme j discutido em
seo anterior.
Ser gerado um grfico de pizza simples e colorido. Para modificar a cor e formato
das reas que representam cada uma das variveis, deve-se clicar duas vezes na rea a ser
editada (por exemplo, clicar duas vezes na rea que representa a varivel estudantes de
Histria). Na janela que aparecer, selecione a aba rea. No item preenchimento, haver
uma caixa, que determinar se a rea ser representada por uma cor ou por uma hachura. Ao
selecionar um dos dois, ser possvel modificar a cor, ou o estilo, do preenchimento.
39
40
Uma nova janela aparecer. Nela, selecione os itens mostrar valor como nmero e
mostrar categoria. Caso seja interesse do pesquisador, ao invs de mostrar os valores brutos
de cada categoria, mostrar o valor relativo em porcentagem, basta selecionar o item Mostrar
valor como porcentagem. Na caixa posicionamento, certifique-se que esteja selecionado a
opo Fora. No final do procedimento, ter se criado um grfico fcil de se ler, com reas
bem demarcadas e valores de cada categoria a mostra.
41
Histria 23
Geografia 18
Histria
Geografia
Cincias Sociais
Outros
1930
1940
1950
Arteso
50
10
Operrio
25
40
30
25
Comerciante
15
30
45
40
Profissional liberal
10
20
25
35
42
Porcentagem (%)
50
1920
1930
1940
1950
40
30
20
10
0
Arteso
Operrio
Comerciante
Profissional liberal
Profisso
Grfico de linhas.
O grfico de linhas ideal para verificar a relao entre duas variveis ao longo do
tempo, ao distribudo pelas amostras. Esse tipo de grfico se caracteriza por distribuir as
observaes pontos equidistantes no eixo das abcissas, mas com distribuio em escala nos
eixos das ordenadas. Dessa forma, a apresentao do grfico se faz pela ordem de coleta dos
dados.
Esse tipo de grfico til para descrever o movimento do PIB de um pas ao longo
do tempo, a evoluo da expectativa de vida durante os anos em anlise, etc. Para esse tipo de
grfico, a tabela deve estar organizada da seguinte forma: Na primeira linha, coloque o nome
das variveis. Na primeira coluna, coloque os valores da varivel ndice. Preencha o restante
43
FBKr
1999
897686,37
332143,9587
2000
1013616,03
354765,6114
2001
1143647,74
411713,1865
2002
1262374,30
479702,2348
2003
1462059,30
599444,3123
2004
1840079,88
791234,3491
2005
2256902,59
947899,0881
2006
2893657,54
1244272,744
2007
4202975,65
1765249,772
2008
6422654,37
2825967,924
2009
7166114,35
3439734,887
2010
9223538,17
4427298,321
2011
12753693,04
6121772,658
44
Isso far com que seu grfico de linhas ganhe escala dupla. Ser necessrio inserir o
ttulo do eixo Y secundrio manualmente. Para isso, clique com o boto direito do mouse na
escala do eixo Y secundrio e selecione inserir ttulo do eixo. Surgir uma caixa de texto,
onde deve-se digitar o ttulo do eixo com as informaes da escala secundria.
PIBr
898
1014
1144
1262
1462
770
780
790
798
802
808
812
817
1840
2257
2894
4203
6423
7166
9224
12754
46
14000000
12000000
10000000
8000000
6000000
4000000
2000000
0
700
720
740
760
780
800
820
840
Estatstica observacional.
Chama-se de estatstica observacional (ou descritiva) aquela voltada para descrio
geral das variveis. Com isso, coloca-se em evidncia alguns dos fenmenos observados na
realidade. Tem-se que, aps a organizao dos dados, o primeiro passo coloca-los na forma
de grfico, para facilitar a observao. Em seguida, retira-se da caractersticas de podem ser
ressaltadas pela estatstica observacional.
Neste captulo sero discutidas algumas ferramentas essenciais, tais como as
caractersticas de medida (mdia, mediana, moda, quartil, e percentil), de comparao
(proporo, frequncia, e ndices), e previso (interpolao pela progresso, e projeo da
proporo).
Mdia geomtrica
A mdia geomtrica e o ponto mdio de uma progresso geomtrica. Por exemplo,
caso desejssemos calcular a mdia do PIB anual entre um ano e outro, essa seria uma
ferramenta bastante adequada. A mdia geomtrica pode ser algebricamente representada pelo
smbolo G, ou pela expresso: G(x).
A frmula para calcular G(x) : G(x)= (X1*X2*Xn)(1/n). No LibreOffice Calc, pode
ser calculado pela frmula: =([coordenada da primeira observao] * [coordenada da
segunda observao] * (...) [coordenada da ensima observao]) ^ (1/ [nmero de
observaes]).
Por exemplo, se em dezembro de 2000 o PIB anual de Lugar Nenhum tivesse sido
100, e em dezembro 2001, tivesse sido 130, qual teria sido o PIB a mdia do PIB anual de
Lugar Nenhum no ano? Para isso calculamos a mdia geomtrica: (100*130)^(1/2) = 114,02.
Mdia Harmnica
A mdia harmnica o ponto mdio de uma progresso harmnica. A progresso
harmnica se caracteriza por ser o inverso da progresso aritmtica. Por exemplo: (1/2), (1/3),
(1/4), (1/5), (...) (1/n).
A mdia harmnica pode ser representada pelo smbolo H, e algebricamente pode ser
expressa por H(Xi). A frmula da mdia harmnica : H(Xi) = (n(X1*X2*Xn)) /
(X1+X2+Xn) .(No LibreOffice Calc pode ser calculado pela frmula: = ([nmero de
observaes] * ([coordenada da primeira observao] * [coordenada da segunda observao]
* [coordenada da ensima observao])) / ([coordenada da primeira observao] +
[coordenada da segunda observao] + [coordenada da ensima observao]).
Um exemplo de aplicao para a mdia harmnica o calculo de qual teria sido a
mdia do saldo populacional (diferena entre a populao existente no censo anterior e o
49
novo) entre um censo e outro. Por exemplo: imaginemos que no pas Cavercia foi feito um
censo em 1980 e outro em 1990. Em 1980, o saldo populacional era de 120. Em 1990, o saldo
teria sido 160. Qual teria sido a mdia do saldo populacional decenal para o perodo?
Calculamos: (2*(120*160)) / (120 + 160) = 2*(19200) / (280) = 38400 / 280 = 137,143.
Dessa forma, a mdia do saldo populacional decenal no perodo teria sido 137,143 pessoas.
Mdia mvel
A mdia mvel uma srie de mdias parciais de uma amostra. A mdia seguinte que
abandona a primeira amostra da mdia anterior, e abarca uma amostra adiante. O
procedimento segue at o final da amostragem. uma ferramenta utilizada para construir uma
linha de tendncia de mdia mvel em sries histricas. Essa linha serve para verificar
melhora ou piora na mdia mvel, e anos de desempenho acima da mdia mvel e
desempenho inferior a ela. Trata-se de um instrumento observacional sem alta preciso, mas
que mais preciso do que a mdia simples.
Algebricamente, a mdia aritmtica mvel pode ser representada como E m(nsXi).
Assim, 14Em(Xi) = (X1+X2+X3+X4) / 4; 25Em(Xi)= (X2+X3+X4+X5); NsEm(Xi) = (Xin + (...)
Xis) / (N-S+1). No LibreOffice Calc pode ser calculado pela frmula: = ([coordenada da
ensima observao] + [coordenada da ensima mais um observao] + (...) [coordenada da
esssima observao]) / ([S-N]+1). Procedimentos similares podem ser feitos para calcular a
mdia geomtrica mvel e a mdia harmnica mvel. Bastando reproduzir a frmula
algbrica da mdia, mas partindo da amostra S.
Imaginemos que desejamos calcular a mdia mvel tri-anual do PIB do pas
Manguetnia. Primeiro, montamos uma tabela com os valores do PIB de Manguetnia entre
os anos 2001 e 2013. Depois comeamos a calcular a mdia mvel. Como a amostra comea
em 2001, a primeira mdia mvel que poderemos apresentar ser para o trinio 2001 a 2003.
A segunda para o trinio 2002 a 2004. E assim por diante. No final, teremos a seguinte mdia
mvel. Note que, por se tratar do PIB, foi calculada a mdia geomtrica.
Ano
(a)
2001
2002
PIB de
Manguetnia
(b)
100
110
50
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
125
140
150
170
190
205
220
240
265
295
320
124,40
137,95
152,83
169,21
187,78
204,63
221,21
240,97
265,72
292,46
-
Mdia Ponderada
A mdia ponderada caracteriza-se pela atribuio de pesos para os valores
observados na amostra. Assim, os valores so multiplicados pelo seu peso, de iniciar o clculo
da mdia. Ainda, o nmero de observaes calculado pelo peso das amostras, e no apenas
pelo nmero de amostras. O mais comum que a mdia ponderada seja aritmtica, mas essa
ferramenta pode ser aplicada para qualquer tipo de mdia.
A mdia aritmtica ponderada pode ser descrita como E p(Xi), e sua formula :
Ep(Xi)=
( ( P 1 X 1 ) + ( P 2 X 2 ) + ( ... ) ( Pn Xn ) )
. No LibreOffice Calc, a frmula para o
( P 1+ P 2+ ( ... ) PN ) .
dividir pelo nmero de matrias. Mas isso no estaria certo. comum que nas universidades
haja matrias de menor carga e matrias de maior carga de estudo. Em geral, isso descrito
pelo nmero de crditos de cada uma. Dessa forma, ao invs de calcular a mdia a partir das
matrias, multiplicamos a nota de cada uma pelo nmero de crditos. Somam-se as notas
multiplicadas. Por ltimo, divide-se o total das notas multiplicadas pelo total de crditos das
matrias.
Matria
(1)
a
B
C
D
E
Final
Nota (2)
7
8
9
9
5
7,6
Crditos
(3)
4
4
6
5
4
23
Nota total
(4)=(2)*(3)
28
32
54
45
20
179
Mdia ponderada
(5)=(4)/(3)
7
8
9
9
5
7,78
Moda
A moda uma medida de frequncia. Ela a observao mais frequente em uma
amostragem. Para atingi-la, possvel que os valores das observaes tenham que ser
divididos em classe. Isso feito atravs do agrupamento em torno de pontos mdios dos
valores. Por exemplo, se tivssemos as observaes: (1); (5); (6); (7); (11); (13); (14); (17);
(19); (20); (22); (25); (27); (28); (29); (30). Um procedimento seria dividir a amostragem em
torno dos pontos: 0;10;20; 30. Dessa forma teramos as classes: 0 at 5; 5 at 10; 15 at 20; 20
at 25; 25 at 30. O valor exato sempre ser includo na primeira classe em que aparece. No
exemplo, a classe modal ser a de 25 a 30.
2
2
3
3
2
4
52
Valor (B)
1
5
6
7
11
13
14
17
19
20
22
25
27
28
29
30
calcular a renda da metade mais pobre; (c) calcular a renda do quartil mais rico.
A (a) mdia salarial de Manguetnia seria 283 dinheiros. Mas, a (b) mediana seria
127. Isso significaria que metade da populao de Manguetnia receberia at 127 dinheiros.
J o quartil mais rico (os 25% mais ricos) receberiam mais do que 523 dinheiros.
Renda pessoal de Manguetnia
Primeiro quartil
46
Mediana
127
Terceiro quartil
523
ltimo quartil
961
Mdia= 283
Proporo.
A proporo uma medida de comparao entre dois valores. muito utilizado para
medir a relao entre uma parte de uma amostra e o todo dela. Pode ser utilizado para
comparar um valor precedente com o procedente.
A proporo atingida pela diviso do valor a ser investigado pelo valor com o qual
se deseja comparar. Assim, a frmula da proporo Ur=Xi/Yi. No LibreOffice Calc, a
formula a ser utilizada : = [coordenada da observao investigada] / [coordenada da
observao com qual se compara].
Caso se multiplique por cem, teremos a proporo em porcentagem: 100 * (Xi/Yi).
Por exemplo, caso se deseje descobrir a proporo dos artigos sobre sabotagem no jornal
Provncia de Manguetnia, s dividir o nmero de artigos sobre Sabotagem pelo total de
artigos.
A proporo pode ser feita em comparao com uma amostra anterior (Xi/Xi -1). Por
exemplo, se dividir o PIB anual de Manguetnia de 2012, pelo de 2011, tem-se:
(295/265)=1,1132. Ou seja, o PIB de 2012 foi 1,1132 vezes maior do que o de 2011. Chamase essa proporo de taxa de crescimento, que o nmero por qual se deve multiplicar a
amostra anterior para atingir a seguinte.
54
mesmo
exemplo
de
Manguetnia,
teramos:
((296-265)
265)*100
Ocorrncias (B)
0a5
5 a 10
10 a 15
15 a 20
20 a 25
25 a 30
25
30,
na
amostragem
Hipottica
acima,
pode
ser
calculada:
4/
Frequncia
0,25
0,2
0,15
0,1
0,05
0
0a5
5 a 10
10 a 15
15 a 20
20 a 25
25 a 30
Classe
55
ndice de indexao.
Os ndices de indexao so utilizados para evidenciar o movimento relativo das
56
Ano
(A)
PIB de
Manguetnia
(B)
2001
2002
100
110
2003
125
0,74
2004
140
0,82
2005
150
0,88
2006
170
1,00
2007
190
1,12
2008
205
1,21
2009
220
1,29
2010
240
1,41
2011
265
1,56
2012
295
1,74
2013
320
1,88
ndice do PIB de
Manguetnia (2006=1)
(C)
0,59
0,65
inflao (em geral o deflator implcito do PIB); ou (ii) conhecer os valores reais de uma das
variveis macroeconmicas (em geral o PIB). Discutiremos os dois procedimentos.
No caso (i), quando se sabe o deflator implcito do PIB (medida de inflao), o
procedimento para gerar o ndice deve ser feito em trs etapas. Primeiro, deve-se escolher o
ano ndex. Monte uma tabela com o PIB e o deflator implcito do PIB. Crie uma coluna onde
ser inscrito o ndice do deflator do PIB. Para o ano ndex, o ndice do deflator ser 1 ou 100.
Para os anos anteriores, o ndice do deflator deve ser calculado pela formula de
inflacionamento: Xi=(Xi+1) *(1+(Dfi+1/100)), onde Xi a amostra do ano, e Df i o deflator do
ano. Por exemplo, se desejarmos inflacionar o PIB do ano de 2000, utilizaremos o ndice do
deflator e o deflator de 2001.
Para os anos aps o ano ndex, o ndice do deflator ser calculado pela formula:
Xi=(Xi-1*100)/(100+Dfi). Preencha completamente a coluna do ndice do deflator para o
perodo a ser analisado. Em seguida bastar multiplicar o PIB nominal pelo ndice do deflator.
Esse procedimento pode ser utilizado com qualquer tipo de taxa de inflao, desde que ela
seja adequada investigao macroeconmica que se pretende realizar.
PIB de
Ano (A) Manguetnia
(Y) (B)
deflator
implcito (em
porcentagem)
(Df) (C)
ndice
do
deflator
(Xi) (D)
PIB real de
Manguetnia, em
dinheiros de 2006.
(F=D*B)
150,7699
2001
100
5,00
2002
110
4,00
Frmula do ndice do
deflator (E)
(X
)
*(1+(Dfi+1/100))
i+1
1,507699
1,449711 (Xi+1) *(1+(Dfi+1/100))
7,00
1,35487
(Xi+1) *(1+(Dfi+1/100))
169,3588
172,438
159,4682
2003
125
2004
140
10,00
1,2317
(Xi+1) *(1+(Dfi+1/100))
2005
150
13,00
1,09
(Xi+1) *(1+(Dfi+1/100))
163,5
2006
170
9,00
=1
170
2007
190
6,00
1
0,943396
179,2452
2008
205
12,00
0,842318
(Xi-1*100)/(100+Dfi)
(Xi-1*100)/(100+Dfi)
2009
220
17,00
0,71993
(Xi-1*100)/(100+Dfi)
158,3846
2010
240
4,00
0,69224
(Xi-1*100)/(100+Dfi)
166,1376
2011
265
7,00
0,646954
(Xi-1*100)/(100+Dfi)
171,4428
2012
295
9,00
0,593535
(Xi-1*100)/(100+Dfi)
175,0928
0,534717
(Xi-1*100)/(100+Dfi)
171,1094
2013
320
11,00
172,6752
Mas, e se, por algum motivo, no estiver disponvel o deflator implcito, mas estiver
o valor real da varivel? No caso (ii), possvel adquirir o ndice atravs de um procedimento
58
bem simples. E com apenas um passo a mais, ser possvel adapta-lo para que ele fique
indexado ao seu ano index.
Basta dividir o valor real pelo valor nominal. Isso pode ser descrito algebricamente
pela formula: Xi=Yri/Yni. Para alterar o ano index bastar dividir todos os valores do ndice
encontrado pelo valor do ndice do seu ano index (Yri/Yrs). Esse procedimento permitir
recalcular os valores reais de sua varivel.
(A)
Consumo nominal
das famlias de
Manguetnia
(B)
ndice do
deflator
Index 1
(D = C/B)
ndice do deflator
index 2006 (E=
D/0,699301)
Consumo real de
Manguetnia (dinheiros
de 2006) (F=B*E)
2001
70
72,94
1,041958
1,49
104,3
2002
77
77,00
1,43
110,11
2003
87,5
80,77
0,923077
1,32
115,5
2004
98
83,61
0,853147
1,22
119,56
2005
105
77,10
0,734266
1,05
110,25
2006
119
83,22
0,699301
119
2007
133
88,36
0,664336
0,95
126,35
2008
143,5
85,30
0,594406
0,85
121,975
2009
0,503497
0,72
110,88
Ano
154
77,54
2010
168
82,24
0,48951
0,7
117,6
2011
185,5
84,32
0,454545
0,65
120,575
2012
206,5
86,64
0,41958
0,6
123,9
2013
224
86,15
0,384615
0,55
123,2
59
ndice de extremo.
O ndice de extremo aquele que descreve a relao de duas variveis em dois
extremos: 1 representa a presena completa da varivel (A); -1 representa a presena completa
da varivel (B) ; e 0 representa o equilbrio. Existem distintos processos que geram esse tipo
de ndice. Aqui ser discutida apenas a forma mais fcil de gerar esse ndice.
A frmula algbrica que aplicaremos ser apresentada : Ki= (Xi-Yi)/(Xi+Yi). No
LibreOffice Calc, a frmula a ser aplicada ser: =([clula da observao da varivel A] [clula da observao da varivel B]) / ([clula da observao da varivel A] + [clula da
observao da varivel B]).
Varivel A
100
90
80
70
60
50
40
30
20
10
0
Varivel B
0,00
10,00
20,00
30,00
40,00
50,00
60,00
70,00
80,00
90,00
100,00
Ano (A)
2001
Tempo (Ti)
1
2002
2003
2004
2005
2006
2007
2008
2009
2010
10
2011
11
2012
12
2013
13
320
2001
Tempo (Ti)
1
2002
118,33
2003
136,66
2004
154,99
2005
173,32
2006
191,65
100
61
2007
209,98
2008
228,31
2009
246,64
2010
10
264,97
2011
11
283,3
2012
12
301,63
2013
13
320
( XfXs )
( Tf Ts )
Tempo (Ti)
2001
PIB de Manguetnia
(Xi)
100
2002
110,2
2003
121,4404
2004
133,8273208
2005
147,4777075
2006
162,5204337
2007
179,0975179
2008
197,3654648
2009
217,4967422
2010
10
239,6814099
62
2011
11
264,1289137
2012
12
291,0700629
2013
13
320
Tempo (Ti)
Inverso do PIB
(1/Xi)
2001
0,01
100
2002
0,0094271
106,08
2003
0,0088542
112,94
2004
0,0082813
120,75
2005
0,0077084
129,73
2006
0,0071355
140,14
2007
0,0065626
152,38
2008
0,0059897
166,95
2009
0,0054168
184,61
2010
10
0,0048439
206,45
2011
11
0,004271
234,14
2012
12
0,0036981
270,41
2013
13
0,003125
320
63
Projeo da proporo.
A projeo de proporo outra forma de gerar estimativas para dados ausentes.
Existem duas formas bsicas de projeo de proporo: (i) a simples; e (ii) a ponderada. Para
ambas, necessrio ter algumas amostras da varivel que se pretende estimar e amostras de
outra varivel relevante para a que se pretende estimar.
O mtodo consiste em calcular a mdia da proporo entre as variveis para as
observaes existentes da varivel a ser estimada. A partir da, projeta-se os valores ausentes.
PIB observado de
Exportao de soja
Ano (A) Sojaslndia (B)
(em dinheiros) (C)
2000
130
2001
2002
2003
2004
2005
200
2006
2007
45
49
54
59
64
70
72
75
PIB Estimado de
Mdia da
Sojaslndia
proporo (D)
(E = C / D)
0,3462
130
0,3481
140,77
0,3481
155,14
0,3481
169,50
0,3481
183,87
0,3500
200,00
0,3357
214,47
0,3357
223,40
64
2008
2009
2010
79
84
90
280
0,3357
0,3357
0,3214
235,32
250,21
280,00
ano
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
PIB observado de
Sojaslndia
130
200
280
Exportao de soja
(em dinheiros)
45
49
54
59
64
70
72
75
79
84
90
Importao de
insumos (em
dinheiros)
44
56
65
69
74
78
83
86
65
ano
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Estimativa (Y) do
PIB observado de
Sojaslndia
130,00
141,70
154,45
168,35
183,51
200,00
214,00
228,98
245,01
262,16
280,00
exportao de soja
(em dinheiros)
45
49
54
59
64
70
72
75
79
84
90
Estimativa da
importao de
insumos
44,00
49,64
56,00
60,33
65,00
69,00
74,00
75,97
78,00
83,00
86,00
Ano (A)
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
PIB observado de
Sojaslndia (B)
130
200
280
Exportao de soja
(em dinheiros) (C)
45
49
54
59
64
70
72
75
79
84
90
Mdia da
proporo (D)
0,3462
0,3481
0,3481
0,3481
0,3481
0,3500
0,3357
0,3357
0,3357
0,3357
0,3214
66
Ano (A)
PIB observado de
Sojaslndia (B)
Estimativa da
importao de
insumos (C)
Mdia da
proporo (D)
2000
130
44,00
0,3385
2001
49,64
0,3417
145,26
2002
56,00
0,3417
163,87
2003
60,33
0,3417
176,55
2004
65,00
0,3417
190,21
69,00
0,3450
200,00
2006
74,00
0,3261
226,94
2007
75,97
0,3261
233,00
2008
78,00
0,3261
239,21
83,00
0,3261
254,55
86,00
0,3071
280,00
2005
200
2009
2010
280
Por ltimo, atribumos um peso arbitrrio a cada uma dessas estimativas. Para
estimativa (Y), atribumos o peso de 0,7; para a (B); atribumos 0,2; e para (C), atribumos
0,1. Construmos uma nova tabela com as estimativas, e calculamos a estimativa final pela
mdia ponderada.
Estimativa (C) IB
de Sojaslndia
Estimativa final do
PIB de Sojaslandia
(D = 0,7Y + 0,2B +
0,1C)
2000
130,00
130
130,00
130,00
2001
141,70
140,77
145,26
141,87
2002
154,45
155,14
163,87
155,53
2003
168,35
169,5
176,55
169,40
183,51
183,87
190,21
184,25
200,00
200
200,00
200,00
214,00
214,47
226,94
215,39
228,98
223,4
233,00
228,27
245,01
235,32
239,21
242,49
262,16
250,21
254,55
259,01
280,00
280
280,00
280,00
Ano (t)
2004
2005
2006
2007
2008
2009
2010
67
A estatstica inferencial uma disciplina que tem como um de seus objetos de estudo
a investigao da probabilidade. Dessa forma, ela permite: (a) estimar a probabilidade de
ocorrncia dos fenmenos; (b) verificar a correlao entre duas variveis; (c) prever valores
para observaes de acordo com a correlao e a probabilidade de ocorrncia; e (d) verificar
se um fenmeno observado estava de acordo ou no com a probabilidade prevista. Trata-se
portanto do estudo estatstico que permite inferir qualidades sobre os fenmenos estudados, de
acordo com uma srie de modelos.
A estatstica inferencial uma vasta rea de conhecimento, e possui inmeras
ferramentas. Nesse captulo, abordaremos apenas alguns dos tpicos essenciais para o estudo
quantitativo em histria e outras cincias sociais. Buscar-se- apresentar os conceitos
essenciais, com foco na interpretao de resultado.
Teste de Hipteses
Na estatstica inferencial, uma das principais ferramentas o teste de hipteses. Para
estudar um problema, e tirar concluses e indcios a partir do estudo, o pesquisador precisa
antes formular a anlise estatstica na forma de hipteses. O que ser testado estatisticamente
a adequao do fenmeno observado a essas hipteses. Quando esse teste realizado a
partir da frequncia das ocorrncias chama-se o teste de teste de hiptese frequencial. A forma
de lidar com o teste de hipteses separa a estatstica inferencial frequencial da estatstica
inferencial bayesiana.
Teste de hiptese frequencial.
O teste de hiptese frequencial a base para maior parte das ferramentas e dos
estudos estatsticos na cincias sociais. Isso pois ele permite maior grau de generalizao, e
exige menor conhecimento prvio sobre as probabilidades dos fenmenos estudados. Ele se
caracteriza por utilizar o conjunto das ocorrncias observadas indistintamente, formulando
hipteses gerais sobre esse conjunto.
Nesse modelo, o teste de hiptese precisa ser formulado de tal modo que existam
68
apenas duas hipteses por teste. Nele, as hipteses sero classificadas como provveis ou no
provveis. A partir dessas classificao de probabilidade das hipteses, elas devem ser
descartadas (tomadas como falsas), ou confirmadas (tomadas como verdadeiras). Dado a
natureza do teste estatstico, sempre existir a possibilidade de, mesmo aps um teste de
hipteses, tomarmos uma hiptese como falsa quando ela verdadeira na realidade, ou o
contrrio.
Por isso, esse teste formulado de tal modo que uma dessas hipteses s ser
descartada caso sejam atingidos valores to baixos para sua ocorrncia que estatisticamente
ela se torne bastante improvvel. Chama-se esse ponto de valor crtico, ou grau de
confiabilidade. O grau de confiabilidade o inverso da probabilidade do valor crtico.
Em geral, utiliza-se uma hiptese baseada no senso comum, denominada hiptese
nula (H0); e outra que a hiptese a ser investigada, denominada hiptese alternativa (H1). A
hiptese nula deve ser aquela que s descartaremos se ela se apresentar como altamente
improvvel, e a hiptese alternativa aquela que s aceitaremos se tivermos alto grau de
confiabilidade.
O motivo dessa escolha pode seguir dois critrios: (a) embasamento em
conhecimentos prvios; e (b) a necessidade de possuir alta confiana na sua hiptese
alternativa, mesmo que ela corrobore estudos anteriores.
Por exemplo: Um pesquisador est estudando o abismo social de Manguetnia. Neste
estudo, resolve verificar se haveria ou no uma diviso racial no pas. Apesar de ser bvio,
evidente, e bem documentado o racismo naquele pas (onde negros so privados da educao),
ainda assim o pesquisador resolveu formular seu teste de hiptese: (H0) A distribuio de
renda no permite constatar racismo social; e (H1) a configurao social permite constatar o
racismo. Formulado dessa forma, o pesquisador s afirmar que h racismo se ele estiver um
grau de confiana de 95%, evitando dessa forma acusaes de impregnao ideolgica em seu
estudo.
Existem diferentes modelos de distribuio de frequncia utilizados para produzir o
teste de hiptese (modelo t-student, modelo de distribuio normal, modelo gama, etc.). Em
cada um deles, existir uma srie de testes estatsticos possveis que trabalham com
pressupostos especficos, e com condies especficas.
69
ocorrncia dos eventos no conjunto das probabilidades. Ainda, toma-se essas probabilidades
como fixas. Dessa forma, as novas evidncias no alteram o clculo geral das probabilidades,
apenas das probabilidades para aquele caso em especfico.
Por exemplo: Manguetnia um pais racista que passa por um apartheid velado.
Apesar da populao ser 50% de negros, nas universidades convencionais apenas 5% dos
estudantes so negros. Mas, a populao organizou universidades populares, onde 95% dos
estudantes so negros. Acontece que 90% dos estudantes passaram por universidades
convencionais, e apenas 10% passaram por universidades populares. Se quisssemos verificar
a chance de um estudante ter realizado seus estudos em uma universidade popular,
formularamos convencionalmente o teste de hiptese: (H0) o estudante veio de uma
universidade convencional; (H1) o estudante veio de uma universidade popular. P(H0) =
0,9; P (H1) = 0,1. Observe que j conhecemos a probabilidade de cada uma das hipteses.
No entanto, caso fossemos a uma palestra de um pesquisador genial, e
observssemos que ele negro, poderamos desejar calcular a probabilidade dele ter estudado
em uma universidade popular. Assim, formularamos o problema dentro do modelo bayesiano.
Tomaramos como hiptese nula a de que o estudante pode ter vindo de uma universidade
convencional. O clculo ficaria: P(H0|E) = (0,9 * 0,1) / (0,9 *0,1) + (0,1 *0,9) = 0,09 / (0,09 +
0,09) = 0,09 / 0,18 = 0,5. Ou seja, poderamos dizer que existiria 50% de chance do estudante
ter estudado em uma universidade convencional, e 50% de ter estudado em uma escola
popular.
Desvio padro.
Parcelas considerveis das ferramentas da estatstica inferencial utilizam a mdia, a
frequncia, e o desvio padro das observaes. J vimos o que a mdia e a frequncia das
observaes anteriormente. Nesta seo discutiremos o Desvio Padro. Trata-se de uma
ferramenta fundamental para os clculos de distribuio normal.
O desvio padro uma medida de distncia mdia entre os valores das observaes e
o valor da mdia. Essa medida alcanada atravs do clculo da raiz quadrada da varincia.
Essa, por sua vez, igual mdia dos quadrados das distncias entre a observao e a mdia
da varivel. Algebricamente, a varincia pode ser descrita: var(X) = E ((Xi E(x)) ^ 2). Da,
o desvio padro pode ser descrito: 2 = var(X); ou: = (E((Xi E(x)) ^ 2)) ^ (1/2).
71
Distncia da
observao e da
mdia
Quadrado das
distncias
123,96
6,37
40,63
2
3
4
5
6
7
8
9
10
Dados
estatsticos
123,97
115,00
118,05
112,36
107,86
116,67
121,48
114,75
121,79
117,59
Mdia
6,38
-2,59
0,46
-5,23
-9,73
-0,91
3,89
-2,84
4,20
0,00
Distncia
40,67
6,69
0,21
27,33
94,70
0,84
15,14
8,07
17,63
25,19
Varincia
5,02
Desvio padro
72
73
Essa curva de probabilidade significa que quanto mais prximo o valor estiver da
mdia, maior ser a probabilidade do valor ocorrer. Quanto mais distante da mdia, menor a
chance. No exemplo, a chance de ocorrer qualquer valor de -5 a -3,5 seria apenas de
0,000233. J a chance de ocorrer entre -0,5 e 0,5 seria de 0,38295.
Distribuio qui-quadrada.
A distribuio qui-quadrada uma variao da distribuio normal. Ela resulta da elevao ao
quadrado de uma varivel normal padronizada, N (0,1). A distribuio qui-quadrado pode ser
denominada algebricamente por: V ~ 2gl, O clculo algbrico para V : V = Z21 + Z22 + (...)
Z2gl. A mdia de V pode ser descrita por: E(V) = E(2gl) = gl. A varincia de V pode ser
descrita por e var(V)= var(2gl) =2gl. Ou seja, a mdia e a varincia da varivel qui-quadrado
depende dos graus de liberdade. O grau de liberdade de uma varivel igual ao nmero de
observaes menos o nmero de observaes comprometidas. Tem-se que o nmero de
observaes comprometidas igual ao nmero de variveis independentes no processo
estatstico.
74
Distribuio t-student.
A distribuio t uma variao da normal. Ela pode ser calculada atravs da diviso
de uma varivel normal padronizada Z pela raiz quadrada de uma varivel aleatria qui
quadrado, dividida pelo seus graus de liberdade. Dessa forma, descreve-se: t= Z / (V/gl) ~ tgl.
A distribuio t possui mdia E(tgl) = 0; e varincia Var(tgl) = gl/(gl-2). Desse modo, quanto
maior a quantidade de graus de liberdade da varivel, mais prximo da distribuio normal a
distribuio t estar. Esse tipo de modelo muito utilizado nos testes estatsticos do
comportamento das variveis.
75
Distribuio F
A curva de densidade de uma distribuio f relaciona duas variveis qui-quadro
mutuamente independentes, cada uma dividida pelo seu grau de liberdade. Dessa forma,
descreve-se F= (V1/gl1) / (V2/gl2) ~F(gl1, gl2). A razo dos graus de liberdade no numerador com
os graus de liberdade do denominador define a forma da curva. Como, no estudo em histria,
costuma-se recorrer estatstica inferencial justamente para estudar a relao entre duas
variveis ou mais, a distribuio f costuma aparecer. Em especial na anlise de regresso.
Calculo da probabilidade
Uma vez que seja calculada a mdia, o desvio padro, e a curva da densidade de
probabilidade, torna-se possvel calcular a estimativa da probabilidade de um dado valor em
76
relao mdia. Existem duas situaes mais comuns: (a) quando desejamos descobrir a
probabilidade da ocorrncia de um valor especfico; e (b) quando desejamos descobrir a
probabilidade da ocorrncia de um intervalo de valores. Essas possibilidades sero
demonstradas utilizando a distribuio normal.
Probabilidade da ocorrncia de um valor
A probabilidade da ocorrncia de um valor pode ser calculada atravs da verificao
facilmente. Na distribuio normal padronizada, ela ser aproximadamente igual a p(Z) sendo
Z = (Xi-) / ~ N(0,1). Onde Xi o valor da varivel que desejamos verificar; a mdia, e
o desvio padro. Para verificar p(Z), basta consultar uma tabela do p-valor de Z.
Alternativamente, existem programas capazes de calcular de forma bastante precisa o p-valor
das observaes, descartando o processo de padronizao.
Observao
(A)
123,96
0,035527334
123,97
0,035437573
115
0,069567096
118,05
0,079137628
112,36
0,046186112
107,86
0,012145832
116,67
0,078147137
121,48
0,058859397
114,75
0,067718378
10
121,79
0,056002278
observao limite.
Pode-se atravs da cauda direita, encontrar o p-valor para um intervalo de valores.
Para isso, utiliza-se a frmula de integrais:
. Ou seja, probabilidade de
123,96
0,897765968
123,97
0,898120793
115
0,302949466
118,05
0,536505369
112,36
0,148744632
107,86
0,026296547
116,67
0,42729429
121,48
0,780800742
114,75
0,285786272
10
121,79
0,798606286
Mdia
117,59
Desvio padro
5,02
No exemplo, foi fornecido os p-valores da cauda direita para as observaes do consumo das
famlias de Sojaslndia. A partir desses valores, possvel formular a seguinte pergunta: qual
a probabilidade de uma famlia de renda 150 dinheiros consumir de 107,86 a 115 dinheiros
mensalmente, e poupar o resto? Para isso calcula-se: (p-valor da cauda direita de 115) (pvalor da cauda direita de 107,86) = 0,30295 0,026297 = 0,27665. Assim, haveria 0,27665 de
probabilidade de uma famlia consumir apenas de 107,68 a 115 dinheiros, se sua renda fosse
150.
Covarincia e Correlao.
Em geral, os historiadores e os pesquisadores nas diversas cincias sociais, recorrem
estatstica inferencial para investigar problemas que envolvem mais de uma varivel. O
primeiro passo na investigao da relao entre duas ou mais variveis a verificao do
78
um (1) e um negativo (-1). Nessa correlao, o valor 1 significar correspondncia direta total
entre as variaes nas variveis, e -1 representar a correspondncia inversa total entre as
variaes nas variveis.
Ano
ano
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
897686,37
1013616,03
1143647,74
1262374,30
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
332143,9587
354765,6114
411713,1865
479702,2348
599444,3123
791234,3491
947899,0881
1244272,744
1765249,772
2825967,924
3439734,887
4427298,321
6121772,658
Covarincia
6.915.568.485.895,48
Correlao
0,999200307
79
tipibr (III = II * I)
PIBr ajustado
ti
tipibr
titi
ajustPIBr
1
2
897686,37
1013616,03
897686,3749
2027232,065
1
4
81
3
4
5
6
7
8
9
10
11
12
13
91
1143647,74
1262374,30
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
52538999,34
3430943,22
5049497,209
7310296,491
11040479,29
15798318,14
23149260,35
37826780,83
64226543,73
78827257,82
110682458
165798009,5
526064763,01
9
16
25
36
49
64
81
100
121
144
169
819,00
() Somatrio
II (52538999,34)
III (526064763,01)
N (13)
I (91)
I (91)
IV (819)
I (91)
IV (819)
B=
N (13)
I (91)
N (13)
I (91)
II (52538999,34)
III (526064763,01)
I (91)
IV (819)
tipibr (C = A * B)
ti
tipibr
titi
ajustPIBr
1
2
3
4
897686,37
1013616,03
1143647,74
1262374,30
897686,3749
2027232,065
3430943,22
5049497,209
1
4
9
16
-1176948,435
-307213,4481
562521,539
1432256,526
82
5
6
7
8
9
10
11
12
13
91,00
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
52538999,34
7310296,491
11040479,29
15798318,14
23149260,35
37826780,83
64226543,73
78827257,82
110682458
165798009,5
526064763,01
25
36
49
64
81
100
121
144
169
819,00
2301991,513
3171726,5
4041461,487
4911196,475
5780931,462
6650666,449
7520401,436
8390136,423
9259871,41
Note que os valores ajustados ficaram bem distantes dos valores observados. Isso se
deu por termos utilizado uma regresso linear para descrever uma relao geomtrica.
Modelo log-linear
O modelo log-linear expressa uma relao exponencial, ou geomtrica. Sua formula
Log10(Yi) = A + B(ti). Para gerar o valor ajustado a partir dessa equao, bastara elevar o
nmero dez pelo resultado. Assim, Yi=10 ^ log10(Yi). Nesse modelo, o coeficiente B
representa o quanto o aumento na varivel independente gera de aumento no logaritmo da
dependente. A elasticidade do modelo log-lin ser igual a (10^B)Xi, e ser o multiplicador a
ser aplicado em (10 ^ A). Ou seja, ser igual a taxa de crescimento da independente em
relao a dependente.
Tempo
(B)
Log10 do
PIB real
chins
(C)
Tipibr
(D)
Ti^2
(E)
Ajustado
(F)
PIBr ajustado e
deslogaritmizado
(G)
ti
lpibr
tilpibr
titi
ajust
ajustPIBr
897686,37
1013616,03
1143647,74
1262374,30
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
Somatrio
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
11,00
12,00
13,00
91,00
5,95
6,01
6,06
6,10
6,16
6,26
6,35
6,46
6,62
6,81
6,86
6,96
7,11
83,72
5,95
2027232,06
3430943,22
5049497,21
7310296,49
11040479,29
15798318,14
23149260,35
37826780,83
64226543,73
78827257,82
110682458,03
165798009,48
525167082,59
1,00
4,00
9,00
16,00
25,00
36,00
49,00
64,00
81,00
100,00
121,00
144,00
169,00
819,00
5,84
5,94
6,04
6,14
6,24
6,34
6,44
6,54
6,64
6,74
6,84
6,94
7,04
695476,76
874795,22
1100348,31
1384056,94
1740915,68
2189785,19
2754389,11
3464567,85
4357855,74
5481464,77
6894779,88
8672497,51
10908573,49
84
Esse modelo deve ser aplicado para variveis que apresentam curva de disperso
harmnica. Isso significa que a varivel Xi causa alto impacto na varivel Yi na primeira
parcela das observaes. No entanto, conforme as observaes avanam para os prximos
valores, o impacto de Xi em Yi diminuiria. Dessa forma, quando o coeficiente b for
negativo, observa-se uma curva com valores crescentes, com desacelerao no crescimento da
curva ao longo das amostras. Caso o coeficiente b seja positivo, observar-se- uma curva
cadente. Isso ocorre, como destacamos, por que o coeficiente b ter sinal invertido.
Modelo quadrtico.
A regresso quadrtica descrita por: Yi=A + B (Xi) + C (Xi 2). Assim, o aumento de
um no valor de Xi gerar o incremento de B, mais C multiplicado pelo quadrado de Xi. Nesse
sentido, no se pode mais falar em elasticidade apenas do coeficiente B. O modelo passa a ser
descrito por dois coeficientes para uma nica varivel independente original. O que se
85
observa, portanto, a existncia de duas foras distintas descritas na relao de uma varivel
dependente com uma independente. Essas foras so representadas pelo coeficiente B e pelo
coeficiente C, e tem seu impacto calculado por B*xi, e C * xi2.
Esse modelo se ajusta melhor a trs tipos de desenhos para o grfico disperso. Eles
so descritos por: (1) coeficiente B e C com sinais iguais; (2) coeficiente B negativo e C
positivo; e (3) coeficiente B positivo e C negativo.
86
Modelo cbico
O modelo cbico pode ser descrito pela frmula Yi=A + B Xi + C Xi + D Xi. Esse
modelo expressa trs foras distintas no impacto da varivel Xi em relao a Yi. Dessa forma,
87
88
No grfico acima, verifica-se o desenho de uma curva gerada pelo modelo cbico
com o coeficiente B negativo, e C e D positivos. Observa-se que na primeira parte do grfico,
a curva de tendncia foi cadente. A partir de dado momento, essa curva se tornou ascendente
com alta taxa de crescimento, resultante do efeito dos coeficientes C e D.
89
No grfico acima, h uma curva de tendncia gerada pelo modelo cbico com
coeficientes B e D positivos, e C negativo. O que pode-se observar um crescimento menos
acelerado na primeira parte do grfico, e mais acelerado na segunda parte. Isso ocorre pois o
coeficiente C dificilmente se torna mais importante do que os demais fatores. Dessa forma,
ele apenas molda o crescimento de forma a reduzi-lo, mas sem o tornar negativo.
Modelos com dummy.
Por vezes, ao verificar a curva de disperso das variveis, observa-se que um
conjunto de observaes apresentou valores em posio distinta do esperado. Isso significa
que, em algumas observaes, a varivel possuiu comportamento singular, no obedecendo a
equao de estimao da regresso. Isso seria uma violao do pressuposto de que a varivel
dependente se submeteria igualmente equao em todas as observaes. Existem duas
possibilidades de lidar com essa situao. A primeira utilizar uma varivel categrica de
constante, o segundo utilizar uma varivel categrica de inclinao.
Categrica de constante.
Caso o comportamento anormal da varivel independente no viole a linha de
tendncia, apenas gere um recuo (para cima ou para baixo em relao ao eixo vertical),
pode-se utilizar uma varivel categrica de constante. Por exemplo, pode ser que devido a
uma conjuntura negativa, a produo de gros tenham apresentado desempenho pior durante
quatro anos, em relao ao restante da dcada. Mas, mesmo nesse trinio, a produo pareceu
manter sua tendncia esperada. Nesses casos, pode-se utilizar uma varivel categrica
90
(dummy) para indicar que algumas das observaes possuem caracterstica especial. O
modelo linear com dummy, por exemplo, pode ser descrito pela formula: Y = A + B Xi + C
dm, onde dm igual a 0 para os anos sem a presena do modificador, e igual a 1 para os anos
com modificador.
Xi
1
2
3
4
5
6
7
8
9
10
Dummy
0
0
0
0
1
1
1
1
0
0
Na tabela acima, est disponvel uma demonstrao de como devem ser organizados
os dados para o clculo do efeito da Dummy em um software de computador. No exemplo, as
observaes de nmero 5 a 8 apresentaram o efeito dummy.
No grfico acima, est a linha de tendncia gerada pelo modelo linear com dummy. A
frmula encontrada foi: Yi= A + B Xi C dm = 0 + 1 Xi 2 dm. Observe que as observaes
5; 6; 7; e 8 apresentaram um recuo igual a C em relao ao ponto que deveriam estar caso no
91
houvesse o efeito da varivel categrica dummy. No entanto, mesmo com o recuo, a tendncia
continuou a respeitar a linha gerada por Yi = A + B Xi.
Categrica de inclinao.
Caso as observaes com comportamento singular violem a linha de tendncia,
apresentando coeficiente angular prprio, uma alternativa o uso de uma varivel categrica
de inclinao. Por exemplo, o pas Cavercia viveu uma guerra civil de trs anos. Como se
sabe, uma guerra civil tende a forar uma reorganizao, ao menos temporria, da economia
do pas. Ao verificar a curva de disperso, verificou-se que os anos da guerra civil (anos 5, 6 e
7) apresentaram comportamento singular para o crescimento do PIB do pas. Para gerar uma
regresso que permitisse captar esse comportamento, foi utilizada uma varivel categrica de
inclinao.
Ti (A)
Dummy (B)
1
2
3
4
5
6
7
8
9
10
0
0
0
0
1
1
1
0
0
0
92
93
Ano
(A)
ano
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
Tempo
(B)
ti
1
2
3
4
5
6
7
8
9
10
11
12
13
Log de pib
multiplicado pelo
tempo
(E)
Quadrado de ti
(F)
pibr
897686,3749
1013616,032
1143647,74
1262374,302
1462059,298
1840079,882
2256902,591
2893657,543
4202975,648
6422654,373
7166114,347
9223538,169
12753693,04
lpibr
5,953124633
6,005873471
6,058292276
6,101188145
6,164964987
6,264836677
6,353512815
6,461447132
6,623556874
6,807714552
6,855283734
6,964897549
7,10563596
lpibrti
5,953124633
12,01174694
18,17487683
24,40475258
30,82482494
37,58902006
44,47458971
51,69157706
59,61201186
68,07714552
75,40812107
83,57877059
92,37326748
titi
1
4
9
16
25
36
49
64
81
100
121
144
169
94
Anlise de regresso.
Alm da equao de ajuste e da construo da srie ajustada, a anlise estatstica da
regresso permite gerar uma srie de informaes pertinentes. Os dados gerados dessa forma
so denominados resultados da anlise de regresso. Nesta seo, sero abordados: (a)
anlise dos coeficientes; (b) dados de adequabilidade da regresso; (c) testes de normalidade e
heterocedasticidade; (d) teste de autocorrelao dos erros; e (e) anlise dos resduos.
Anlise dos coeficientes.
O principal componente da anlise de coeficientes j foi discutido na seo anterior.
Trata-se dos valores de cada coeficiente. No entanto, a anlise de coeficiente abarca outros
dados pertinentes. Sendo eles: (i) o desvio padro; e (ii) estatstica t e teste p. da estatstica t.
O (i) desvio padro do coeficiente expressa o quanto a varivel dependente
observada oscilou em torno da varivel independente. Assim o desvio padro do coeficiente
permite encontrar o intervalo esperado para a varivel dependente. Por exemplo: se o
coeficiente B de uma regresso linear for 5, com desvio padro de 1, espera-se que o aumento
de 1 em Xi gere um aumento de 4 a 6 na varivel Yi. Tem-se que o desvio padro do
coeficiente pode ser no mximo at metade do valor do coeficiente. Caso contrrio,
provvel que a varivel independente no tenha poder explicativo para a varivel dependente.
O (ii) teste t do coeficiente um teste da distribuio t dos desvios encontrados para
o coeficiente. Esse teste permite calcular com maior preciso se a varivel independente
possui ou no capacidade explicativa para a varivel dependente dentro do modelo proposto.
(Ou seja, se na sua equao, a varivel atrelada quele coeficiente significativa para o
clculo de Yi).
Alguns softwares calculam o p-valor do teste t dos coeficientes. Nesses casos, o pvalor permitir testar as hipteses: H0, a varivel independente no significante; e H1, a
varivel independente significante. Caso o p-valor seja inferior a 0,05, descarta-se H0 e
aceita-se H1.
95
96
normal; e que h homocedasticidade nos erros. Ou seja, que os erros possuem mdia zero e
desvio padro constante.
Esses pressupostos precisam ser testados para verificar se so vlidos, Para isso se
realiza os testes de normalidade e de heterocedasticidade dos erros. Existem distintos tipos de
testes de normalidade, e distintos tipos de teste de heterocedasticidade.
Os testes de normalidade verificam se os desvios se distribuem normalmente, com
mdia zero e varincia 2. Eles costumam ser realizados com as hipteses: (H0) a distribuio
dos erros segue a distribuio normal; (H1) a distribuio dos erros no segue a distribuio
normal. Caso o p-valor do teste de normalidade seja inferior a 0,05, descarta-se H0, o que
significa que no seguro pressupor a normalidade.
Cada tipo de teste de normalidade d foco a um tipo de violao da normalidade.
Alguns desses tipos de violao so: (i) os erros so mais comuns para cima ou para baixo do
que para seu inverso, mas possuem valores menores para o lado mais comum (erros positivos
pequenos e constantes, erros negativos grandes e raros); (ii) os erros se aglutinam distantes da
reta de tendncia, ao invs de prximos a ela; e (iii) os erros de alguma das observaes
fogem demasiadamente do valor previsto, distorcendo a densidade dos desvios em relao ao
modelo de densidade normal.
Os testes de heterocedasticidade buscam verificar se a varincia dos erros foi
constante. Eles em geral so feitos com as hipteses: (H0) os erros possuem varincia
constante (portanto no so homocedsticos); e (H1) os erros no possuem varincia
constante (so heterocedsticos). Caso o p-valor dos testes seja inferior a 0,05, descarta-se a
(H0), no sendo seguro pressupor a homocedasticidade dos erros.
Existem diferentes testes de heterocedasticidade, cada um busca testar um tipo
possvel de no constncia da varincia. Dois desses tipos so: (i) os erros apresentam
variao conjuntural, se distanciando da reta de ajuste para algum nmero de amostras, e se
aproximando em outros; e (ii) os erros apresentam estocasticidade, se tornando maiores ou
menores com o avanar das amostras.
97
No grfico acima, h um modelo produzido pela regresso linear para o consumo das
famlias de Manguetnia, explicado pela renda das famlias. Observa-se no grfico que o
consumo das famlias adquire maior varincia a partir da renda familiar de 140 dinheiros. No
exemplo, h heterocedasticidade dos erros, e os erros no assumiram distribuio normal.
Aconselha-se que as verificaes dos testes de normalidade e heterocedasticidade
sejam feitas em conjunto. A no normalidade e a heterocedasticidade dos erros influenciam
um a outra. usual que testes que apresentem a no normalidade tambm apresentem
heterocedasticidade de algum tipo.
Uma vez detectada a no normalidade ou a heterocedasticidade dos erros, existem
diferentes procedimentos que podem ser aplicados. O primeiro passo deve ser identificar
possveis causas para o resultado dos testes. Isso deve ser feito gerando um grfico de
comparao da varivel original e a varivel ajustada. Assim, a natureza dos erros deve ficar
evidente.
Diante disso, o pesquisador dever interpretar o sentido dos resultados dos testes,
trabalhando com duas hipteses a serem consideradas: (1) a no adequao dos pressupostos
fruto da no adequao da regresso pelo mtodo dos mnimos quadrados; ou (2) a violao
dos pressupostos foi fruto da natureza da relao entre a varivel dependente e varivel
independente, ou de conjunturas que modificaram essa natureza. Por exemplo, no caso do
consumo das famlias de Manguetnia o aumento da varincia na segunda metade resultou da
98
natureza entre a renda familiar e o consumo familiar: quanto menor a renda, menos opes de
consumo a famlia possui, no podem nem economizar, e nem realizar gastos abusivos.
Quanto maior a renda, maior a possibilidade da famlia adequar seus gastos a um perfil
prprio.
Caso se acate a hiptese (2), o pesquisador ter que investigar e explicar o que
causou essa violao dos pressupostos. No caso da aceitao da hiptese (1), ser necessrio
utilizar outro mtodo de regresso: a regresso generalizada.
Autocorrelao dos erros.
O teste da autocorrelao dos erros fundamental para garantir a validade da
regresso. A autocorrelao dos erros ocorre quando um erro anterior pode ajudar a prever o
erro seguinte. Existem dois tipos de autocorrelao dos erros: a autocorrelao direta; e a
autocorrelao inversa. A direta ocorre quando um erro positivo anterior leva a um provvel
erro positivo posterior, e um erro negativo leva a um provvel erro negativo. A autocorrelao
inversa ocorre quando um erro positivo leva a um provvel erro negativo seguinte.
autocorrelao.
O principal deles o teste Durbin-Watson (DW). Ao realizar esse teste, gera-se um
valor DW. Tem-se que esse valor no deve ser abaixo do R 2 da regresso, nem ultrapassar
muito o valor 2,5. Caso o DW seja baixo de mais, ou alto demais, deve-se entender que os
erros da regresso possivelmente so autocorrelacionados, e o mtodo dos mnimos quadrados
no o mais adequado.
No entanto, alguns softwares especializados calculam o p-valor do Durbin-Watson,
permitindo o uso de critrios mais objetivos para a deciso sobre se h provvel
autocorrelao ou no. O teste do p-valor de Durbin-Watson feito com as hipteses: (H0)
no h autocorrelao dos erros; e (H1) h autocorrelao dos erros. Caso o p-valor seja
inferior a 0,05, ou superior a 0,95, deve se descartar H0, e considerar que no seguro
assumir o pressuposto da no autocorrelao.
Para os estudos sociais, mesmo com um p-valor inferior a 0,05 para o teste do
Durbin-Watson, no se deve descartar de imediato a regresso. Caso o DW seja superior a R 2,
possvel que a autocorrelao dos erros resulte de um fenmeno histrico que precisa ser
explicado, e no de uma regresso inadequada.
Aconselha-se a seguinte metodologia de avaliao do Durbin-Watson: Caso o valor
de DW esteja entre o R2 da regresso e 2,5, s se deve considerar a regresso inadequada caso
o p-valor seja inferior a 0,005, ou superior a 0,995. Caso o DW seja inferior ao R 2, ou superior
a 2,5, deve-se considerar a regresso inadequada se o p-valor do Durbin-Watson for inferior a
0,05 ou superior a 0,95.
Uma vez que a autocorrelao dos erros haja sido detectada, h duas formas de
proceder. Se a autocorrelao for direta (se DW for pequeno), ser necessrio realizar uma
regresso generalizada pelo mtodo do AR. Se a autocorrelao for inversa, ser necessrio
realizar a dessazonalizao verossmil da regresso.
Anlise dos resduos.
Uma vez que os testes dos pressupostos da regresso hajam sido realizados,
possvel realizar a anlise dos resduos. Ao historiador, pode ser to importante explicar essa
100
tendncia quanto entender como as variveis se distanciaram de suas tendncias. A anlise dos
resduos consiste justamente em subtrair os valores ajustados atravs da regresso dos valores
observados da varivel dependente. Dessa forma, os resduos (ou erros) podem ser descritos:
e= YOi - YAi, onde e o smbolo dos resduos (erros); YOi o valor observado na varivel
dependente Yi; e YAi o valor ajustado gerado pela regresso.
Perodo
(1)
Produto Interno
Bruto real da
China. (yuans
constantes de
2005, dlares a
preo de
mercado)
(2)
ano
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
pibr
897686,3749
1013616,032
1143647,74
1262374,302
1462059,298
1840079,882
2256902,591
2893657,543
4202975,648
6422654,373
7166114,347
9223538,169
12753693,04
Formao Bruta
de Capital real
da China.
(yuans
constantes de
2005, dlares a
preo de
mercado)
(3)
fbkr
332143,9587
354765,6114
411713,1865
479702,2348
599444,3123
791234,3491
947899,0881
1244272,744
1765249,772
2825967,924
3439734,887
4427298,321
6121772,658
Resduos da
comparao
do Valor
Ajustado
com PIB real
observado
(5)
Valor Ajustado
996627,4496
1042728,166
1158781,756
1297336,789
1541359,435
1932208,777
2251476,198
2855456,73
3917156,975
6078796,856
7329593,915
9342151,636
12795324,66
Resduos
-98941,07469
-29112,13339
-15134,01567
-34962,48658
-79300,13654
-92128,89589
5426,393078
38200,81371
285818,6729
343857,5162
-163479,568
-118613,4663
-41631,61875
101
gerar a regresso log-linear, gerar o resduo dos logaritmos, e no o resduo das variveis
deslogaritimizadas.
A partir dos resduos, pode-se calcular o perfil cclico da varivel dependente
explicada pela independente. Para isso, basta dividir os resduos da regresso pelos valores
observados da varivel dependente. Isso expressar a distncia relativa entre os valores
observados e os ajustados. Assim, ser possvel perceber o impacto das oscilaes,
expressando quando a varivel dependente apresentou desempenho inferior ao esperado,
tendo como base o desempenho da varivel independente.
pressupostos.
Os modelos generalizados.
Quando os erros da regresso no apresentam disperso normal, necessrio ajustar
o modelo para adequ-lo a funo de disperso que melhor descreva os erros. Essa deciso
parcialmente guiada por decises arbitrrias, provenientes do conhecimento do tipo de
varivel e tipo de problema que est se tratando. No entanto, possvel realizar a
generalizao buscando maior adequao da distribuio dos erros j observados em uma
regresso linear anterior. Para isso, necessrio primeiro identificar o tipo de disperso que os
erros descrevem. Com esse intuito, aconselha-se produzir um grfico dos resduos,
organizados em ordem crescente e classificados em classes de tamanhos iguais. A partir da
forma desenhada pela distribuio dos erros, utiliza-se o modelo mais adequado.
O tipo de distribuio de erro ao qual a equao da regresso vai ser ajustada
denominado famlia da regresso generalizada. Ainda, o modelo generalizado possui uma
funo de ligao, que determina qual a funo dos coeficientes (se linear, se
exponencial, inverso, etc).
A vantagem dos modelos de regresso generalizados que permite a formao de
regresses bastante precisas. A desvantagem que a anlise de regresso tende a gerar menos
dados para o pesquisador.
Os modelos de correo dos pressupostos.
Quando
os
erros
esto
distribudos
normalmente,
mas
apresentam
ou
104
sazonalizada, o que permitir a anlise dos resduos de forma mais coerente. A frmula gerada
por esse processo ser: Yi= A + B Xi + Csa + Dsb (...), onde sa e sb sero as variveis
categricas da estao. Pode-se utilizar tantas variveis categricas de estao quanto for
necessrio.
Para gerar a varivel dependente dessazonalizada, basta realizar uma regresso sem
intercepto com varivel categrica, mas constando apenas as variveis dummies como
variveis dependentes. O valor ajustado que ser encontrado ser o fator sazonal da varivel
dependente. Bastar subtrair o valor ajustado do valor observado. Isso resultar na
dessazonalizao da dependente. A frmula dessa regresso ser: Yi = A Sa + B Sb + C Sc
(...).
Outro mtodo, mais preciso, o mtodo Arima. Esse mtodo utiliza coeficientes
tethas e phis, podendo distinguir fatores sazonais de no sazonais. Isso, na prtica, permite
uma sazonalizao flexvel para o ajuste. Esse modelo gera valores bastante realistas para a
regresso. Infelizmente, o procedimento complexo, e sugere-se o uso de programas de
computadores para realizar os clculos. Tambm para esse mtodo, o procedimento para gerar
variveis dessazonalizadas e predies sazonalizadas so diferentes.
Para gerar variveis dessazonalizadas, recomenda-se o uso do mtodo de anlise pelo
X-Arima (utilizado pelo software X-12-Arima), que identifica o fator sazonal e o difere
automaticamente das oscilaes no sazonais. Esse mtodo gerar uma curva de ajuste mais
tensionada, eliminando as oscilaes sazonais na produo de valores ajustados.
Para realizar uma projeo sazonalizada, recomenda-se a adequao manual da
regresso de Arima. Essa adequao deve ser feita pela definio do nmero de componentes
tethas e phis sazonais e no sazonais que sero levados em conta para a realizao da
regresso Arima. Isso feito pela determinao arbitrria dos componentes AR (que
determina o nmero de variveis phis), MA (que determina o nmero de componentes tethas),
e de defasagem para comparao entre a varivel dependente e a independente, considerando
tethas e phis. Uma composio que costuma gerar ajustes bastante precisos : Um AR no
sazonal, zero de defasagem no sazonal, um MA no sazonal, um AR sazonal, zero de
defasagem sazonal, e um MA sazonal. Essa combinao conhecida como (Arima: 1,0,1;
1,0,1). No exemplo abaixo, h um grfico da regresso do Produto Nacional Bruto real
106
brasileiro, calculado em pelo mtodo Arima (1,0,1 ; 1,0,1). A varivel independente utilizada
foi a Formao Bruta de Capital Fixo real do Brasil. O perodo analisado contempla o ltimo
semestre de 1999, at o ltimo semestre de 2011. No grfico contam os valores ajustados e os
valores observados (efetivos).
pnbr efetivo e ajustado
700000
ajustado
efetivo
650000
pnbr
600000
550000
500000
450000
400000
2000
2002
2004
2006
2008
2010
2012
107
108
109
Yi
(1= uso de armas qumicas)
(A)
1
0
0
0
1
0
1
1
0
Di
(rebeldes mortos)
(B)
15
23
34
51
100
114
171
256
384
Si
(soldados do governo na regio)
(C)
45
68
50
151
50
250
100
90
700
110
Hoje em dia existem inmeros softwares de estatstica. A maior parte possui algumas
funes de estatstica inferencial. No entanto, poucos programas de computador possuem o
conjunto das funes necessrias ao cientista social. Dos que possuem, apenas um nmero
pequeno de fcil uso para o estudante no especialista em informtica. Atualmente, trs se
destacam: O Minitab; O Software Action; e o Gnu Regression, Econometrics and Time-series
Library (Gretl). Abordaremos nesse capitulo apenas o Gretl, que gratuito, e pode ser
utilizado em qualquer sistema operacional.
O que o Gretl.
O Gretl um software de estatstica inferencial gratuito. Trata-se de um programa
bastante completo e verstil. Possui uma ferramenta de importao de dados para resgatar
tabelas de variveis de outros softwares. A desvantagem dele que os grficos que ele gera
no possuem apresentao to diversificada quanto os do Excel e similares. Uma soluo
possvel utilizar os dois softwares, o Gretl para os clculos, e outro para apresentao. Aqui
utilizaremos como exemplo a combinao Gretl e Excel. Mas o procedimento similar para
outros softwares complementares, como o Libre Office.
Instalao
A instalao do Gretl simples. Basta baixar o instalador adequado para sua
plataforma no site http://gretl.sourceforge.net/pt.html. Lembre-se de baixar os pacotes de
suplemento. Alguns so bastante teis. Rode o instalador. Em seguida, instale os suplementos.
Os prprios instaladores configuraro o programa, sendo necessrio apenas estabelecer a
pasta destino do programa. Instale os suplementos na mesma pasta onde o Gretl foi instalado
(em geral Arquivos de Programas, ou Arquivos de Programas 86X).
Preparao dos dados e variveis.
O Gretl um programa desenvolvido especialmente para estatstica inferencial.
Dessa forma, no suporta ferramentas dinmicas de cmputo e apresentao de dados. Cada
planilha de trabalhos arquivar apenas variveis numricas, e distribudas em amostras pr111
definidas. Dessa forma, toda planilha de trabalho do Gretl possui nmero de amostra
estabelecida no momento de sua criao. Isso significa que o pesquisador j deve ter
preparado em outro lugar uma planilha prvia. Isso pode ser feito a mo ou no computador.
Existem duas formas de gerar a planilha de trabalho no Gretl. A primeira a criando
diretamente no software. A segunda a importando de outro programa. Para o primeiro,
clique em arquivo, e em seguida em Novo conjunto de dados. Assim que o fizer, surgir
uma nova janela perguntando qual o tamanho da amostra.
Digite o tamanho desejado e clique em ok. Surgir uma nova janela perguntando se
a planilha de dados estar organizada em dados de corte, em srie temporal, ou em painel.
Caso se trate de dados em corte transversal, assinale dados de corte. Caso se trate de
conjuntos de amostragens em dois ou mais grupos de corte, assinale painel. Caso seja uma
srie de dados coletadas e organizadas pela varivel tempo, assinale srie temporal. As sries
temporais podem ser de diferentes tipos (anuais, trimestrais, mensais, etc.). Se voc escolher
serie temporal, em seguida dever especificar que tipo, e qual a data de incio da srie.
112
Depois que voc terminar de criar a base da planilha de dados, dever criar as
variveis. Para isso, clique com o boto direito do mouse na rea em branco do programa.
Selecione a opo definir nova varivel.
113
Surgir uma nova janela. Escreva o nome da varivel pretendida. Aparecer uma
planilha de trabalho. Nela, voc ter que digitar manualmente o valor de cada amostra. Isso
ter que ser repetido para cada varivel. Atravs desse mtodo, as ferramentas de copiar e
colar no podero ser utilizadas. Por isso, recomenda-se o uso da ferramenta de importao
de dados.
Para importar dados do LibreOffice Calc e ferramentas similares, ser necessrio
realizar dois passos prvios de preparao: (a) preparar uma planilha de variveis; (b) salvar
em extenso compatvel com o Gretl.
(a) No seu arquivo do LibreOffice Calc, onde esto os dados que pretende importar,
gere uma planilha intitulada gretl. Nela, coloque as variveis desejadas, colocando apenas
um nome resumido de rtulo. O nome da primeira varivel deve estar na primeira clula da
planilha (A1). No pode haver colunas ou clulas com dados em branco entre as colunas
114
(b) Quando for salvar o arquivo, selecione salvar como. Verifique se o formato do
documento do documento est assinalado como Documento Aberto (.ods). Se no estiver,
assinale. Caso o seu programa seja um similar do LibreOffice Calc (por exemplo, o Excel),
verifique as opes de salvamento, e busque um formato compatvel com o Gretl.
115
Abra o LibreOffice Calc (ou similar), e abra o arquivo onde deseja salvar os
resultados. Em uma planilha em branco, selecione a primeira clula e efetue o comando
colar (ctrl + v). Nomeie a planilha de acordo com a anlise estatstica de qual surgiu os
resultados coletados. Salve o arquivo.
116
Amostra Aleatria.
O Gretl possibilita criar uma amostragem aleatria com um nico comando. Uma vez
que as variveis tenham sido inteiramente carregadas ou criadas no Gretl, basta clicar na aba
Amostra, e selecionar o item sub-amostra aleatria. Uma nova janela ser criada. Digite
na lacuna o tamanho da amostragem aleatria que se pretende gerar. Assim que der ok, o
universo amostral ser reduzido para o nmero selecionado, e os valores sero selecionados
atravs de um algarismo que simula a aleatoriedade.
amostra. Na janela que surgiu, foi digitado o seguinte comando: ano=1870. Esse
comando foi o critrio estabelecido, composto pelo nome da varivel a ser utilizada de base
para restrio, e pelo valor critrio. Dessa forma, a amostragem foi reduzida apenas para as
amostras cujo valor da varivel ano era igual a 1870.
119
Ano
Cami
-nho
Carto
grafia
Cient
-fico
Clim
a
Comr- Cultur
cio
a
Hidro
Demo- Mapea- Milita Problegrafia grafia Lngua mento r
mas
Recursos
Poltica
1870
1871
1872
1873
1874
1875
1876
1877
1878
1879
25
11
1880
89
36
1881
50
1882
61
1883
51
14
11
1884
53
12
1885
83
14
12
1886
32
13
1887
33
1888
47
10
20
10
18
14
12
1889
57
12
14
11
14
120
121
O teste de normalidade pode ser feito de duas formas diferentes no Gretl. A primeira
consiste no uso do comando teste de normalidade, da aba Variveis (lembre-se de
selecionar previamente a varivel que deve ser analisada). O segundo, consiste no uso do
comando de distribuio de frequncias testado contra a curva normal.
Para realizar o segundo mtodo, selecione a varivel a ser investigada. Em seguida,
selecione o comando Distribuio de frequncia, na aba Variveis. Na janela que surgir,
selecione o item testar contra a distribuio normal.
seguida, digite o valor observado que se deseja verificar. No exemplo, escolhemos o valor 94,
que era o valor da varivel total (total de artigos sobre a frica nos boletins da Sociedade
Geogrfica Italiana entre 1870 e 1889), para o ano de 1882.
123
Assim que der ok, ser gerada uma janela com os resultados da matriz. Nela, haver
a relao das correlaes Paerson das variveis (onde 1 ser correlao direta total, e -1 a
correlao inversa total). Essa matriz permitir ao pesquisador identificar facilmente a
existncia da correlao, mas no a natureza da mesma.
ti
1,0000
ti
pibr
fbkr
iedr
ft
ti
pibr
fbkr
iedr
ft
consr
Para verificar a natureza da relao entre duas variveis e, portanto, identificar qual o
melhor modelo de regresso a ser aplicado, ser necessrio criar um grfico de disperso das
variveis. O Gretl apenas pode gerar um grfico desse tipo por vez. No entanto, possui um
mecanismo que permite testar diferentes modelos regressores no prprio grfico.
124
Para gerar o grfico selecione a aba ver. Clique no item Grfico das variveis, e
nele selecione X-Y em disperso. Surgir uma nova janela. Nela, selecione as variveis a
serem testadas. Aconselha-se que a varivel do eixo X seja a varivel independente
(explicativa), e no eixo Y a varivel explicada, de acordo com a regresso que se pretende
testar. Por exemplo, se desejar verificar em uma regresso a ser realizada o quanto o
investimento estrangeiro direto (IED) pode explicar o PIB da China, no grfico de disperso
das variveis deve-se colocar o IED no eixo X. Isso permitir perceber que tipo de desenho o
PIB chins adquiriu em relao ao investimento estrangeiro.
Atravs desse comando, ser gerado o grfico de disperso com uma linha de
tendncia calculada pelo modelo linear. No entanto, essa linha de tendncia pode no ser a
mais adequada para descrever a relao entre as variveis. Caso o modelo linear no parea
adequado, possvel gerar outras linhas de tendncia. No canto inferior direito da janela do
grfico haver um smbolo de um papel e um lpis (smbolo de editar). Ao clicar nele, surgira
uma janela de controle do grfico. Na aba principal, existir um item denominado linha de
ajustamento. Selecione outro modelo e clique em ok. A linha de tendncia ser atualizada
no grfico. Repita esse procedimento at achar o modelo mais adequado (aquele que aparentar
expressar de melhor forma o movimento dos pontos do grfico).
125
127
129
130
131
A varivel que ser gerada ser o perfil cclico com valores em porcentagem. Pode-se
gerar um grfico, clicando com o boto direito nela e selecionando o item grfico de srie
temporal (caso se trate de uma srie temporal). Uma alternativa clicar duas vezes na
varivel, e copiar o contedo para um software de apresentao de dados.
Regresso sem intercepto
A regresso linear sem intercepto costuma ser usada para verificar o movimento
esperado de uma parte de uma varivel descritiva pelo todo, como o estudante deve recordar.
Esse tipo de regresso pode ser til para o estudo do comportamento, por exemplo, de um tipo
132
Regresso linear
A regresso linear se caracteriza por: (1) possuir um valor constante (intercepto) de
qual a regresso parte; (2) o aumento da varivel dependente se d em progresso aritmtica.
A formula da regresso ficaria Yi = a + bXi + cZi (...). Dessa forma, os coeficientes
133
134
Regresso log-linear.
A regresso log-linear utilizada para descrever o crescimento geomtrico de uma
varivel dependente em relao s independentes. Por exemplo, o crescimento do PIB em
relao ao tempo pode ser geomtrico. Para realizar esse procedimento atravs do mtodo dos
mnimos mltiplos quadrados, ser necessrio transformar a varivel dependente em
logaritmo, ao passo que a varivel independente deve ser mantida inalterada. O problema
desse modelo que todos os valores para a dependente sero referentes ao logaritmo da
mesma. Da resulta que os valores ajustados precisam ser deslogaritmizados antes de serem
analisados. Ainda, para possibilitar uma anlise mais palatvel dos resduos, eles precisaro
ser recalculados na forma deslogaritimizada.
Para preparar previamente a varivel logartmica da varivel dependente no Gretl,
clique com o boto direito em qualquer lugar dentro da planilha de trabalho e selecione
definir nova varivel. Uma alternativa selecionar a aba acrescentar, e clicar no item
definir nova varivel. Na janela que aparecer, digite o comando [nome da varivel
dependente logaritmizada] = log10([nome da varivel dependente original].
135
Para gerar o perfil cclico da regresso log-linear, deve-se clicar na aba salvar e
selecionar o item valores ajustados. Na janela que aparecer, escreva o nome desejado para
a varivel ajustada. No quadro descrio, descreva que se trata do ajuste do logaritmo da
varivel dependente explicado pela varivel independente.
136
Regresso recproca.
A regresso recproca caracterizada pela relao da varivel dependente com a
inversa da independente. Dessa forma, a equao da regresso ficaria descrita: Y = a +
b*(1/Xi). Por isso, o sinal do coeficiente ser invertido em relao dependente no invertida.
Por isso, a elasticidade ser descrita por -1/B.
Para preparar a regresso recproca pelo mtodo dos mnimos quadrados ordinrios,
ser necessrio produzir previamente a varivel inversa da varivel independente (1/Xi).
Para gerar a inversa da varivel independente, utilize o comando definir nova
varivel. Na janela de comando que aparecer, digite: [nome da varivel inversa da varivel
independente] = 1/[varivel independente].
137
pcftinpibr
0,6
0,4
0,2
0
-0,2
-0,4
-0,6
-0,8
1999
2001
2003
2005
2007
2009
2011
ajftinpibr
8,2e+008
8e+008
7,8e+008
7,6e+008
7,4e+008
7,2e+008
7e+008
1999
2001
2003
2005
2007
2009
2011
140
No exemplo, a regresso quadrtica com o PIB real chins como varivel dependente
e o investimento estrangeiro direto na china como varivel independente, a equao de
regresso atingida foi: pibr = 2,11327e+06 (48,2533*iedr) + (0,000628879 * (iedr^2)).
Regresso Cbica
A regresso cbica um modelo que busca expressar a existncia de trs foras
distintas em uma mesma varivel independente sobre uma varivel dependente. Cada uma
dessas foras possui sua prpria velocidade de crescimento. A frmula pode ser descrita da
seguinte forma: y= a + bXi + cXi2 + dXi3.
Portanto, para produzir esse modelo atravs do mtodo dos mnimos quadros
ordinrios, ser necessrio gerar previamente a varivel do quadrado da independente, e a
141
142
foi acima de 0,05. Isso significa que, apesar do poder explicativo da regresso, no possvel
afirmar que as variveis independentes de fato sirvam como explicativas para a varivel
dependente.
Regresso Polinomial.
O estudante deve lembrar que existem diferentes modelos de regresso polinomial,
mas indicasse o seguinte modelo: yi= a + bzi + c*log(xi) + d(zi 2) + e(log(yi) * xi). Dessa
forma, seria necessrio gerar previamente as variveis independentes: (i) log da varivel
dependente (xi) ; (ii) quadrado da varivel dependente (zi); (iii) log da dependente vezes a
independente observada.
Devido a essa composio da frmula de regresso polinomial, os coeficientes no
serviro mais como simples preditores, visto que algumas das variveis so valores
modificados dos valores observados da varivel dependente. Dessa forma, para saber quanto
seria o valor esperado pela regresso polinomial, necessrio saber qual foi o valor realmente
observado. No entanto, esse modelo permite realizar regresses de alta preciso, e detectar as
mudanas sutis na varivel dependente. Isso permite detectar crises e perodos de abundncia,
mesmo partindo de patamares realistas para a previso econmica, por exemplo.
Para gerar as variveis necessrias para a regresso polinomial, no Gretl, utiliza-se
do comando definir nova varivel. A lista de frmulas para as variveis : [logaritmo da
dependente] = log10([varivel dependente] ; [quadrado da independente] = [varivel
independente] ^ 2 ; [logaritmo da dependente vezes a independente] = (log10([varivel
dependente]) * [varivel independente]).
Ao acionar o modelo de mnimos quadrados ordinrios, ser necessrio garantir que
as seguintes variveis constem no quadro de regressores: const(constante); [varivel
independente] ; [logaritmo de independente] ; [quadrado da independente] ; [logaritmo da
dependente vezes a independente].
144
Caso haja mais de duas categorias, ser necessrio utilizar mltiplas variveis categricas para
emular o mesmo efeito.
Regresses alternativas.
O Gretl possue mtodos de regresso alternativos ao mtodo dos mnimos quadrados
ordinrios. O Action possui a ferramenta de regresso generalizada. O Gretl possui uma gama
maior de ferramentas, mas no inclui (como ferramenta rpida) a de generalizao pela
147
Para gerar uma regresso logit, no Gretl, necessrio selecionar a aba Modelo. Em
seguida, selecione o item Varivel Limitada Dependente. Nele, selecione modelo Logit.
Por ltimo, escolha o tipo de varivel dependente (binria, ordenada, ou multinomial.
Na janela que abrir, selecione a sua varivel dependente. No quadro dos regressores
certifique-se que todas as variveis independentes desejadas foram selecionadas. Retire a
varivel const do quadro. Selecione os itens erros robustos, e p-valores. Por ltimo,
aperte ok.
Isso far aparecer o quadro do resultado da anlise de regresso. No quadro, esto
disponvel os coeficientes, o p-valor dos coeficientes, o R2 da regresso, o p-valor do teste F, e
o teste de adequao da regresso.
148
ano anterior, do que com o trimestre anterior. Nesses casos possvel realizar a regresso com
ajuste sazonalizado, possibilitando a anlise dos resduos
150
151
152
153
Modelo AR(1)
O modelo AR(1) muito utilizado para corrigir a autocorrelao positiva de erros de
regresses geradas pelo mtodo dos mnimos quadros ordinrios. No gretl, para gerar essa
regresso, basta seleciona o item AR(1), dentro de Series Temporais, da aba modelos.
Esse comando gerar uma janela muito similar quela do mnimos quadrados
ordinrios. Alm de selecionar a varivel dependente e as independentes, deve-se selecionar
um dos modelos de clculo para o fator r (de correo da autocorrelao dos erros).
Recomenda-se o modelo Cochrane-Orcutt. Caso esse no seja capaz de gerar a regresso,
154
155
156
Isso far surgir uma nova janela. Ser necessrio digitar as equaes desejadas. Isso
deve ser feito da seguinte forma: (a) digite o termo equation; (b) digite o nome da varivel
dependente para primeira regresso; (c) digite o nome das variveis independentes dela
157
(includo o termo const para constante, se houver); (d) aparte enter e digite o termo
equation; (e) digite o nome da varivel dependente da segunda regresso; e (f) digite o
nome das variveis independente da segunda regresso. Se houver uma terceira regresso,
basta inserir mais uma equao, utilizando o termo equation na linha seguinte. Antes de dar
ok, verifique se na caixa estimador, est selecionado o item Regresso Aparentemente
No Relacionadas.
Ao dar ok, aparecer uma janela onde constar o resultado das duas regresses.
Alm dos dados dos coeficientes calculados, levando em conta a covarincia dos erros, a
janela fornecer a correlao dos erros das duas regresses. Observe que a correlao zero
significar a inexistncia de correlao dos erros, o que significa que o mtodo SUR no
adequado. Note que apenas a segunda equao conter um R 2. Isso ocorre porque o R2 da
regresso ser compartilhado por todo o modelo, valendo para as duas regresses.
158
159
160
Bibliografia
BARBOSA, Wilson do Nascimento. A CRISLIDA: Aspectos Histrico-Econmicos do Fim
da Escravido no Brasil, 1850-1888. USP: 1993.
BARBOSA, Wilson do Nascimento. Balano do perodo 1940-1964 na economia brasileira:
uma viso de longo prazo. So Paulo: USP, 1982.
BRAUDEL, Fernand. Civilizao Material, Economia e Capitalismo, Sculos XV XVIII.
Vol.2. So Paulo: Martins Fontes, 1998.
CARONE, Edgard. A Repblica Velha. Vol 1. So Paulo: DIFEL, 1970.
FURTADO, Celso. Formao Econmica do Brasil. So Paulo: Companhia Editora Nacional,
1970.
HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. Saraiva, 2003.
IANNI, Octavio. Estado e Planejamento Econmico no Brasil. Rio de Janeiro: Edio
Brasileira, 1980.
LIMA, Heitor Ferreira. Formao Industrial do Brasil. Rio de Janeiro: Fundo de Cultura,
1961.
MARTINS, Carlos Estevam. Estado e Capitalismo no Brasil. So Paulo, HUCITEC, 1977.
PAGANO, Athos. Lies de Estatstica. So Paulo: Prefeitura de So Paulo, 1943.
SCHINCARIOL, Vitor Eduardo. Crescimento Econmico no Brasil, 2003 2010. So Paulo:
LCTE Editora, 2012.
Stios de Internet
http://gretl.sourceforge.net/
161